«Яндекс» научил нейросети расшифровывать записи с дореволюционной орфографией
Новости Интернет
Компания «Яндекс» научила нейросети расшифровывать архивные записи со сложной дореволюционной орфографией. Об этом говорится в сообщении компании.
Попробовать технологию в действии можно уже сейчас в сервисе «Поиск по архивам»: он открывает всем желающим доступ к более чем 2,5 миллиона страниц исторических документов с текстовой расшифровкой.
Как отмечают в «Яндексе», новый алгоритм, который разработан на основе системы оптического распознавания символов, учитывает особенности почерка, способен распознавать утратившие актуальность буквы и понимает особую структуру архивных документов.
Специалисты «Яндекса» обучили нейросеть на массиве данных, состоящем из сотен тысяч рукописных строк, взятых из реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. Материалы для обучения размечали и расшифровывали эксперты, они же контролировали качество распознавания.
Рукописи, которые неподготовленному человеку сложно разобрать, технология «Яндекса» почти мгновенно превращает в печатный текст, отмечают в компании. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населенного пункта или любых других слов.
|
Все рубрики статей (824 / 824):
|
|