09:44 26 Января 2023 Технологии 6339

Нейросеть «Яндекса» научилась расшифровывать рукописные архивные записи

«Яндекс» научила нейросеть расшифровывать архивные записи со сложной дореволюционной орфографией — теперь сложные рукописи она мгновенно превращает печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.

Новый алгоритм построен на основе системы оптического распознавания и при расшифровке учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов. Опробовать технологию в действии можно в сервисе «Поиск по архивам», который доступен уже сейчас и содержит более 2,5 млн страниц исторических документов с текстовой расшифровкой.

Обучение нейросети проходило на базе сотен реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. В работе также принимали участие эксперты, которые контролировали качество распознания. По словам компании, новый сервис будет полезен для историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, а затем были добавлены документы из архивов Оренбургской и Новгородской областей. Со временем объём хранилища будет расширен.

Для удобного поиска в сервисе предусмотрен поиск по каталогу или через строку поиска с возможностью применения фильтров по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». А если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах "Яндекса"», — отмечает Елена Бубнова, руководитель «Яндекс Поиска».