Нейросеть «Яндекса» научилась расшифровывать рукописные архивные записи
Обучение нейросети проходило на базе сотен реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. В работе также принимали участие эксперты, которые контролировали качество распознания. По словам компании, новый сервис будет полезен для историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, а затем были добавлены документы из архивов Оренбургской и Новгородской областей. Со временем объём хранилища будет расширен.
Для удобного поиска в сервисе предусмотрен поиск по каталогу или через строку поиска с возможностью применения фильтров по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». А если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.
«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах "Яндекса"», — отмечает Елена Бубнова, руководитель «Яндекс Поиска».