(редакция от 24.09.2025)

OCR и ИИ распознавание

Мы следим за развитием технологий и стараемся применять их в тех случаях, когда это возможно. На сегодняшний день технологии машинного распознавания текста позволяют решать задачи, нерешаемые вручную, но не всегда применимы к работе по набору описей.

Для машинописных описей мы используем технологическую базу Генотека, которая хорошо справляется с русскоязычными текстами и выдает отфильтрованный текст без разбивки на заголовки + необработанные данные с координатами букв/слов на скане. Мы сразу же загружаем отфильтрованный текст в систему, а эти необработанные данные в полуавтоматическом режиме переводит в табличную форму Михаил Соломенник т.к. формуляры и особенности расположения текста во всех описях разные, универсального решения задачи без нейросети нет). Переведенные в табличную форму данные также сразу же появляются у волонтеров в качестве вспомогательного материала при наборе (и Генотек, и Михаил помогают нам на волонтерских началах).

Если машинописная опись хорошо отсканирована, текст контрастен и имеет изначально четкое форматирование (текст четко укладывается внутри каждой строки и каждого столбца, не выходя за пределы, и есть достаточный визуальный отступ между строками), то удается получить довольно чистую таблицу предварительного распознавания. Далее волонтер корректирует предварительно-распознанный текст и переносит его в итоговую таблицу. Это сильно ускоряет процесс.

Но если машинописная опись плохого качества, либо опись рукописная – качество распознавания оказывается низким и приходится исправлять почти каждое слово. Поэтому мы вообще не используем технологии распознавания для таких случаев – опыт показал, что быстрее набирать с нуля.

Некоторые современные нейросети позволяют распознавать машинописный текст в табличную форму автоматически (это было бы существенно удобнее, чем текущая схема работы), но все они – платные (стоимость распознавания может быть от 2-3 руб./страница). Наш проект – некоммерческий, поэтому мы можем внедрить применение такой технологии только в случае, если кто-то возьмется его постоянно спонсировать.

Качественного распознавания рукописного русскоязычного текста мы, пока что, не видели – ни текста советского периода, ни дореволюционного. Если и когда такие технологии появятся, то при наличии спонсора мы сможем их внедрить.

Периодически нам пишут энтузиасты, утверждающие, что распознавать рукопись качественно – не трудно, и что вот-вот покажут, как это у них получается (и вскоре исчезают навсегда). Тем не менее, мы будем рады помощи в улучшении нашей текущей системы распознавания. Учитывая, что у нас нет ни лишних рук, ни бюджета, помощь сможем принять в формате готового скрипта, который будет обеспечивать для машинных описей перевод текста в табличную форму, а для рукописных – в любую, но так, чтобы не нужно было править каждое второе слово. И если скрипт будет предполагать использование платных нейросетей – нужно еще и спонсирование.

P.S. Важно иметь ввиду, что проекты по распознаванию почерка одного человека (напр., Петра I), либо по распознаванию документов определенного типа (напр., метрических книг), слабо применимы к распознаванию произвольного текста, написанного произвольным почерком.

Если речь о распознавании текста отдельного писаря – то довольно просто обучить программу читать все варианты начертания и связывания его букв. Если речь о формульном документе со однотипным содержанием, не трудно научить программу читать формулу. И не трудно обучить систему находить в тексте топонимы или имена собственные. И можно распознать столько, сколько получится, и получить поиск "на удачу".

Но в общем виде задача пока что нерешаема, а для наших целей нужно именно решение в общем виде.

Если Вы обнаружили ошибку в описи, пожалуйста, выделите фрагмент и нажмите CTRL+ENTER для внесения исправления!

Партнеры