Добавить опись в набор самому нельзя, нужно обратиться к куратору по конкретному архиву. Если Вы уже имеете опыт набора, то напишите в соответствующий чат в Телеграме о своем желании: https://t.me/velikie_opisi/8898 (если в списке нет нужного чата - то в основной, в который и ведет ссылка).
Если Вы только присоединились и набрали менее 100 заголовков, пожалуйста, попробуйте сначала понабирать то, что уже добавлено, чтобы убедиться, что этот вид деятельности не наскучит Вам слишком быстро. Добавление в набор описи требует согласование ее с архивом (если с этим архивом налажено сотрудничество), поэтому мы хотим быть уверены, что согласовав для Вас опись, сможем дойти до ее полностью набранного состояния (к сожалению, неоднократно были случаи, когда люди просили для набора опись, мы договаривались с архивом, и в итоге опись никто не набирает, а архив ждет от нас результата).
Мы следим за развитием технологий и стараемся применять их в тех случаях, когда это возможно. На сегодняшний день технологии машинного распознавания текста позволяют решать задачи, нерешаемые вручную, но не всегда применимы к работе по набору описей.
Для машинописных описей мы используем технологическую базу Генотека, которая хорошо справляется с русскоязычными текстами и выдает отфильтрованный текст без разбивки на заголовки + необработанные данные с координатами букв/слов на скане. Мы сразу же загружаем отфильтрованный текст в систему, а эти необработанные данные в полуавтоматическом режиме переводит в табличную форму Михаил Соломенник т.к. формуляры и особенности расположения текста во всех описях разные, универсального решения задачи без нейросети нет). Переведенные в табличную форму данные также сразу же появляются у волонтеров в качестве вспомогательного материала при наборе (и Генотек, и Михаил помогают нам на волонтерских началах).
Если машинописная опись хорошо отсканирована, текст контрастен и имеет изначально четкое форматирование (текст четко укладывается внутри каждой строки и каждого столбца, не выходя за пределы, и есть достаточный визуальный отступ между строками), то удается получить довольно чистую таблицу предварительного распознавания. Далее волонтер корректирует предварительно-распознанный текст и переносит его в итоговую таблицу. Это сильно ускоряет процесс.
Но если машинописная опись плохого качества, либо опись рукописная – качество распознавания оказывается низким и приходится исправлять почти каждое слово. Поэтому мы вообще не используем технологии распознавания для таких случаев – опыт показал, что быстрее набирать с нуля.
Некоторые современные нейросети позволяют распознавать машинописный текст в табличную форму автоматически (это было бы существенно удобнее, чем текущая схема работы), но все они – платные (стоимость распознавания может быть от 2-3 руб./страница). Наш проект – некоммерческий, поэтому мы можем внедрить применение такой технологии только в случае, если кто-то возьмется его постоянно спонсировать.
Качественного распознавания рукописного русскоязычного текста мы, пока что, не видели – ни текста советского периода, ни дореволюционного. Если и когда такие технологии появятся, то при наличии спонсора мы сможем их внедрить.
Периодически нам пишут энтузиасты, утверждающие, что распознавать рукопись качественно – не трудно, и что вот-вот покажут, как это у них получается (и вскоре исчезают навсегда). Тем не менее, мы будем рады помощи в улучшении нашей текущей системы распознавания. Учитывая, что у нас нет ни лишних рук, ни бюджета, помощь сможем принять в формате готового скрипта, который будет обеспечивать для машинных описей перевод текста в табличную форму, а для рукописных – в любую, но так, чтобы не нужно было править каждое второе слово. И если скрипт будет предполагать использование платных нейросетей – нужно еще и спонсирование.
P.S. Важно иметь ввиду, что проекты по распознаванию почерка одного человека (напр., Петра I), либо по распознаванию документов определенного типа (напр., метрических книг), слабо применимы к распознаванию произвольного текста, написанного произвольным почерком.
Если речь о распознавании текста отдельного писаря – то довольно просто обучить программу читать все варианты начертания и связывания его букв. Если речь о формульном документе со однотипным содержанием, не трудно научить программу читать формулу. И не трудно обучить систему находить в тексте топонимы или имена собственные. И можно распознать столько, сколько получится, и получить поиск "на удачу".
Но в общем виде задача пока что нерешаема, а для наших целей нужно именно решение в общем виде.
Если Вы обнаружили ошибку в описи, пожалуйста, выделите фрагмент и нажмите CTRL+ENTER для внесения исправления!