nickita startcev (nicka_startcev) wrote,
nickita startcev
nicka_startcev

Categories:

Никольский, справочник химика

а у кого-нибудь есть ЭТО в распознанном вычитанном электронном виде?
нет?
ну, я так и думал..

а теперь думаю (абстрактно, а не как урководство к действию), а не написать ли некую нейросеть плюс обвязку, примерно такую

1. бьём на строки и буквы сканы страниц
2. каждый кандидат в букву подаем на вход типа-нейросети
3. пробел тоже буква, его распознавать - отдельная засада
4. сканируем построчно, переводы-строк обра-батываем осо-бым способом, на выходе имеем типа-строку из образов букв (пробел тоже буква)
5. набор образов букв распознаем сетью, получаем не один результат, а этак пяток наиболее вероятных вариантов
6. а-ля Т9. еще одна обученная структура, которая знает Словарь, по результатам п5 выбирает подходящее. иногда - строго ровно однозначно, иногда с (регулируемым) сомнением.
7. вычитываем, обращая внимание на сомнительные слова с списком вариантов

думаю, что такая куча натренированных на нужном контенте бобработчиков будет более-менее четко вычленять слова, примерно как "гумнитарий-перевводчик с иносраного языка".
Subscribe

  • откопал мутанта

    досбокс, под ним win311, под ним вин16 игрушка. донастроил до 1280х1024, ибо 1680х1050 досбокс/вин311 не умеет. не драйвер же писАть расширение для…

  • псевдоопечатка

    теория становится материальной силой, когда овладевает _к_ассами

  • дыбр, погромистское

    из камеры что-то прёт, по обещаням 640x32 (32, не 320) точек, 1000 (тысяча) кадров/сек. разбираюсь с декодированием в png а потом планирую в ави с…

  • Post a new comment

    Error

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

    When you submit the form an invisible reCAPTCHA check will be performed.
    You must follow the Privacy Policy and Google Terms of use.
  • 1 comment