Я уже как то писал об этом но время от времени я возвращаюсь к этлй мысли
Я уже как то писал об этом, но время от времени я возвращаюсь к этлй мысли.
Когда я делал хасидус.ру — значительная часть сайта это просто отсканированные книги — у мння было немало времени подумать как работает OCR (программа распознавания текста).
На самом элементарном уровне распознавание каждого символа это сравнение с эталоном.
100% никогда нет. Можно сказать что это бкува а с уверенностью 90% или б с уверенностью 80% и тд
После того как буквы распознаны идет работа со словарем. Есть ли такое слово (скажем ав) в словаре.
Если слово найдено хорошо. Если нет берется следующий набор моделей.
Понятно что есть свой набор моделей для обычного шрифта и для курсива и для жирного шртфта и тд. Чем больше моделей тем точнее распознавание.
Многие вещи в нашей жизни это «коах медаме» — буквалтно сравнение с моделями.
Что если наши модели неточны или неполны?
Что если у нас есть только светмкая или только религиозная модель? Что если в религии у нас есть только хабадская (бреславская, литовская, национально-религиозная модель)?
Мы не можем знать заранее какая модель лучше других подойдет к той или иной ситуации. Но мы можем работать над тем, чтобы наши модели были как можно точнее и обьясняли как можно большее количество явлений (это то что называется «когерентностью» и является одним из ьазовыз критериев истины)