Рынок интеллектуальной обработки документов быстро растет: к 2033 году его объем может приблизиться к $30 млрд. Это неудивительно: в банках, финтехе, страховании, телекоме и HR документы обрабатываются в огромных объемах. В финтехе счет идет на сотни тысяч анкет, паспортов, договоров и юридических форм в месяц; в крупных банках – на 150-300 тыс. документов.

При таких масштабах даже одна ошибка в извлеченных реквизитах превращается в риск некорректной идентификации, повторной проверки, отказа добросовестному клиенту, нарушения внутреннего регламента или претензии со стороны регулятора. Поэтому в идентификации опасен не только ручной ввод, но и новая мода на LLM для обработки документов: там, где системе нужно вернуть написанное as is, генеративная модель может начать «улучшать» результат – достраивать, исправлять и пытаться нормализовать то, что должно быть извлечено без домыслов.

В статье рассказываем, почему для идентификации нужны специализированные OCR-системы, а не языковые модели, которые пытаются угадать там, где бизнесу нужен проверяемый факт.

Идентификация – это не про распознавание «в общих чертах»

Идентификация – это процедура установления сведений о клиенте, представителе клиента, выгодоприобретателе или бенефициарном владельце и подтверждения достоверности этих сведений на основании документов. В бизнес-процессах она нужна при открытии счета, выдаче кредита, оформлении страховки, регистрации в сервисе, трудоустройстве, получении услуг с возрастными ограничениями, валютно-обменных операциях, проверке доверенностей и других сценариях, где организация обязана знать, с кем именно имеет дело.

На уровне интерфейса все выглядит просто: клиент показывает паспорт, система считывает данные. Но с юридической и технологической точек зрения речь идет не о фиксации изображения и не об интерпретации содержания, а о формализованном извлечении реквизитов, при котором каждый символ должен точно соответствовать первоисточнику.

Обычно из документа извлекаются:

ФИО;
Дата и место рождения;
Гражданство;
Серия и номер документа, дата выдачи, код подразделения, орган выдачи;
Фотография, подпись;
Данные со страниц регистрации, семейного положения, детей, воинского учета и других отметок.

Процесс идентификации регулируется 115-ФЗ, 152-ФЗ, нормативными актами Банка России, а также внутренними правилами комплаенса и информационной безопасности. По 115-ФЗ организации, осуществляющие операции с денежными средствами или иным имуществом, обязаны идентифицировать клиента; если идентификация не проведена в установленном порядке, клиенту должны отказать в обслуживании. Нарушения в сфере ПОД/ФТ могут обернуться штрафами по статье 15.27 КоАП РФ: для юрлиц – до 400 тыс. рублей или административное приостановление деятельности до 60 суток.

В таких условиях система распознавания должна работать не как «умный помощник», а как точный инструмент ввода юридически значимых данных. Ее задача – не догадаться, что вероятно имелось в виду, а вернуть ровно те реквизиты, которые указаны в документе.

Почему LLM не подходят для идентификации

Большие языковые модели проектировались не для юридически точного ввода реквизитов. Их сильная сторона – работа с естественным языком: диалог, резюмирование, генерация формулировок, поиск контекста, обобщение. Но идентификация предъявляет другой набор требований: воспроизводимость, трассируемость, посимвольная уверенность, контроль персональных данных, скорость, автономность и отсутствие генерации.

Главные проблемы LLM:

Вероятностная природа результата

Модель может не просто ошибаться, а делать это убедительно. Она способна заменить редкое сочетание символов более частым, «исправить» номер, привести адрес к ожидаемой форме, восстановить пропущенный фрагмент или выдать структурированный ответ там, где исходное изображение не дает достаточных оснований для уверенности.

Слабая доказуемость

Для идентификации недостаточно получить текстовое значение поля. Нужно понимать, откуда оно взято: из какой зоны документа, с какой уверенностью, на основании какого изображения, с возможностью проверить результат вплоть до символа. Без координат, оценки уверенности и кросс-проверок ответ превращается в «мнение модели».

Персональные данные

Документы, удостоверяющие личность, содержат одну из самых чувствительных категорий информации. Если обработка уходит в стороннюю LLM, организация теряет полный контроль над изображением документа и извлеченными реквизитами. Для банков, МФО, страховых компаний, телекома, HR и госсектора это недопустимо.

LLM уместны там, где допустима вариативность. Идентификация требует технологии другого класса: специализированного OCR и предметного ИИ, который не сочиняет наиболее вероятный ответ, а извлекает проверяемые данные из документа.

Почему 90% точности – слабый результат

Иногда в задачах OCR точность 90-95% может показаться приемлемой. Но в идентификации такой уровень бесполезен: бизнесу важно не то, насколько хорошо система распознает документ «в среднем», а сколько паспортов проходят обработку полностью без ошибок. Один неверный символ в серии, номере, дате выдачи или ФИО уже делает результат непригодным для автоматической загрузки в анкету, договор или KYC-контур.

Кейс компании «Росагролизинг» объясняет это в цифрах. Компания использует технологию Smart Engines для автоматического ввода данных из документов лизингополучателей: из 1000 паспортов 984 обрабатываются без единой ошибки. Речь об основном развороте, где в среднем около 200 значимых символов.

Чтобы весь разворот был распознан корректно, система должна верно считать каждый из этих символов. Если вероятность безошибочной обработки документа равна 984/1000, то посимвольная точность считается как X²⁰⁰ = 0,984. Отсюда X ≈ 0,99992, то есть около 99,99% на уровне символа.

Пока система не дотягивает до такого уровня, она не снимает нагрузку, а перераспределяет ее: сотрудники продолжают перепроверять документы, добросовестные клиенты сталкиваются с ложными отказами, а ошибки в реквизитах попадают в учетные системы.

Smart Engines: предметный ИИ для идентификации без домыслов

Технологии Smart Engines созданы для сценариев, в которых документ является источником юридически значимых данных. Система распознает удостоверяющие документы на фото, сканах и в видеопотоке, работает в мобильных, веб-, десктопных и серверных сценариях, автоматически определяет тип документа и извлекает структурированные реквизиты без ручного ввода.

Возможности ИИ Smart Engines:

Распознавание паспорта РФ на смартфоне за 0,15 секунды и до 125 паспортов в секунду на сервере;
Работа без GPU и NPU, в том числе на мобильных устройствах и в контуре заказчика;
Распознавание печатных и рукописных реквизитов;
Поддержка фото, сканов, видео и сложных условий съемки;
Автоматическое определение типа документа и шаблона;
Работа с текстом на более чем 100 языках и поддержка документов России, СНГ и удостоверяющих документов 210+ юрисдикций мира;
Проверка подлинности, выявление признаков подделки, копии, цифрового вмешательства, синтеза и пересъемки с экрана;
On-premise-обработка: изображения документов не передаются во внешние сервисы.

В результате бизнес получает устойчивый процесс идентификации без лишней ручной работы. Документы быстрее попадают в анкеты, договоры, CRM, АБС, KYC- и HR-системы; сотрудники тратят меньше времени на перепроверку реквизитов; клиенты быстрее проходят онбординг в офисе, приложении или на сайте. В конечном счете снижается нагрузка на фронт-офис и бэк-офис, сокращаются очереди, уменьшается число ошибок в учетных системах и растет конверсия в цифровых каналах.

Отдельный эффект – контроль над рисками. On-premise-обработка позволяет не передавать изображения документов и персональные данные во внешние сервисы, а проверяемый результат с привязкой к документу помогает выдерживать требования комплаенса и ИБ. Бизнес получает автоматизацию, которой можно доверять: без галлюцинаций LLM, без «улучшения» реквизитов и без необходимости вручную перепроверять каждый ответ модели.

Smart Engines разрабатывает технологии распознавания и проверки подлинности документов для банков, МФО, страховых компаний, телекома, HR, госсектора и других отраслей, где ошибка в реквизите стоит слишком дорого. Если в вашем процессе все еще есть ручной ввод, повторные проверки и риск утечки персональных данных, Smart Engines поможет перевести идентификацию на новый уровень: без очередей, без лишней ручной работы и без галлюцинаций LLM.

Российский рынок корпоративного ПО для распознавания документов претерпевает серьезные изменения. Сегодня для финтеха, телеком-операторов, крупного бизнеса и госструктур на передний план выходят соответствие задачам импортозамещения и отказ от использования зарубежного ПО. В этих условиях российские компании ищут отечественную альтернативу зарубежному ПО Kofax, которое обладает аналогичным или даже более обширным функционалом…

Паспорт без домыслов: почему большим языковым моделям (LLM) не место в идентификации

Идентификация – это не про распознавание «в общих чертах»

Почему LLM не подходят для идентификации

Главные проблемы LLM:

Почему 90% точности – слабый результат

Smart Engines: предметный ИИ для идентификации без домыслов

Информация об авторе

Паспорт без домыслов: почему большим языковым моделям (LLM) не место в идентификации

Идентификация – это не про распознавание «в общих чертах»

Почему LLM не подходят для идентификации

Главные проблемы LLM:

Почему 90% точности – слабый результат

Smart Engines: предметный ИИ для идентификации без домыслов

Информация об авторе

Похожие статьи

KYB по 115-ФЗ: как ускорить ПОД/ФТ и снизить риск ошибок с помощью ИИ

РКО без очередей: как банки ускоряют обслуживание с помощью ИИ для распознавания паспорта

Лучшая альтернатива Kofax. Российская технология распознавания документов