Отчет о мошенничестве с поддельными документами 2025 годаПодробнее

AI OCR для распознавания текста на 100+ языках

logo
logo
logo
logo
logo
logo
logo
logo
logo
logo
Распознавание сканов и фотографий бухгалтерских документов
Распознавание сканов и фотографий бухгалтерских документов
1800 страниц в минуту на сервере без применения GPU
100+ языков Омнифонтовое (шрифтонезависимое) распознавание текста документов
Собственная технология OCR Система оптического распознавания текста на базе собственной технологии OCR
В реальных условиях Распознает сканы и фотографии в реальных условиях и низкого качества
Поддержка рукописи Распознавание полностью рукописных документов, смешанных текстов и пометок
Распознавание без обработки возвращает то, что на бумаге
Минимальный футпринт - 2,7 Мб для веб-страниц и PWA
Оптимизировано для работы с LLM Распознавание текста, оптимизированое для работы с LLM
Работает в контуре (on-premise) автономно, без риска утечки данных и коммерческой тайны
  • 1800 страниц в минуту
    на сервере без применения GPU
    100+ языков
    Омнифонтовое (шрифтонезависимое) распознавание текста документов
    Собственная технология OCR
    Система оптического распознавания текста на базе собственной технологии OCR
  • В реальных условиях
    Распознает сканы и фотографии в реальных условиях и низкого качества
    Поддержка рукописи
    Распознавание полностью рукописных документов, смешанных текстов и пометок
    Распознавание без обработки
    возвращает то, что на бумаге
  • Минимальный футпринт - 2,7 Мб
    для веб-страниц и PWA
    Оптимизировано для работы с LLM
    Распознавание текста, оптимизированое для работы с LLM
    Работает в контуре (on-premise)
    автономно, без риска утечки данных и коммерческой тайны

Как работает распознавание текста

Система оптического распознавания текста на базе собственной AI OCR, предназначенная для быстрого и точного ввода документов на 100+ языках. ПО работает со сканами и фотографиями низкого качества, распознает печатный, рукописный и смешанный текст без лингвистических галлюцинаций, возвращая именно то, что указано на бумаге. Система обрабатывает документы в мобильных, веб-, десктопных и серверных приложениях, работает полностью автономно в контуре заказчика и не требует GPU.Обеспечивает минимальный футпринт для PWA и веба. Распознает входящую корреспонденцию, клиентские документы, финансовые документы и другие со скоростью более 100 тысяч страниц в час на сервере для ввода документов в LLM, СЭД, ERP, CRM и архивы.

Учредители - резиденты РФ Учредители — резиденты РФ
Собственная разработка Собственная разработка
Запись 9617 в реестре ПО Запись 9617 в реестре ПО
Поддержка российских ОС Поддержка российских ОС

Возможности распознавания

  • OCR документа в мобильном, веб, десктоп и серверном приложении
  • Распознавание сканов и фотографий низкого качества
  • Поиск, выравнивание и нормализация документа на фотографии
  • Распознавание документа А4 на смартфоне за 2-3 секунды
  • GreenOCR® — экологичный искусственный интеллект для распознавания текста
  • Уникальные 4.6 битные нейросетевые модели для скоростного распознавания на CPU
  • Распознавание силами CPU, не требует серверов с GPU и NPU
  • Высокоточное распознавание текста на фото и скане
  • Распознавание рукописных текстов, надписей и пометок вне зависимости от почерка
  • Автоматизация ввода текста документов для СЭД и электронных архивов
  • Новаторские малобитные и компактные нейросетевые модели
  • Распознавание печатной и рукописной кириллической письменности
  • Высокоточный OCR для всех языков, базирующихся на латинице
  • Распознавание арабского, фарси, урду, бенгальского, тайского, сингальского и тамильского
  • Распознавание японского, корейского и китайского языков
  • Распознавание иврита, греческого, грузинского и армянского
  • Распознавание многостраничных документов
  • Поиск и распознавание таблиц
  • Потоковое распознавание в контуре (on-premise) со скоростью более 100 тысяч страниц в час на сервере без GPU
  • Надежное распознавание рукописи и печатного текста без лингвистических галлюцинаций
  • AI модели обучены исключительно на синтетических данных

Возможности
интеграции

TextEngine engine = TextEngine.Create(<PATH_TO_CONFIGURATION_FILE>, true);
TextSessionSettings session_settings = engine.CreateSessionSettings();
settings.SetOption("mode", "page");
settings.AddEnabledLanguages("rus:eng:punct:digits");
TextSession session = engine.SpawnSession(settings,  <PERSONALIZED_SIGNATURE>);
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image);

TextResult result = session.GetCurrentResult();
TextScene scene = result.GetCurrentScene();
TextIterator iterator = scene.CreateIterator("default");
while(!iterator.Finished()) {
  String chunk = iterator.GetTextChunk().GetOcrString().GetFirstString().GetCStr();
  chunk_iterator.Advance();
}
std::unique_ptr<se::text::TextEngine> engine(se::text::TextEngine::Create(<PATH_TO_CONFIGURATION_FILE>, true));
std::unique_ptr<se::text::TextSessionSettings> settings(engine->CreateSessionSettings());
settings->SetOption("mode", "page");
settings->AddEnabledLanguages("rus:eng:punct:digits");
std::unique_ptr<se::text::TextSession> session(engine->SpawnSession(*settings, <PERSONALIZED_SIGNATURE>));
std::unique_ptr<se::common::Image> image(se::common::Image::FromFile(<PATH_TO_IMAGE>));
session->ProcessImage(*image);

const se::text::TextResult& result = session->GetCurrentResult();
const auto& scene = result.GetCurrentScene();
auto iterator = scene.CreateIterator("default");
for (; !iterator->Finished(); iterator->Advance()) {
  std::string chunk = iterator->GetTextChunk().GetOcrString().GetFirstString().GetCStr();
}
TextEngine engine = TextEngine.Create(<PATH_TO_CONFIGURATION_FILE>);
TextSessionSettings settings = engine.CreateSessionSettings();
settings.SetOption("mode", "page");
settings.AddEnabledLanguages("rus:eng:punct:digits");
TextSession session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>);
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image);

TextResult result = session.GetCurrentResult();
TextScene scene = result.GetCurrentScene();
for (TextIterator iterator = scene.CreateIterator("default"); !iterator.Finished(); iterator.Advance()) {
  String chunk = iterator.GetTextChunk().GetOcrString().GetFirstString().GetCStr());
}
engine = pytextengine.TextEngine.Create(<PATH_TO_CONFIGURATION_FILE>)
settings = engine.CreateSessionSettings()
settings.SetOption("mode", "page")
settings.AddEnabledLanguages("rus:eng:punct:digits")
session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>)
image = pyidengine.Image.FromFile(<PATH_TO_IMAGE>)
session.ProcessImage(image)

result = session.GetCurrentResult()
scene = result.GetCurrentScene()
iterator = scene.CreateIterator("default")
while not iterator.Finished():
  chunk = iterator.GetTextChunk().GetOcrString().GetFirstString().GetCStr()
  chunk_iterator.Advance()

Автовыбор документов из списка, отсеивание ненужных документов

Уверенность распознавания, координаты объектов, вырезание полей и документов

Возврат зоны принятия решения для проверок подлинности

Операционные системы
Android
iOS
MS Windows
Linux
ОС Аврора
ОС Эльбрус
РЕД ОС
Astra Linux
ОС Атликс
ОС Альт Линукс
Low-code интеграция, простой и понятный REST API
API на
C
C++
C#
Java
Python
PHP
Фреймворки:
React Native
Flutter
интеграция с 1C
Примеры использования на языках
C
C++
C#
Java
Python
PHP
Архитектуры процессоров
х86
x86_64
ARMv7-v8-v9 (AArch32 и AArch64)
MIPS (MIPS32 и MIPS64)
Elbrus
Попробуйте качество наших технологий

Попробуйте качество наших технологий

  • Скачайте мобильное демо-приложение, в котором все возможности собраны воедино
  • Можно на время отключить интернет, чтобы убедиться, что изображения и ваши данные не передаются
  • Извлекайте данные паспортов, удостоверений личности и других документов. Пробуйте распознавать оригиналы и копии при различных условиях съемки.

Заказать продукт

Для заказа решений, получения подробной информации или триал-версий заполните приведенную форму, и мы обязательно с Вами свяжемся.






    Часто задаваемые вопросы

    Программный продукт поддерживает более 100 языков распознавания. Помимо привычных языков, базирующихся на кириллических и латинских алфавитах, решение распознает любые тексты на арабском, китайском, грузинском, армянском, греческом, иврите, корейском и других языках со сложными графическими системами.
    Да. Решение с высокой точностью распознает даже трудноразборчивый рукописный текст, написанный ручкой, карандашом или пером. Поддерживается распознавание букв, цифр и их комбинаций, включая сложные и трудночитаемые слова (например, со схожими символами «ш», «л», «и», «п»), без использования словарей и языковых моделей. Это позволяет извлекать абсолютно всю информацию со страницы, избегая потери значимых сведений.
    Да. Система понимает структуру документа и распознает любые графические элементы, включая сложные табличные формы, печати и подписи. Механизм пространственного внимания позволяет ИИ «фокусировать взгляд» на наиболее значимых областях и игнорировать второстепенный фон. За счет этого система в автоматическом режиме проверяет наличие нужных подписей и подтверждает правильность оформления документов.
    Да. В основе решения лежит комплекс сверхкомпактных нейросетевых архитектур, за счет чего задачи распознавания выполняются прямо на CPU мобильного телефона, планшета или ноутбука. Для извлечения текста достаточно просто навести камеру смартфона на документ — система распознает его содержание менее чем за секунду даже без стабильного интернет-соединения.
    Программный продукт извлекает данные из документов в исходном виде «как есть» (as is), без какого-либо вмешательства в данные. Это отличает его от генеративных моделей, склонных к «додумыванию» в условиях отсутствия информации.
    Да. Система нетребовательна к качеству поступающих изображений и сканов — текст извлекается даже с фотографий, снятых с камеры бюджетного смартфона. Решение устойчиво к съемке «на весу», шумам, размытиям, перекосам, плохому освещению, контрастным теням и бликам. Система поддерживает как фотографии, сканы, так и видеопоследовательности.
    Система поддерживает все основные форматы файлов и изображений: PDF, JPEG (JPG), PNG, TIFF, а также сканы и фотографии документов. Решение может обрабатывать как одностраничные, так и многостраничные документы. Это делает систему применимой в любых сценариях — от мобильного ввода до массовой потоковой обработки документов.
    Система масштабируется под любые объемы бизнеса и способна извлечь до 600 тысяч страниц в сутки на одном сервере и до 16 млн страниц на кластере без использования графических процессоров (GPU). Точность распознавания текста достигает 99,9%, а алгоритмы ИИ построены на научных принципах достоверности и интерпретируемости — по каждому символу можно получить численную метрику уверенности в результате.
    Нет. Система является on-premise-решением, а извлеченные данные, фотографии и сканы документов не покидают контур компании. Для задач распознавания ИИ не требуются внешние вычислительные ресурсы — облака или краудсорсинговые платформы — это обеспечивает безопасность обработки персональных данных клиентов.
    Да. Программный продукт бесшовно интегрируется с 1С и ERP-системами, что позволяет быстро направить данные в целевые бизнес-процессы без доработок и усложнения текущих операций. Интеграция происходит через REST API или любые другие стандартные интерфейсы, а извлеченные системой данные автоматически передаются в корпоративные системы без необходимости ручных корректировок.