Отчет о мошенничестве с поддельными документами 2025 годаПодробнее

Распознавание исторических архивов и рукописных фондов

logo
logo
logo
logo
logo
logo
logo
logo
logo
logo
Дистанционное обслуживание ЮЛ и ИП без бумажной рутины
Дистанционное обслуживание ЮЛ и ИП без бумажной рутины
Перевод бумажных фондов в цифровой архив С возможностью полнотекстового поиска
«Расчеркивание» документов Уникальная нейросеть позволяет точно извлекать зачеркнутые данные
Распознает поврежденные документы Извлекает данные из старых и выцветших документов
State-of-the-art бинаризация изображений Исторических документов
Распознавание дополнительных элементов Рукописных пометок, штампов, печатей и архивных отметок
Высокая производительность Обработки больших массивов архивных документов
Уникальные Хаф-сети Для выравнивания и разглаживания изображений документов
Универсальный инструмент Работа со сканами, фотографиями и многостраничными PDF исторических дел
Работа полностью в контуре заказчика Без передачи данных во внешние сервисы
  • Перевод бумажных фондов в цифровой архив
    С возможностью полнотекстового поиска
    «Расчеркивание» документов
    Уникальная нейросеть позволяет точно извлекать зачеркнутые данные
    Распознает поврежденные документы
    Извлекает данные из старых и выцветших документов
  • State-of-the-art бинаризация изображений
    Исторических документов
    Распознавание дополнительных элементов
    Рукописных пометок, штампов, печатей и архивных отметок
    Высокая производительность
    Обработки больших массивов архивных документов
  • Уникальные 
Хаф-сети
    Для выравнивания и разглаживания изображений документов
    Универсальный инструмент
    Работа со сканами, фотографиями и многостраничными PDF исторических дел
    Работа полностью в контуре заказчика
    Без передачи данных во внешние сервисы

Как работает распознавание архивов

ПО предназначено для оцифровки исторических архивов и перевода бумажных фондов в цифровой формат с возможностью полнотекстового поиска. Система работает со сканами, фотографиями и многостраничными PDF, распознает старые, выцветшие и поврежденные документы, рукописные пометки, штампы, печати и зачеркнутые фрагменты. Для повышения качества используются state-of-the-art методы бинаризации, Хаф-сети для выравнивания и нейросети для анализа сложных архивных образцов. Решение формирует текстовый слой, возвращает геометрию и альтернативы распознавания, поддерживает редкие языки и специальные шрифты. ПО работает полностью в контуре заказчика, не требует GPU и обеспечивает высокопроизводительную потоковую обработку больших архивных массивов.

Учредители - резиденты РФ Учредители — резиденты РФ
Собственная разработка Собственная разработка
Запись 9617 в реестре ПО Запись 9617 в реестре ПО
Поддержка российских ОС Поддержка российских ОС

Возможности распознавания

  • Распознавание сканов и фотографий низкого качества
  • Поиск, выравнивание и нормализация документа на фотографии
  • GreenOCR® — экологичный искусственный интеллект распознавания текста
  • Уникальные 4.6 битные нейросетевые модели для скоростного распознавания на CPU
  • Распознавание силами CPU, не требует ресурсов GPU и NPU
  • Распознавание рукописных текстов, надписей и пометок вне зависимости от почерка
  • Новаторские малобитные и компактные нейросетевые модели
  • Распознавание печатной и рукописной кириллической письменности
  • Высокоточный OCR для всех языков, базирующихся на латинице
  • Распознавание арабского, японского, корейского и китайского языков
  • Распознавание иврита, греческого, грузинского и армянского
  • Распознавание многостраничных документов
  • Поиск и распознавание таблиц
  • Потоковое распознавание в контуре (on-premise) со скоростью более 100 тысяч страниц в час на сервере без GPU
  • Надежное распознавание рукописи и печатного текста без лингвистических галлюцинаций
  • AI модели обучены исключительно на синтетических данных
  • Возврат геометрии текстов и символов
  • Возврат альтернатив распознавания каждого символа
  • Формирование текстового слоя для полнотекстового поиска по архиву
  • Повышение читаемости выцветших и слабоконтрастных архивных материалов
  • Обработка сложного фона, пятен, теней и артефактов старых документов
  • Нейросеть для анализа зачеркнутых фрагментов документа
  • Работа с низкокачественными архивными образцами
  • Возможность дообучения нейросетей специальным шрифтам
  • Возможность дообучения нейросетей редким языкам

Какие документы
распознаются

ЕГРИП ЕГРЮЛ ИНН юр.лица Приказ о назначении генерального директора Устав компании Отчет о финансовых результатах Свидетельство ОГРН Свидетельство ОГРНИП ЕГРН Паспорт РФ (печатный и рукописный) Документы, удостоверяющие личность 210 стран мира (паспорта, ID-карты, водительские удостоверения и др.) 2-НДФЛ Акт Акт КС-2 Акт МХ-1 Акт МХ-3 Акт ОС-1 Акт ОС-15 Акт ОС-1а Акт ОС-4 Акт передачи прав (шаблон 1С) Акт сверки Банковский ордер Бух. баланс Инкассовое поручение Книга покупок Корректировачный счет-фактура Платежное поручения Платежное требование Платежный ордер Реестр сертификатов и деклараций (приложение к накладной) Сертификат самозанятого Справка кс-3 Справка о доходах по налогу на профессиональный доход Справка-расчет рублевых сумм документа в валюте Счет Счет-фактура (включая исправленный счет-фактуру) Товарно-транспортная накладная (ТТН) ТОРГ-12 ТОРГ-13 УКД Универсальный передаточный документ (УПД)

Возможности
интеграции

DocEngine engine = DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>, true);
DocSessionSettings settings = engine.CreateSessionSettings();
settings.SetCurrentMode("primary_accounting");
settings.AddEnabledDocumentTypes("*");
DocSession session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>);
DocProcessingSettings proc_settings = session.CreateProcessingSettings();
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image, proc_settings);

DocResult result = session.GetCurrentResult();
Document document = result.DocumentsBegin().GetDocument();
for (DocTextFieldsIterator iterator = doc.TextFieldsBegin(); !iterator.Equals(doc.TextFieldsEnd()); iterator.Advance()) {
  String name = iterator.GetField().GetBaseFieldInfo().GetName();
  String value = iterator.GetField().GetOcrString().GetFirstString().GetCStr();
}
std::unique_ptr<se::doc::DocEngine> engine(se::doc::DocEngine::Create(<PATH_TO_CONFIGURATION_FILE>, true));
std::unique_ptr<se::doc::DocSessionSettings> settings(engine->CreateSessionSettings());
settings->SetCurrentMode("primary_accounting");
settings->AddEnabledDocumentTypes("*");
std::unique_ptr<se::doc::DocSession> session(engine->SpawnSession(*settings, <PERSONALIZED_SIGNATURE>));
std::unique_ptr<se::doc::DocProcessingSettings> proc_settings(session->CreateProcessingSettings());
std::unique_ptr<se::common::Image> image(se::common::Image::FromFile(<PATH_TO_IMAGE>));
session->ProcessImage(*image, proc_settings.get());

const se::doc::DocResult& result = session->GetCurrentResult();
const se::doc::Document& doc = result.DocumentsBegin().GetDocument();
for (auto iterator = doc.TextFieldsBegin(); iterator != doc.TextFieldsEnd(); ++iterator) {
  std::string name = iterator.GetFieldPtr()->GetBaseFieldInfo().GetName();
  std::string value = iterator.GetFieldPtr()->GetOcrString().GetFirstString().GetCStr();
}
DocEngine engine = DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>, true);
DocSessionSettings settings = engine.CreateSessionSettings();
settings.SetCurrentMode("primary_accounting");
settings.AddEnabledDocumentTypes("*");
DocSession session = engine.SpawnSession(session_settings, <PERSONALIZED_SIGNATURE>);
DocProcessingSettings proc_settings = session.CreateProcessingSettings();
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image, proc_settings);

DocResult result = session.GetCurrentResult();
doc_it = recog_result.DocumentsBegin()
Document doc = recog_result.DocumentsBegin().GetDocument();
for (DocTextFieldsIterator iterator = doc.TextFieldsBegin(); !iterator.Equals(doc.TextFieldsEnd()); iterator.Advance()) {
  String name = iterator.GetField().GetBaseFieldInfo().GetName();
  String value = iterator.GetField().GetOcrString().GetFirstString().GetCStr());
}
engine = pydocengine.DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>)
settings = engine.CreateSessionSettings()
settings.SetCurrentMode("primary_accounting")
settings.AddEnabledDocumentTypes("*")
session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>)
proc_settings = session.CreateProcessingSettings()
image = pydocengine.Image.FromFile(<PATH_TO_IMAGE>)
session.ProcessImage(image, proc_settings)

result = session.GetCurrentResult()
doc_it = recog_result.DocumentsBegin()
doc = recog_result.DocumentsBegin().GetDocument()
iterator = doc.TextFieldsBegin()
while(iterator != doc.TextFieldsEnd()):
  name = iterator.GetField().GetBaseFieldInfo().GetName()
  value = iterator.GetField().GetOcrString().GetFirstString().GetCStr()
  iterator.Advance()

Автовыбор документов из списка, отсеивание ненужных документов

Уверенность распознавания, координаты объектов, вырезание полей и документов

Возврат зоны принятия решения для проверок подлинности

Операционные системы
Android
iOS
MS Windows
Linux
ОС Аврора
ОС Эльбрус
РЕД ОС
Astra Linux
ОС Атликс
ОС Альт Линукс
Low-code интеграция, простой и понятный REST API
API на
C
C++
C#
Java
Python
PHP
Фреймворки:
React Native
Flutter
интеграция с 1C
Примеры использования на языках
C
C++
C#
Java
Python
PHP
Архитектуры процессоров
х86
x86_64
ARMv7-v8-v9 (AArch32 и AArch64)
MIPS (MIPS32 и MIPS64)
Elbrus
Попробуйте качество наших технологий

Попробуйте качество наших технологий

  • Скачайте мобильное демо-приложение, в котором все возможности собраны воедино
  • Можно на время отключить интернет, чтобы убедиться, что изображения и ваши данные не передаются
  • Извлекайте данные паспортов, удостоверений личности и других документов. Пробуйте распознавать оригиналы и копии при различных условиях съемки.

Заказать продукт

Для заказа решений, получения подробной информации или триал-версий заполните приведенную форму, и мы обязательно с Вами свяжемся.






    Часто задаваемые вопросы

    Система Smart Engines предназначена для высокоточной оцифровки документов любого качества, включая старые, выцветшие и физически изношенные материалы. В отличие от классических OCR-систем, чувствительных к шумам, пятнам, разрывам и низкому контрасту, решение использует алгоритмы предобработки и нейросетевые модели, повышающие читаемость текста перед распознаванием. Это позволяет извлекать данные даже в условиях, где традиционные методы теряют точность, и делает решение применимым для работы с историческими архивами.
    Программный продукт поддерживает более 100 языков распознавания. Помимо привычных языков, базирующихся на кириллических и латинских алфавитах, решение распознает любые тексты на арабском, китайском, грузинском, армянском, греческом, иврите, корейском и других языках со сложными графическими системами.
    Да. Решение с высокой точностью распознает даже трудноразборчивый рукописный текст, написанный ручкой, карандашом или пером. Поддерживается распознавание букв, цифр и их комбинаций, включая сложные и трудночитаемые слова (например, со схожими символами «ш», «л», «и», «п»), без использования словарей и языковых моделей. Это позволяет извлекать абсолютно всю информацию со страницы, избегая потери значимых сведений.
    Да. Система формирует текстовый слой на основе распознанных документов, что делает возможным полнотекстовой поиск по всему содержимому архива. Это позволяет моментально находить необходимую информацию по ключевым словам и фразам без ручного просмотра документов
    Система нетребовательна к условиям съемки и позволяет с точностью до 99,9% извлекать данные с фотографий и сканов документов даже при наличии шумов, теней и проективных искажений документа на изображении. Это позволяет применять решение на мобильных устройствах для быстрой оцифровки архивных документов.
    Да. Система способна обрабатывать большие объемы документов в потоковом режиме и автоматически интегрировать их содержимое в архивные системы и базы данных. Система автоматически оцифровывает одностраничные и многостраничные документы, извлекая готовые данные без участия человека, обеспечивая потоковую обработку архивных документов любой сложности в реальном времени.
    Программный продукт извлекает данные из документов в исходном виде «как есть» (as is), без какого-либо вмешательства в данные. Это отличает его от генеративных моделей, склонных к «додумыванию» в условиях отсутствия информации.
    Система поддерживает все основные форматы файлов и изображений: PDF, JPEG (JPG), PNG, TIFF, а также сканы и фотографии архивных документов. Решение может обрабатывать как одностраничные, так и многостраничные документы. Это делает систему применимой в любых сценариях — от мобильного ввода до массовой потоковой обработки документов.
    Нет. Система является on-premise решением, работающим полностью локально в защищенном контуре пользователя. В процессе обработки данные и изображения документов не отправляются на обработку во внешние облачные сервисы или на краудсорсинговые платформы. Это гарантирует высокий уровень конфиденциальности при обработке данных.
    Нет. Решение работает на стандартных CPU и не требует использования GPU или других специализированных ускорителей. Это упрощает внедрение, снижает требования к инфраструктуре и позволяет запускать систему как на серверах, так и на рабочих станциях и мобильных устройствах без дополнительных затрат.