Распознавание исторических архивов и рукописных фондов

Реестровая запись №9617

Распознавание исторических архивов и рукописных фондов

Заказать продукт

Перевод бумажных фондов в цифровой архив С возможностью полнотекстового поиска

«Расчеркивание» документов Уникальная нейросеть позволяет точно извлекать зачеркнутые данные

Распознает поврежденные документы Извлекает данные из старых и выцветших документов

State-of-the-art бинаризация изображений Исторических документов

Распознавание дополнительных элементов Рукописных пометок, штампов, печатей и архивных отметок

Высокая производительность Обработки больших массивов архивных документов

Уникальные Хаф-сети Для выравнивания и разглаживания изображений документов

Универсальный инструмент Работа со сканами, фотографиями и многостраничными PDF исторических дел

Работа полностью в контуре заказчика Без передачи данных во внешние сервисы

Перевод бумажных фондов в цифровой архив
С возможностью полнотекстового поиска

«Расчеркивание» документов
Уникальная нейросеть позволяет точно извлекать зачеркнутые данные

Распознает поврежденные документы
Извлекает данные из старых и выцветших документов
State-of-the-art бинаризация изображений
Исторических документов

Распознавание дополнительных элементов
Рукописных пометок, штампов, печатей и архивных отметок

Высокая производительность
Обработки больших массивов архивных документов
Уникальные  Хаф-сети
Для выравнивания и разглаживания изображений документов

Универсальный инструмент
Работа со сканами, фотографиями и многостраничными PDF исторических дел

Работа полностью в контуре заказчика
Без передачи данных во внешние сервисы

Как работает распознавание архивов

ПО предназначено для оцифровки исторических архивов и перевода бумажных фондов в цифровой формат с возможностью полнотекстового поиска. Система работает со сканами, фотографиями и многостраничными PDF, распознает старые, выцветшие и поврежденные документы, рукописные пометки, штампы, печати и зачеркнутые фрагменты. Для повышения качества используются state-of-the-art методы бинаризации, Хаф-сети для выравнивания и нейросети для анализа сложных архивных образцов. Решение формирует текстовый слой, возвращает геометрию и альтернативы распознавания, поддерживает редкие языки и специальные шрифты. ПО работает полностью в контуре заказчика, не требует GPU и обеспечивает высокопроизводительную потоковую обработку больших архивных массивов.

Заказать продукт

Возможности распознавания

Распознавание сканов и фотографий низкого качества
Поиск, выравнивание и нормализация документа на фотографии
GreenOCR^® — экологичный искусственный интеллект распознавания текста
Уникальные 4.6 битные нейросетевые модели для скоростного распознавания на CPU
Распознавание силами CPU, не требует ресурсов GPU и NPU
Распознавание рукописных текстов, надписей и пометок вне зависимости от почерка
Новаторские малобитные и компактные нейросетевые модели
Распознавание печатной и рукописной кириллической письменности
Высокоточный OCR для всех языков, базирующихся на латинице

Распознавание арабского, японского, корейского и китайского языков
Распознавание иврита, греческого, грузинского и армянского
Распознавание многостраничных документов
Поиск и распознавание таблиц
Потоковое распознавание в контуре (on-premise) со скоростью более 100 тысяч страниц в час на сервере без GPU
Надежное распознавание рукописи и печатного текста без лингвистических галлюцинаций
AI модели обучены исключительно на синтетических данных
Возврат геометрии текстов и символов
Возврат альтернатив распознавания каждого символа

Формирование текстового слоя для полнотекстового поиска по архиву
Повышение читаемости выцветших и слабоконтрастных архивных материалов
Обработка сложного фона, пятен, теней и артефактов старых документов
Нейросеть для анализа зачеркнутых фрагментов документа
Работа с низкокачественными архивными образцами
Возможность дообучения нейросетей специальным шрифтам
Возможность дообучения нейросетей редким языкам
Автоматическое определение типа документа

Заказать продукт

Какие документы
распознаются

ЕГРИП ЕГРЮЛ ИНН юр.лица Приказ о назначении генерального директора Устав компании Отчет о финансовых результатах Свидетельство ОГРН Свидетельство ОГРНИП ЕГРН Паспорт РФ (печатный и рукописный) Документы, удостоверяющие личность 210 стран мира (паспорта, ID-карты, водительские удостоверения и др.) 2-НДФЛ Акт Акт КС-2 Акт МХ-1 Акт МХ-3 Акт ОС-1 Акт ОС-15 Акт ОС-1а Акт ОС-4 Акт передачи прав (шаблон 1С) Акт сверки Банковский ордер Бух. баланс Инкассовое поручение Книга покупок Корректировочный счет-фактура Платежное поручение Платежное требование Платежный ордер Реестр сертификатов и деклараций (приложение к накладной) Сертификат самозанятого Справка КС-3 Справка о доходах по налогу на профессиональный доход Справка-расчет рублевых сумм документа в валюте Счет Счет-фактура (включая исправленный счет-фактуру) Товарно-транспортная накладная (ТТН) ТОРГ-12 ТОРГ-13 УКД Универсальный передаточный документ (УПД)

Заказать продукт

Возможности
интеграции

DocEngine engine = DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>, true);
DocSessionSettings settings = engine.CreateSessionSettings();
settings.SetCurrentMode("primary_accounting");
settings.AddEnabledDocumentTypes("*");
DocSession session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>);
DocProcessingSettings proc_settings = session.CreateProcessingSettings();
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image, proc_settings);

DocResult result = session.GetCurrentResult();
Document document = result.DocumentsBegin().GetDocument();
for (DocTextFieldsIterator iterator = doc.TextFieldsBegin(); !iterator.Equals(doc.TextFieldsEnd()); iterator.Advance()) {
  String name = iterator.GetField().GetBaseFieldInfo().GetName();
  String value = iterator.GetField().GetOcrString().GetFirstString().GetCStr();
}

std::unique_ptr<se::doc::DocEngine> engine(se::doc::DocEngine::Create(<PATH_TO_CONFIGURATION_FILE>, true));
std::unique_ptr<se::doc::DocSessionSettings> settings(engine->CreateSessionSettings());
settings->SetCurrentMode("primary_accounting");
settings->AddEnabledDocumentTypes("*");
std::unique_ptr<se::doc::DocSession> session(engine->SpawnSession(*settings, <PERSONALIZED_SIGNATURE>));
std::unique_ptr<se::doc::DocProcessingSettings> proc_settings(session->CreateProcessingSettings());
std::unique_ptr<se::common::Image> image(se::common::Image::FromFile(<PATH_TO_IMAGE>));
session->ProcessImage(*image, proc_settings.get());

const se::doc::DocResult& result = session->GetCurrentResult();
const se::doc::Document& doc = result.DocumentsBegin().GetDocument();
for (auto iterator = doc.TextFieldsBegin(); iterator != doc.TextFieldsEnd(); ++iterator) {
  std::string name = iterator.GetFieldPtr()->GetBaseFieldInfo().GetName();
  std::string value = iterator.GetFieldPtr()->GetOcrString().GetFirstString().GetCStr();
}

DocEngine engine = DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>, true);
DocSessionSettings settings = engine.CreateSessionSettings();
settings.SetCurrentMode("primary_accounting");
settings.AddEnabledDocumentTypes("*");
DocSession session = engine.SpawnSession(session_settings, <PERSONALIZED_SIGNATURE>);
DocProcessingSettings proc_settings = session.CreateProcessingSettings();
Image image = Image.FromFile(<PATH_TO_IMAGE>);
session.ProcessImage(image, proc_settings);

DocResult result = session.GetCurrentResult();
doc_it = recog_result.DocumentsBegin()
Document doc = recog_result.DocumentsBegin().GetDocument();
for (DocTextFieldsIterator iterator = doc.TextFieldsBegin(); !iterator.Equals(doc.TextFieldsEnd()); iterator.Advance()) {
  String name = iterator.GetField().GetBaseFieldInfo().GetName();
  String value = iterator.GetField().GetOcrString().GetFirstString().GetCStr());
}

engine = pydocengine.DocEngine.Create(<PATH_TO_CONFIGURATION_FILE>)
settings = engine.CreateSessionSettings()
settings.SetCurrentMode("primary_accounting")
settings.AddEnabledDocumentTypes("*")
session = engine.SpawnSession(settings, <PERSONALIZED_SIGNATURE>)
proc_settings = session.CreateProcessingSettings()
image = pydocengine.Image.FromFile(<PATH_TO_IMAGE>)
session.ProcessImage(image, proc_settings)

result = session.GetCurrentResult()
doc_it = recog_result.DocumentsBegin()
doc = recog_result.DocumentsBegin().GetDocument()
iterator = doc.TextFieldsBegin()
while(iterator != doc.TextFieldsEnd()):
  name = iterator.GetField().GetBaseFieldInfo().GetName()
  value = iterator.GetField().GetOcrString().GetFirstString().GetCStr()
  iterator.Advance()

Уверенность распознавания, координаты объектов, вырезание полей и документов

Возврат зоны принятия решения для проверок подлинности

Операционные системы

Android

iOS

MS Windows

Linux

ОС Аврора

ОС Эльбрус

РЕД ОС

Astra Linux

ОС Атликс

ОС Альт Линукс

Low-code интеграция, простой и понятный REST API

API на

C++

Java

Python

PHP

Фреймворки:

React Native

Flutter

интеграция с 1C

Примеры использования на языках

C++

Java

Python

PHP

Архитектуры процессоров

х86

x86_64

ARMv7-v8-v9 (AArch32 и AArch64)

MIPS (MIPS32 и MIPS64)

Elbrus

Как встроить за 5 минут в iOS, Android

Заказать продукт

Часто задаваемые вопросы

Работает ли система со старыми, выцветшими и физически изношенными архивными документами?

Система Smart Engines предназначена для высокоточной оцифровки документов любого качества, включая старые, выцветшие и физически изношенные материалы. В отличие от классических OCR-систем, чувствительных к шумам, пятнам, разрывам и низкому контрасту, решение использует алгоритмы предобработки и нейросетевые модели, повышающие читаемость текста перед распознаванием. Это позволяет извлекать данные даже в условиях, где традиционные методы теряют точность, и делает решение применимым для работы с историческими архивами.

Какие языки поддерживаются системой распознавания?

Программный продукт поддерживает более 100 языков распознавания. Помимо привычных языков, базирующихся на кириллических и латинских алфавитах, решение распознает любые тексты на арабском, китайском, грузинском, армянском, греческом, иврите, корейском и других языках со сложными графическими системами.

Может ли решение распознать рукописный текст?

Да. Решение с высокой точностью распознает даже трудноразборчивый рукописный текст, написанный ручкой, карандашом или пером. Поддерживается распознавание букв, цифр и их комбинаций, включая сложные и трудночитаемые слова (например, со схожими символами «ш», «л», «и», «п»), без использования словарей и языковых моделей. Это позволяет извлекать абсолютно всю информацию со страницы, избегая потери значимых сведений.

Можно ли выполнять поиск по цифровому архиву?

Да. Система формирует текстовый слой на основе распознанных документов, что делает возможным полнотекстовой поиск по всему содержимому архива. Это позволяет моментально находить необходимую информацию по ключевым словам и фразам без ручного просмотра документов

Каковы требования к качеству изображения?

Система нетребовательна к условиям съемки и позволяет с точностью до 99,9% извлекать данные с фотографий и сканов документов даже при наличии шумов, теней и проективных искажений документа на изображении. Это позволяет применять решение на мобильных устройствах для быстрой оцифровки архивных документов.

Поддерживается ли потоковая обработка документов?

Да. Система способна обрабатывать большие объемы документов в потоковом режиме и автоматически интегрировать их содержимое в архивные системы и базы данных. Система автоматически оцифровывает одностраничные и многостраничные документы, извлекая готовые данные без участия человека, обеспечивая потоковую обработку архивных документов любой сложности в реальном времени.

Как система борется с галлюцинациями?

Программный продукт извлекает данные из документов в исходном виде «как есть» (as is), без какого-либо вмешательства в данные. Это отличает его от генеративных моделей, склонных к «додумыванию» в условиях отсутствия информации.

Какие форматы файлов поддерживаются?

Система поддерживает все основные форматы файлов и изображений: PDF, JPEG (JPG), PNG, TIFF, а также сканы и фотографии архивных документов. Решение может обрабатывать как одностраничные, так и многостраничные документы. Это делает систему применимой в любых сценариях — от мобильного ввода до массовой потоковой обработки документов.

Использует ли система облака или внешние серверы для хранения и обработки данных?

Нет. Система является on-premise решением, работающим полностью локально в защищенном контуре пользователя. В процессе обработки данные и изображения документов не отправляются на обработку во внешние облачные сервисы или на краудсорсинговые платформы. Это гарантирует высокий уровень конфиденциальности при обработке данных.

Требуется ли специализированное оборудование для работы системы?

Нет. Решение работает на стандартных CPU и не требует использования GPU или других специализированных ускорителей. Это упрощает внедрение, снижает требования к инфраструктуре и позволяет запускать систему как на серверах, так и на рабочих станциях и мобильных устройствах без дополнительных затрат.

Распознавание исторических архивов и рукописных фондов

Как работает распознавание архивов

Возможности распознавания

Какие документы распознаются

Возможности интеграции

Попробуйте качество наших технологий

Заказать продукт

Часто задаваемые вопросы

Какие документы
распознаются

Возможности
интеграции