Специальная программа для малого и среднего бизнеса

Датасеты документов

Накопленных до настоящего времени общедоступных наборов данных недостаточно для комплексного исследования вопросов распознавания документов на мобильных устройствах методами машинного обучения. Существующие датасеты полезны для отдельных задач обработки изображений документов на мобильных устройствах, но для создания и тестирования технологий распознавания удостоверяющих документов, требуются более специализированные датасеты.

MIDV-500

В 2019 году Smart Engines представила датасет видеоданных Mobile Identity Document Video (MIDV-500), состоящий из 500 видеоклипов для 50 различных типов документов, удостоверяющих личность. Поскольку документы, удостоверяющие личность, содержат персональные данные, все изображения исходных документов, используемые в MIDV-500, находятся или в открытом доступе или их распространение не нарушает авторские права.

Скачать MIDV-500

MIDV-500: A Dataset for Identity Document Analysis and Recognition on Mobile Devices in Video Stream // Компьютерная оптика. 2019. Т. 43. № 5. С. 818-824. (WoS, Scopus Q1) / Arlazarov V.V., Bulatov K., Chernov T., Arlazarov V. L.

MIDV-2019

MIDV-2019, расширение датасета MIDV-500, содержит дополнительные видеоклипы с сильными проективными искажениями документов и с различными условиями освещенности. Все клипы сняты на современных камерах с высоким разрешением.

Скачать MIDV-2019

MIDV-2019: Challenges of the Modern Mobile-Based Document OCR // ICMV 2019, SPIE, Jan. 2020, vol. 11433. / K. Bulatov, D. Matalov and V. V. Arlazarov

MIDV-2020

Следующий датасет из семейства MIDV – MIDV-2020 – состоит из 1000 фиктивных удостоверений личности, каждое из которых содержит уникальное текстовое заполнение и сгенерированную фотографию несуществующего человека. Всего MIDV-2020 содержит 1000 видеоклипов, 2000 сканов и 1000 фотографий документов, для каждого из которых есть полная разметка. На данный момент, с суммарно 72409 размеченными изображениями, это самый большой открытый датасет удостоверений личности с разнообразными искусственно сгенерированными данными.

Скачать MIDV-2020

MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis // Компьютерная оптика. 2022. Т. 46. № 2. С. 252-270. (WoS, Scopus Q1) / Bulatov K.B., Emelyanova E.V., Tropin D.V., Skoryukina N.S., Chernyshova Y.S., Sheshkus A.V., Usilin S.A., Ming Z., Burie J.-C., Luqman M., Arlazarov V.V.

MIDV-LAIT

Еще один датасет из семейства MIDV – MIDV-LAIT, основная особенность данного набора данных — текстовые поля персидско-арабского, тайского и индийского алфавитов. Поскольку открытые наборы данных с реальными идентификаторами не могут быть опубликованы, мы синтетически сгенерировали все изображения и данные. Даже лица генерируются и не принадлежат какому-то конкретному человеку. Всего MIDV-LAIT содержит 180 видеороликов и примерно 3600 изображений.

Скачать MIDV-LAIT

MIDV-LAIT: a challenging dataset for recognition of IDs with Perso-Arabic, Thai, and Indian scripts // ICDAR 2021, Springer Nature Group, Lecture Notes in Computer Science (LNCS), Sen. 2021, vol. 12822 / Y. S. Chernyshova, E. V. Emelianova, A. V. Sheshkus and V. V. Arlazarov

DLC-2021

DLC-2021 – открытый набор аннотированных видеопоследовательностей для оценки алгоритмов, детектирующих атаку на предъявление (presentation attack) или атаку ретрансляции (rebroadcast attack). Мы рассматриваем три варианта атаки: показ черно-белой копии документа, показ цветной неламинированной копии и показ фотографии на мониторе. Итого, для каждого документа у нас есть четыре варианта, считая исходный. Основой DLC-2021 служат документы из MIDV-2020. Сами по себе они — муляжи, однако их можно использовать для оценки отдельных конкретных алгоритмов ловли тех или иных атак ретрансляции.

Скачать DLC-2021

Document Liveness Challenge dataset (DLC-2021) // J. Imaging. 2022. Vol. 8. No 7. P. 181-1-181-12. (WoS, Scopus Q2) / Polevoy D.V., Sigareva I.V., Ershova D.M., Arlazarov V.V., Nikolaev D.P., Zuheng M., Luqman M., Burie J.-C.

MIDV-Holo

MIDV-Holo — это первичный публичный датасет, который содержит данные удостоверяющих личность документов с элементами голографической защиты. Публикация датасетов настоящих документов попросту невозжожна из-за условий конфиденциальности. С помощью MIDV-Holo разработчики со всего мира могут обучать свои ИИ алгоритмы лучше бороться с атаками на предъявления (presentation attack) и атаками ретрансляции (rebroadcast attack), которые совершают мошенники, когда фотошопят паспорта. Технология детекции голограмм востребована в банках и в цифровых каналах при оказании любых услуг, которые требую предъявления паспорта.

Скачать MIDV-Holo

MIDV-Holo: a dataset for ID document hologram detection in a video stream // J. Imaging. 2022. Vol. 8. No 7. P. 181-1-181-12. (WoS, Scopus Q2) / Polevoy D.V., Sigareva I.V., Ershova D.M., Arlazarov V.V., Nikolaev D.P., Zuheng M., Luqman M., Burie J.-C.

Тинькофф Банк

Smart Engines поставляет мобильные и серверные решения по распознаванию документов Тинькофф Банку

Альфа-Банк

Альфа-Банк распознает документы клиентов в мобильном приложении с помощью Smart ID Engine

ВТБ

ВТБ перешел на российские технологии для распознавания QR-кодов и банковских карт

Газпромбанк

Газпромбанк внедрил решение Smart Engines на основе искусственного интеллекта для распознавания QR-кодов

Заказать продукт

Для заказа решений, получения подробной информации или триал версий заполните приведенную ниже форму, и мы обязательно с Вами свяжемся.

    deletedArray ( [last_ref] => deleted )