Специальная программа для малого и среднего бизнеса

30.09.2025 г.

ИИ «Шерлок» выходит на рынок Ирана и Пакистана

Российская ИИ-система «Шерлок» для распознавания и проверки документов, созданная Smart Engines, получила возможность работать с удостоверениями личности на урду и персидском языках. Это стало возможным благодаря первому в мире специализированному датасету MIDV-UP, созданному учеными компании и включающему более 9000 изображений документов Пакистана и Ирана. Новый набор данных закрывает давний пробел в разнообразных и неперсонифицированных обучающих материалах и открывает «Шерлоку» выход на рынки с совокупным населением свыше 330 миллионов человек.

Российская ИИ-система «Шерлок» для распознавания и проверки документов, созданная Smart Engines, получила возможность работать с удостоверениями личности на урду и персидском языках. Это стало возможным благодаря первому в мире специализированному датасету MIDV-UP, созданному учеными компании и включающему более 9000 изображений документов Пакистана и Ирана. Новый набор данных закрывает давний пробел в разнообразных и неперсонифицированных обучающих материалах и открывает «Шерлоку» выход на рынки с совокупным населением свыше 330 миллионов человек.

Результаты работы ученых были представлены на ведущей Международной конференции по анализу и распознаванию документов (ICDAR), прошедшей 16–21 сентября в Китае.

Актуальность задачи ученых

На сегодняшний день языковые технологии искусственного интеллекта поддерживают лишь небольшую часть из более чем 7000 языков мира. Алфавиты на основе латиницы уже давно освоены системами ИИ, в то время как обучение систем распознавания языкам с другими системами письменности происходит значительно медленнее. Особенно остро проблема обстоит с урду и персидским (фарси) – государственными языками Пакистана и Ирана. Оба языка используют модифицированный арабский алфавит и отличаются сложными лигатурами.

До настоящего времени существующие датасеты документов оставляли практически без внимания удостоверения личности на урду и персидском. Это препятствовало разработке технологий распознавания, способных работать с документами Пакистана и Ирана. Представленный Smart Engines датасет MIDV-UP впервые изменил эту ситуацию, обеспечив разработчиков качественными данными для обучения ИИ. В состав MIDV-UP вошли 1000 уникальных образцов удостоверений нескольких типов документов – ID-карт, водительских удостоверений и свидетельств о рождении Ирана, а также ID-карт Пакистана. В общей сложности в датасете содержится 9000 полностью аннотированных изображений, полученных безопасным методом синтеза – новым способом создания обучающих данных без использования документов реальных людей.

MIDV-UP охватывает широкий спектр сценариев предъявления документов – от сканов до фотографий и видеоклипов с естественными помехами: тенями, бликами и искаженной перспективой. Специалисты Smart Engines использовали MIDV-UP для обучения нейросетевого ансамбля «Шерлок», предназначенного для распознавания и комплексной проверки физических и цифровых документов.

«Шерлок» выходит на новые рынки

«Шерлок» способен работать одновременно в видимом, ультрафиолетовом и инфракрасном диапазонах, анализировать голограммы и другие защитные элементы, осуществляя в общей сложности более 600 проверок. Это дает возможность детектировать подделки любой сложности и качества, начиная с паспортов с измененными и переклееными фотографиями и заканчивая муляжами и дипфейками. Решение было разработано при финансовой поддержке Фонда содействия инновациям и используется в пунктах автоматического паспортного контроля в аэропортах «Шереметьево», «Внуково» и «Кольцово», а также в РЖД, ФНС и банковском секторе.

«Отсутствие надежных ИИ-решений долгое время оставляло неавтоматизированным огромный рынок цифровых услуг, требующих ввод данных из документов на урду и фарси. Благодаря нашему новому датасету эти документы больше не является преградой для «Шерлока». Сегодня устойчивый спрос на технологии распознавания наблюдается не только в самих Пакистане и Иране, но и в России и других государствах – чему способствуют значительные миграционные и образовательные потоки. Теперь стало возможным масштабировать «Шерлока» как внутри страны, так и на международных рынках», – отмечает один из авторов MIDV-UP, генеральный директор Smart Engines, д.т.н. Владимир Арлазаров.

О конференции

Международная презентация MIDV-UP состоялась на главном мировом научном форуме в области анализа и распознавания документов – конференции ICDAR. Это ключевая площадка, где ежегодно собираются ведущие эксперты и исследователи со всего мира, чтобы обсудить передовые достижения и новые вызовы технологий распознавания и обработки изображений. Ученые Smart Engines ежегодно принимают участие в ICDAR, где представляют свои новейшие разработки.

Т-Банк

Smart Engines поставляет мобильные и серверные решения по распознаванию документов Т-Банку

Альфа-Банк

Альфа-Банк распознает документы клиентов в мобильном приложении с помощью Smart ID Engine

ВТБ

ВТБ перешел на российские технологии для распознавания QR-кодов и банковских карт

Газпромбанк

Газпромбанк внедрил решение Smart Engines на основе искусственного интеллекта для распознавания QR-кодов

Заказать продукт

Для заказа решений, получения подробной информации или триал версий заполните приведенную ниже форму, и мы обязательно с Вами свяжемся.

    https://smartengines.ru/news/ii-sherlok-vyhodit-na-rynok-irana-i-pakistanaArray ( )