Наука
Smart Engines (SE) — коммерческая компания и научная организация, ведущая исследования в области искусственного интеллекта. В нашей команде более 70 человек, большинство из которых заняты решением исследовательских задач. Среди них 2 доктора наук и 16 кандидатов наук.
Сотрудники SE преподают на кафедре когнитивных технологий в МФТИ, выступают на ведущих международных конференциях (ICDAR, ICIP, ICMV и др.) и публикуются в высокорейтинговых научных журналах. Компания является членом IAPR (International Association for Pattern Recognition). Один из основателей SE начал заниматься задачами искусственного интеллекта еще во времена СССР и разрабатывал шахматную программу, которая победила на чемпионате мира среди компьютеров.
Из наших научных достижений можно отметить победу команды SE в международном конкурсе по бинаризации документов DIBCO 2017 (Document Image Binarization Competition, конференция ICDAR 2017, 9-15 ноября 2017 г. Киото, Япония) и 3-е место в международном соревновании разработчиков в дисциплине «SMARTPHONE DOCUMENT CAPTURE» (конференция ICDAR 2015, 23-26 августа 2015 г., Нанси, Франция).
В 2019 году исследователи Smart Engines представили датасет Mobile Identity Document Video (MIDV), состоящий из 500 видеоклипов для удостоверяющих документов, который предназначен для создания и тестирования технологий распознавания. В 2020 ученые компании разработали алгоритмы, с помощью которых можно снизить необходимую дозу облучения пациентов при проведении рентгеновской компьютерной томографии.
По вопросам стажировки и работы в компании можно обращаться на job@smartengines.ru.
КАФЕДРА В МФТИ
Компания Smart Engines — базовая организация Кафедры когнитивных технологий МФТИ. На кафедре студенты 3-6 курсов проходят обучение по программам подготовки бакалавров и магистров по направлениям «Прикладная математика и информатика» и «Прикладные математика и физика».
Читаемые курсы:
- Эффективные структуры данных и алгоритмы, их построение и анализ
- Современные языки и платформы программирования
- Информационная безопасность
- Моделирование колесных роботов
- Машинное обучение и нейронные сети
- Индустриальные распознающие системы
- Интеллектуальные информационные системы
- Комбинаторные алгоритмы оптимизации
- Технология синтеза и распознавания речи
- Обработка и анализ изображений и видеопотоков
- Оптимизация вычислений на современных процессорных архитектурах
- Техническое зрение и распознавание трехмерных сцен
- Управление IT-проектами
Руководит кафедрой директор по науке Smart Engines, член-корреспондент РАН, д.т.н., профессор Арлазаров Владимир Львович.
Перейти на сайт кафедры
НАПРАВЛЕНИЯ ИССЛЕДОВАНИЙ
Технологии распознавания документов
При распознавании документов в видеопотоке и на фотографиях мы имеем дело с неконтролируемыми условиями съемки и неизвестными параметрами съемочной аппаратуры. При распознавании непосредственно на мобильном устройстве решающее значение имеют вычислительная сложность применяемых методов, а также размер загружаемых данных (включая параметры ИНС). В общем случае релевантность вводимых в систему данных сильно зависит от пользователя, что требует высокой отказоустойчивости создаваемых нами алгоритмов.
Вычислительная визуализация и томография
Машинное зрение, будучи одним из мощнейших методов неразрушающего контроля в оптическом диапазоне, все же ограничено изучением лишь поверхности объектов. Чтобы “заглянуть внутрь” и изучить их трёхмерную внутреннюю структуру (а такая необходимость возникает в медицине, промышленной диагностике, в научных лабораториях) требуется использование метода компьютерной томографии.
Наша команда ведет разработки в области создания томографического программного обеспечения для:
- калибровки и юстировки томографов нового поколения
- выполнения оптимизированной (кастомизированной) реконструкции изображений из данных, собранных в трудных условиях (сверхмалые дозы, томосинтез, наличие сильнопоглощающих включений в объекте и пр.)
- вычислительной визуализации с функциями автоматической обработки и семантического анализа результатов
МЕЖДУНАРОДНЫЕ КОНФЕРЕНЦИИ
The 13th International Conference on Machine Vision (ICMV 2020)
November 02-06, 2020, Rome, Italy
Технический директор Smart Engines к.ф.-м.н. Дмитрий Николаев является председателем оргкомитета конференции ICMV 2020.
Перейти на сайт ICMV 2020
The 15th International Conference on Document Analysis and Recognition (ICDAR 2019)
September 20-25, 2019, Sydney, Australia
Исследователи из команды Smart Engines представили доклады на ICDAR 2019.
Перейти на сайт ICDAR 2019
ПУБЛИКАЦИИ СОТРУДНИКОВ
- Accelerated FBP for computed tomography image reconstruction / A. Dolmatova, M. Chukalina, D. Nikolaev // IEEE ICIP 2020, Washington, DC, United States, IEEE Computer Society, 2020, DOI: 10.1109/ICIP40778.2020.9191044
- Vanishing Point Detection with Direct and Transposed Fast Hough Transform inside the neural network / A. Sheshkus, A. Chirvonaya, D. Matveev, D. Nikolaev, V. L. Arlazarov // Computer Optics, vol. 44, no 5, pp. 737-745, 2020, DOI: 10.18287/2412-6179-CO-676
- Machine-Readable Zones Detection in Images Captured by Mobile Devices’ Cameras / S. I. Kolmakov, N. S. Skoryukina, V. V. Arlazarov // Pattern Recognition and Image Analysis, vol. 30, no 3, pp. 489-495, 2020, DOI: 10.1134/S105466182003013X
- Houghencoder: neural network architecture for document image semantic segmentation / A. V. Sheshkus, D. P. Nikolaev, V. L. Arlazarov // IEEE ICIP 2020, Washington, DC, United States, IEEE Computer Society, 2020, pp. 1-5, 2020, DOI: 10.1109/ICIP40778.2020.9191182
- Monitored Reconstruction: Computed Tomography as an Anytime Algorithm / K. Bulatov, M. Chukalina, A. Buzmakov, D. Nikolaev, V. V. Arlazarov // IEEE Access, vol. 8, pp. 110759-110774, 2020, DOI: 10.1109/ACCESS.2020.3002019
- Two-step CNN framework for text line recognition in camera-captured images / Yulia S. Chernyshova, Alexander V. Sheshkus, Vladimir V. Arlazarov // IEEE Access, 2020 DOI: 10.1109/ACCESS.2020.2974051
- HoughNet: neural network architecture for vanishing points detection / A. Sheshkus, A. Ingacheva, V. Arlazarov, D. Nikolaev // IEEE, 2019 International Conference on Document Analysis and Recognition (ICDAR) DOI: 10.1109/ICDAR.2019.00140
- Fast Method of ID Documents Location and Type Identification for Mobile and Server Application / Natalya Skoryukina, Vladimir V. Arlazarov, Dmitry P. Nikolaev // IEEE, 2019 International Conference on Document Analysis and Recognition (ICDAR) DOI: 10.1109/ICDAR.2019.00141
- Special Aspects of Matrix Operation Implementations for Low-Precision Neural Network Model on the Elbrus Platform / E.E. Limonova, M.I. Neiman-zade, V.L. Arlazarov // Bulletin of the South Ural StateUniversity. Ser. Mathematical Modelling, Programming & ComputerSoftware (Bulletin SUSU MMCS), 2020, vol. 13, no. 1, pp. 118–128 DOI: 10.14529/mmp200109
- Calculation of a Vanishing Point by the Maximum Likelihood Estimation Method / I.A. Konovalenko, J.A. Shemiakina, I.A. Faradjev // Bulletin of the South Ural StateUniversity. Ser. Mathematical Modelling, Programming & ComputerSoftware (Bulletin SUSU MMCS), 2020, vol. 13, no. 1, pp. 107–117 DOI: 10.14529/mmp200108
- Fast X-Ray Sum Calculation Algorithm for Computed Tomography Problem / K.B. Bulatov, M.V. Chukalina, D.P. Nikolaev // Bulletin of the South Ural StateUniversity. Ser. Mathematical Modelling, Programming & ComputerSoftware (Bulletin SUSU MMCS), 2020, vol. 13, no. 1, pp. 95–106 DOI: 10.14529/mmp200107
- Transfer of a high-level knowledge in HoughNet neural network / Alexander V. Sheshkus, Dmitry Nikolaev // Proc. SPIE, Twelfth International Conference on Machine Vision (ICMV 2019) DOI: 10.1117/12.2559454
- Bipolar Morphological Neural Networks: Convolution Without Multiplication / E. Limonova, D. Matveev, D. Nikolaev, V.V. Arlazarov // Proc. SPIE, Twelfth International Conference on Machine Vision (ICMV 2019) DOI: 10.1117/12.2559299
- Using Special Text Points in the Recognition of Documents / Oleg A. Slavin // Cyber-Physical Systems: Advances in Design & Modelling. Studies in Systems, Decision and Control, vol 259. Springer, Cham DOI: 10.1007/978-3-030-32579-4_4
- U-Net-bin: hacking the document image binarization contest / P.V. Bezmaternykh, D.A. Ilin, D.P. Nikolaev // Computer Optics. – 2019. – Vol. 43(5). – P. 825-832. DOI: 10.18287/2412-6179-2019-43-5-825-832
- A Method to Reduce Errors of String Recognition Based on Combination of Several Recognition Results with Per-Character Alternatives / K.B. Bulatov // Bulletin of the South Ural StateUniversity. Ser. Mathematical Modelling, Programming & ComputerSoftware (Bulletin SUSU MMCS), 2019, vol. 12, no. 3, pp. 74–88 DOI: 10.14529/mmp190307
- On optimal stopping strategies for text recognition in a video stream as an application of a monotone sequential decision model / K. Bulatov, N. Razumny, V.V. Arlazarov // International Journal on Document Analysis and Recognition (IJDAR) – 2019. – Vol. 22(3). – P. 303-314. DOI: 10.1007/s10032-019-00333-0
- Performance Evaluation of a Recognition System on the VLIW Architecture by the Example of the Elbrus Platform / E.E. Limonova, N.A. Bocharov, N.B. Paramonov, D.S. Bogdanov, V.V. Arlazarov, O.A. Slavin, D.P. Nikolaev // Programming and Computer Software – 2019 . – Vol. 45(1). – P. 12-17. DOI: 10.1134/S0361768819010055
- Effective real-time augmentation of training dataset for the neural networks learning / Alexander V. Gayer, Yulia S. Chernyshova, Alexander V. Sheshkus // Proc. SPIE, Eleventh International Conference on Machine Vision (ICMV 2018) DOI: 10.1117/12.2522969
- 2D art recognition in uncontrolled conditions using one-shot learning / N.S. Skoryukina, D.P. Nikolaev, V.V. Arlazarov // Proc. SPIE, Eleventh International Conference on Machine Vision (ICMV 2018) DOI: 10.1117/12.2523017
- Fast Hamming distance computation for 2D art recognition on VLIW-architecture in case of Elbrus platform / Elena Limonova, Natalya Skoryukina, Murad Neiman-zade // Proc. SPIE, Eleventh International Conference on Machine Vision (ICMV 2018) DOI: 10.1117/12.2523101
- Convolutional Neural Network Structure Transformations for Complexity Reduction and Speed Improvement / E. Limonova, A. Sheshkus, A. Ivanova, D. Nikolaev // Pattern Recognition and Image Analysis – 2018. – Vol. 28(1). – P. 24-33. – DOI: 10.1134/S105466181801011X.
ДАТАСЕТ ДОКУМЕНТОВ MIDV
Накопленных до настоящего времени общедоступных наборов данных недостаточно для комплексного исследования вопросов распознавания документов на мобильных устройствах методами машинного обучения. Существующие датасеты полезны для отдельных задач обработки изображений документов на мобильных устройствах, но для создания и тестирования технологий распознавания удостоверяющих документов, требуются более специализированные датасеты.
В 2019 году Smart Engines представила датасет видеоданных Mobile Identity Document Video (MIDV-500), состоящий из 500 видеоклипов для 50 различных типов документов, удостоверяющих личность. Поскольку документы, удостоверяющие личность, содержат персональные данные, все изображения исходных документов, используемые в MIDV-500, находятся или в открытом доступе или их распространение не нарушает авторские права.
MIDV-2019, расширение датасета MIDV-500, содержит дополнительные видеоклипы с сильными проективными искажениями документов и с различными условиями освещенности. Все клипы сняты на современных камерах с высоким разрешением.
Новый датасет из семейства MIDV – MIDV-2020 – состоит из 1000 фиктивных удостоверений личности, каждое из которых содержит уникальное текстовое заполнение и сгенерированную фотографию несуществующего человека. Всего MIDV-2020 содержит 1000 видеоклипов, 2000 сканов и 1000 фотографий документов, для каждого из которых есть полная разметка. На данный момент, с суммарно 72409 размеченными изображениями, это самый большой открытый датасет удостоверений личности с разнообразными искусственно сгенерированными данными.
Публикации про MIDV:
- MIDV-500: a dataset for identity document analysis and recognition on mobile devices in video stream / V.V. Arlazarov, K. Bulatov, T. Chernov, V.L. Arlazarov // Computer Optics. – 2019. – Vol. 43(5). – P. 818-824. DOI: 10.18287/2412-6179-2019-43-5-818-824
- MIDV-2019: Challenges of the modern mobile-based document OCR / Konstantin Bulatov, Daniil Matalov, Vladimir V. Arlazarov // Proc. SPIE, Twelfth International Conference on Machine Vision (ICMV 2019) DOI: 10.1117/12.2558438
- MIDV-2020: A Comprehensive Benchmark Dataset for Identity Document Analysis / Konstantin Bulatov, Ekaterina Emelianova, Daniil Tropin, Natalya Skoryukina, Yulia Chernyshova, Alexander Sheshkus, Sergey Usilin, Zuheng Ming, Jean-Christophe Burie, Muhammad Muzzamil Luqman, Vladimir V. Arlazarov // arXiv:2107.00396v1