02.06.2020 г.

Что такое MRZ и зачем она нужна

С точки машинного зрения

Сравнительно недавно — в 2011 году — в новых бланках Российских общегражданских паспортов на странице, которая содержит фотографию и основные реквизиты владельца (фамилию, имя, отчество, дату рождения, гражданство) появились две строки, содержащие буквы, цифры, и много символов <<<. Ранее такие же строки стали появляться в бланках заграничных паспортов, необходимых для поездок за рубеж. Это машиночитаемая запись, или зона, которая обеспечивает быстрое и точное распознавание основных реквизитов паспорта различными устройствами машинного ввода.

Машиночитаемые зоны (MRZ) необходимы для автоматизации и ускорения распознавания реквизитов паспорта там, где этот процесс, что называется, стоит на потоке. С распознаванием машиночитаемой зоны паспорта мы, как правило, встречаемся в аэропорту при получении посадочного талона, при прохождении пограничного и таможенного контроля. В некоторых случаях машиночитаемая зона паспорта используется при проходе на предприятия и зоны, куда доступ посетителей осуществляется по паспорту, а организационная инфраструктура позволяет проводить проверку документа в автоматизированном режиме.

Другое предназначение MRZ — обеспечение автоматического доступа к RFID-метке, размещенной внутри биометрических паспортов. Доступ к этому чипу, который в документах разных стран может содержать различную информацию, возможен только после ввода номера паспорта, даты рождения и даты окончания паспорта. При помощи автоматического считывания MRZ, доступ к RFID-метке ускоряется в разы.

Для того, чтобы паспорта для трансграничных путешествий разных стран распознавались одинаково правильно во всех современных аэропортах мира, содержание страницы данных такого паспорта строго регламентировано в международным документе “Doc 9303. Машиносчитываемые проездные документы”, изданным Международной организацией гражданской авиации. Страница данных — это та страница, где располагаются сведения о владельце паспорта, его фото и паспортные реквизиты, напечатанные в доступном для понимания человеком виде (это зона визуальной проверки, ЗВП). Машиносчитываемая зона, расположенная внизу страницы, в своем составе соответствует полям ЗВП.

Структура элементов в обеих строках машиносчитываемой зоны заграничного паспорта строго регламентирована и составляющие ее поля идут в определенном порядке.

Courtesy Lumu / wikimedia

MRZ, созданная по стандарту ICAO, на машиносчитываемых проездных документах различных государств содержит:

Код документа, код государства или код организации, выдавших паспорт, имя (под этим понимается написание полного имени даже если его составляющие — имя и фамилия — состоят из нескольких слов), гражданство, пол, дата истечения срока действия, личный номер (при его наличии) или прочие необязательные данные, вносимые на усмотрение выдающего органа. Кроме данных о владельце в MRZ содержатся контрольные цифры, которые позволяют распознавать грубые попытки подделать документ и позволяют детектировать ошибки машинного распознавания.

Помимо паспортов и виз, содержащих машиносчитываемую зону стандартов ICAO, MRZ-подобные зоны размещаются странами и на других документах. Так, машиносчитываемые зоны могут размещаться на внутренних паспортах, ID-картах, водительских удостоверениях. Форматы таких МСЗ могут варьироваться как по количеству строк и знаков, соответствовать стандарту или отходить от него.

Courtesy Cth103 t / wikimeda
MRZ-подобная зона на ID-карте Французской Республики

В настоящее время в обиходе несколько типов стандартных машиночитаемых зон, которые разнятся количеством строк и символов в строке. Тип MRP — паспорта — состоит из 2-х строк по 44 символа, так же как и машиночитаемые визы типа А (MRV-A), которые используются США и Японией.

Courtesy Shwangtianyuan / wikimedia
Пример MRV-A

Машиночитаемая зона TD-1 (удостоверение личности гражданина, европейские ID-карты, грин-карта США) — состоит из 3-х строк по 30 знаков.

Courtesy AH829 / wikimedia
Пример TD-1

Машиночитаемая зона TD-2 (ID Румынии, старый тип ID Казахстана) и машиночитаемые визы типа B (MRV-B) (визы Шенгенской зоны) наносятся в 2 строки и содержат по 36 знаков.

Courtesy Doco / wikimedia
Пример TD-2

Courtesy Glentamara / wikimedia
Пример MRV-B

Строго говоря, только эти документы, перечисленные в стандарте ICAO, содержат то, что мы называем MRZ. На всех остальных документах машиночитаемые зоны могут быть созданы как в соответствии с этим стандартом, так и отличаться от него. Здесь мы разберем стандартную MRZ формата MRP на примере заграничного паспорта.

Первым знаком в машиносчитываемой зоне обозначает тип документа: P — означает машиносчитываемый паспорт, V — виза (visa). Государство или организация, выдавшие паспорт, могут использовать второй знак для определения типа документа (гражданский, служебный, дипломатический). По умолчанию международный общегражданский проездной документ (обыкновенный заграничный паспорт) называется просто паспортом. В случае с Российским заграничным служебным паспортом, первые две буквы машиносчитываемой строки PS показывают на тип паспорта — служебный, Service Passport. Если тип паспорта не указан, то вместо него вносится знак-заполнитель (<).

Следующие три символа, как правило, обозначают страну, выдавшую паспорт, соответствии со стандартом ISO 3166-1 альфа-3 , либо организацию, которая наделена правом выдавать паспорта и иные машиночитаемые документе (например, ООН, Интерпол, Совет Европы).

www.consilium.europa.eu
Пример MRZ Интерпола

Следующие 39 символов первой строки MRZ в заграничном паспорте отведены под написание имени. Сначала идет основной идентификатор или фамилия. Если фамилия состоит из нескольких слов, то между ними в MRZ ставится знак-заполнитель (<). Знаки препинания — дефисы, апострофы, запятые, которые используются при написании имени в ЗВП, в машиносчитываемых строках не используются. Поэтому вместо знаков препинания также используется знак-заполнитель.

В машиночитаемой зоне фамилия отделяется от имени отделяется двумя знаками-заполнителями, идущими подряд — <<. Точно также как и в фамилии, если в имени содержится несколько слов, они разделяются между собой знаками-заполнителями. Количество знаков в строке ограниченно. Для паспорта или машиночитаемой визы типа MRV-A первая строка машиночитаемой зоны должна содержать ровно 44 символа. Поэтому достаточно часто, когда полное имя слишком длинное и не помещается в одну строку, его сокращают. При этом сокращается только непосредственно имя (first name), которое является вторичным определителем по отношению к фамилии.

В машиночитаемой зоне применяются только знаки латинского алфавита без диактритических знаков. Это накладывает обуславливает отдельные особенности при транслитерации имен тех государств, которые используют латиницу, но при этом имеют особенности начертания отдельных букв, которые также прописаны в стандарте.

å → AA
lj → IJ
ß → SS
ä, æ→ AE
ñ → NXX
þ → TH
ð → DH
ø, œ, ö→ OE
ü → UE (для немецкого языка) или UXX (для Испанского языка)

Первые 9 символов второй строки машиночитаемой зоны заграничного паспорта — это номер документа. Несмотря на то, что в большинстве стран, которые внедряют машиносчитываемые зоны в свои документы, номера паспортов приводятся к 9-значному виду, в некоторых случаях общее количество знаков может быть больше или меньше. Следующий за номером документа 10-й знак служит для проверки корректности ввода документа и рассчитывается по отдельному алгоритму на основании номера паспорта. Если же цифр в номере больше, те знаки, которые не поместились в отведенные 9 мест, переходят в следующие зоны.

Три следующих символа — показывают гражданство владельца паспорта. Код гражданства записывается в международном формате ISO 3166-1 альфа-3. Есть и другие коды: для лиц без гражданства, например, указывается код XXA, а для беженцев XXB или XXC.

6 цифр далее — это дата рождения владельца паспорта в формате ГГММДД, а следующий за датой знак — это контрольная цифра, рассчитываемая по алгоритму на основе даты рождения.

Следом указывается пол владельца паспорта: мужской (M) или женский (F). Международные правила позволяют получить паспорт даже тем, кто не определился со своей половой или гендерной принадлежностью, либо она чересчур экзотическая: для особых случаев в этой позиции будет также стоять знак-заполнитель <.

Следующие 7 цифр — это срок действия паспорта в формате ГГММДД и контрольная цифра.

14 символов далее предназначены для внесения в них личного номера или иной необязательной информации, которая может быть использована для более точной идентификации владельца документа на усмотрение государства или организации, которые выдали документ. Если личный номер отсутствует, а иной информации нет, все это поле заполняется знаками <<. Если данные личного номера отсутствуют, то значение контрольной цифры в следующей позиции проставляется как 0 или заменяется знаком-заполнителем.

Последняя цифра в нижней строке MRZ паспорта представляет собой контрольную цифра, рассчитываемая с учетом всех знаков в нижней строке за исключением позиций, содержащих информацию о поле и гражданстве. На стандартных MRZ на визах контрольная цифра не используется.

А теперь вернемся к Российскому национальному общегражданскому паспорту. В Положении о паспорте гражданина Российской Федерации, образца бланка и описания паспорта гражданина Российской Федерации в 2011 году появилось описание машиночитаемой записи, которая наряду с заграничным паспортом стала применяться и на бланках общегражданского паспорта. Правила и способ формирования машиночитаемой записи устанавливаются Федеральной миграционной службой по согласованию с заинтересованными федеральными органами исполнительной власти. Изучив эти правила мы можем увидеть, видим, что содержание машиночитаемой записи российского паспорта не полностью соответствует требованиям ICAO и международным стандартам.

Мы видим как минимум три критических несоответствия ошибки, которые не дают нам возможности говорить о машиночитаемой записи в Российском общегражданском паспорте как о полноценной MRZ, применяемой в международных проездных документах.

Первое отступление от международного стандарта связано с используемым в России алфавитом. Так как надписи на странице данных в Российском паспорте нанесены на русском языке, для транслитерации в машиночитаемой записи Российского паспорта букв Ё, Ч, Ш, Ь, Э, Ю, Я используются цифры 2, 3, 4, 9, 6, 7, 8 соответственно. Это серьезное нарушение стандарта ICAO: использование цифр в имени при внесении в MRZ запрещено.

В стандарте MRZ обязательным является поле с указанием срока действия паспорта. В отличие от машиночитаемой зоны заграничного паспорта Российской Федерации, где окончание срока действия указано, во внутреннем документе России дата окончания срока действия паспорта нет. И поэтому соответствующее поле в МСЗ оказываются заполненными <<. Это второе отступление от стандарта.

Третье существенное отличие заключается в алгоритме кодирования собственно номера паспорта в машиночитаемой записи. Так как полный номер российского паспорта состоит из 10 цифр, а отведенных под номер полей во второй строке машиночитаемой зоны всего девять, то в них вносятся три первых цифры серии и 6 цифр номера. Последняя цифра серии при этом “уезжает” на 29 позицию.

ICAO, внедряя стандарты машиночитаемых проездных документов, ориентируется именно на заграничные паспорта, действующие за пределами государства, их выдавшего. Поэтому несоответствие машиночитаемой записи в национальном паспорте международным стандартам не является значительной проблемой.

Все отступления от международного стандарта в части исполнения машиночитаемой зоны, а также различия в полиграфическом исполнении паспортов создают дополнительные проблемы при внедрении систем автоматического распознавания. Но это также является и вызовом для разработчиков, постоянно работающих над улучшением технологий распознавания. Технология Smart MRZReader мгновенно распознает MRZ, выполненные по международным стандартам ICAO Doc 9303, а также поддерживает ряд MRZ-подобных записей, применяемых, как мы писали выше, на бланке российского паспорта, на французских ID-картах, болгарских свидетельствах о регистрации транспортных средств, швейцарских водительских правах.

Наши клиенты

Ренессанс Страхование

Smart Engines является поставщиком решений по сканированию и распознаванию документов для Группы Ренессанс Страхование

Делимобиль

Делимобиль использует технологию распознавания Smart IDReader для удаленной верификации клиентов

BlaBlaCar

Решения Smart Engines по распознаванию документов используются в крупнейшем в мире райдшеринговом сервисе BlaBlaCar

«Почта Банк»

«Почта Банк» внедрил решение Smart Engines для распознавания паспортных данных клиентов

По любым вопросам, предложениям или заказу решений,
пожалуйста, заполните предлагаемую ниже форму и мы обязательно свяжемся с вами.
Нажимая на кнопку отправить вы соглашаетесь на обработку данных