Специальная программа для малого и среднего бизнеса

18.05.2020 г.

Утечка как сервис: что вам следует знать о безопасности распознавания документов

В некоторых областях сервисные модели не несут ничего хорошего для пользователей. Особенно это касается вопросов передачи на аутсорсинг обработки пользовательских данных, что по факту означает передачу доверия клиента третьим лицам.

Michael Caristo 

Философия 

Мы живем в мире услуг. На них сегодня строится экономика, миллиарды людей по всему миру задействованы в их предоставлении. При этом мы говорим не только о предоставлении услуг конечным пользователям (B2C), но и о предоставлении сервисов для бизнеса (B2B), в том числе различного вида аутсорсинг. Отдавая сторонним подрядчикам услуги, которые поддерживают их основное направление бизнеса, компании тем самым оптимизируют затраты и снижают объем уплачиваемых налогов. В сторонние организации передается уборка помещений, юридическое сопровождение, наем персонала, покупка билетов и бронирование гостиниц для сотрудников. В этом нет ничего странного: вполне логично, что узкоспециализированные процессы передаются профессиональным подрядчикам, чьи периодические услуги обходятся значительно дешевле содержания штатных профильных специалистов. 

С ростом технологичности и «переходом в цифру» компании различных отраслей начали массово мигрировать в зону IT. Предоставление финансовых, страховых, медицинских услуг сегодня немыслимо без развитой информационной инфраструктуры и автоматизированной обработки данных. Далеко не каждая компания может позволить себе организовать работу собственного ЦОДа, поэтому вполне обычное явление — хранение данных на удаленных серверах, в облаке. Тоже, получается, аутсорсинг? По факту — да. Но если юридически облачное хранилище еще как-то связано с компанией, которая арендует серверные мощности на стороне, то географически чаще всего — нет. При этом компания, предоставляющая удаленные сервера или облачные хранилища, никаким образом не связана с конечными клиентами условных банков, страховых и ипотечных компаний, медицинских центров и юридических агентств. Результатом передачи данных для хранения и обработки в сторонние компании стала волна утечек чувствительной информации, начавшаяся в 2018 году и продолжающаяся до сих пор. Причем утечки коснулись облачных хранилищ крупных и известных в IT-кругах компаний. 

Подчеркнем: мы не утверждаем, что удаленные серверы и облачные хранилища являются единственным источником утечек. Мы лишь указываем, что, по-нашему мнению, удаленные ресурсы являются дополнительным звеном в цепочке хранения и обработки информации, а следовательно, при отсутствии должных степеней защиты они становятся для злоумышленников объектом дополнительного внимания.

Получив однажды негативный опыт работы с удаленными хранилищами данных, крупные компании предпочли потратить дополнительные средства на развертывание и усиление собственных служб IT-безопасности, создание локальных хранилищ персональных данных клиентов. Логика здесь предельно проста: даже если какие-то данные и утекут наружу, компании будет как минимум проще отследить путь утечки, и проконтролировать распространение информации о случившемся инциденте.

Компании по всему миру начинают понимать, что передача на хранение и обработку чувствительной информации стороннему подрядчику может грозить значительными репутационными и финансовыми потерями. 

Проблема 

Сейчас и потребители, и поставщики услуг переходят в онлайн: если еще полтора месяца назад удаленное взаимодействие было уделом наиболее продвинутых фрилансеров и работников транснациональных корпораций, не имеющих жесткой географической привязки, а иногда и рабочего места, то сегодня переход в онлайн — это насущная необходимость большинства компаний, которые хотят сохранить свой бизнес. То же самое касается и взаимодействия с клиентами, оказания услуг и продажи товаров. Конфиденциальность переговоров, переписки, транзакций очень сильно зависит от канала связи и от сопутствующих сервисов хранения и обработки чувствительной информации. 

Чем больше сервисов в мире используют персональные данные, тем больше вероятность, что их украдут. Что утекает в сеть и в даркнет? Многочисленные базы данных: транзакции, адреса, учетные записи, пароли. Источниками становятся агрегаторы, маркетплейсы, брокеры, третьесортные сервисы знакомств, а также многочисленные рекламные и маркетинговые агентства, где информацию собирают из всех возможных источников, а о безопасности данных думают в последнюю очередь. Более того — ряд компаний, по вине которых произошли недавние масштабные утечки данных (например, маркетинговая компания, которая в мае 2019 года оставила в открытом доступе свой сервер с 49 млн строк индийских пользователей Instagram), в нарушение своих обязательств хранят информацию о клиентах более длительный период времени, что ожидаемо повышает вероятность их компрометации. 

Но, пожалуй, даже самые защищенные сервисы сегодня не избежали утечек данных своих клиентов. И здесь есть несколько моментов, на которые необходимо обратить внимание.

Можно было бы пойти с самого начала, показав, с чего начинались самые ранние утечки, и увидеть, что все они были вызваны, как правило, недостаточным уровнем защищенности хранилищ данных. Системы просто не выстояли перед направленными атаками хакеров. Но, если на начальном этапе шло фактически противостояние систем, то что сегодня причина кроется, как правило, в халатности и, как принято говорить, человеческом факторе. Разработчики популярного сегодня приложения ZOOM, которое «выстрелило” на волне ухода в онлайн, получили шквал критики в свой адрес. Здесь видим полный комплект: и шпионящие скрипты, и отсутствие шифрования при передаче, и доступ к архивным материалам. Эксперты предполагают, в чем причина такого “поведения» ставшего самым популярным приложением видеоконференций: диверсия мирового масштаба или низкое качество? Большое похоже на второе: в желании побыстрее захватить рынок, было выпущено достаточно сырое приложение с низким уровнем защиты данных пользователей. Именно сырое: невозможно себе представить, что разработчики приложений подобного уровня и функционала, неспособны обеспечить необходимую защиту передаваемых и хранимых данных. Результат известен: несмотря на последовательные попытки убрать бреши в системе защиты и избавиться от сомнительных скриптов, от использования сервиса в спешном порядке были вынуждены отказываться отдельные институты и даже государства.

В отношении распознавания документов проблема сужается, но не становится меньше. Организации, которые обязаны предоставлять свои услуги исключительно при предъявлении документа, удостоверяющего личность, при переходе в онлайн собирают данные своих клиентов. В зависимости от того, в каком виде хранятся эти данные, можно оценить риск утечки: большая разница, утекает ли в сеть полный набор персональных данных, включающая паспортные данные (или образ документа), данные для доступа в личный кабинет, информация о транзакциях в структурированном виде, или же набор символов, недоступный для расшифровки стороннему пользователю. Самая большая проблема, что попадание структурированных данных в сеть сегодня — это несоответствие уровней защиты на различных этапах или же наплевательское отношение со стороны разработчиков. Представьте себе, что сбор данных документов ведется в соответствии с высшими стандартами безопасности, сервер сбора хранит данные ровно столько, сколько необходимо для безопасной обработки, все защищено по высшему уровню, а конечный продукт в виде базы персональных данных клиентов оказывается доступным по простому паролю на незащищенном сервере или в документе в облаке, индексируемом распространенными поисковыми системами

Самые абсурдные утечки происходят, когда защищенная система сталкивается с незащищенной. Именно это мы наблюдаем сегодня, когда в систему о государственных и муниципальных платежах (ГИС ГМП), организацией-получателем штрафа загружается информация, содержащая персональные данные плательщика. При этом, как сообщают, ГИС ГМП разрешает доступ для проверки начислений и автоматического заполнения данных плательщика сторонним платежным сервисам. Как таковой утечки здесь, конечно, нет, но автозаполнение форм, которое вроде как призвано облегчить и ускорить процесс оплаты платежей производится по одному-единственному идентификатору платежа (УИП) без какой-либо дополнительной авторизации, дает предпосылки для активных действий мошенников по сбору структурированного массива данных плательщиков при помощи несложных программ перебора.

Технология 

В непрерывной технологической гонке организации стремятся сделать свои услуги более удобными, интуитивно понятными и, что называется, модными, продвинутыми. Нам помогают голосовые помощники Google, Cortana, Alexa, Siri, попутно собирая о нас массив данных, который позволяет им знать о нас больше, чем мы сами. 

Если мы обратимся к области, в которой работает наша компания — области распознавания различных типов документов — то здесь помощниками выступают специализированные программные решения и удаленные сервисы, помогающие быстро заполнять данные регистрационных форм при покупке билетов, посадке в самолет или поезд, оформлении страховки или кредита, автоматизируя процесс распознавания различных документов и форм. Экономится время сотрудников и клиентов, снижается доля неверно введенных данных, исключается человеческий фактор. 

И здесь необходимо провести границу между распознающим приложением, которое работает на пользовательском устройстве в автономном режиме, и сервисом, предоставляющем услуги на расположенном неизвестно в какой точке мира сервере или облаке, на который передаются образы пользовательских документов.

С точки зрения безопасности между сервисами и приложениями лежит огромная пропасть. Сегодня сервис удаленного распознавания документов при отсутствии грамотно построенной системы защиты информации, как на канале передачи информации, так и на самом внешнем сервере, где происходит распознавание, являются головной болью для компаний и для конечных клиентов. 

Обратим внимание, что, как правило, объектами утечек и как следствие — объектами продажи в даркнете, становятся образы (сканы и фото) паспортов и ID карт, договоров, паспортов транспортных средств, водительских удостоверений, банковских карт, полисов медицинского и социального страхования, дипломов. Характер массовых утечек говорит о том, что все эти образы хранились на некоторых удаленных серверах в незашифрованном виде, позволяющем украсть их и выставить на продажу. Получается, что незащищенные сервисы, которые предоставляют услуги по удаленному распознаванию документов, становятся естественным поставщиком изображений документов на черный рынок. Причем утечки происходят как из-за технического несовершенства систем распознавания, систем безопасности каналов передачи данных и хранилищ, так и по причине участия в процессах распознавания неконтролируемых третьих лиц. 

А зачем вообще использовать сервисы распознавания, когда сам процесс заключения договора на обработку персональных данных со сторонней организацией способен существенно усложнить жизнь организации? Очевидно, организации идут на передачу распознавания сторонним сервисам в погоне за дешевизной? Но за счет чего она может достигаться? В случае с удаленными сервисами, которые безответственно подходят к вопросам безопасности пользовательских данных, мы имеем достаточно удручающую картину: 

– Передача функции распознавания документов клиентов стороннему подрядчику на удаленный сервер сравнима с поручением уборщице из клининговой конторы пересчитывать наличность в персональных банковских ячейках. Организация «в целом» нам известна, а вот каждый отдельный работник — нет.

– Вполне вероятно, что снижение стоимости достигается за счет использования простых технологий. Никто не знает, как работает удаленный сервис распознавания: еще сравнительно недавно удаленные сервисы распознавания не обладали искусственным интеллектом и машинным зрением, и всю работу по распознаванию выполняли «фабрики распознавателей» из какой-нибудь страны с экстремально низкой стоимостью труда, которые вбивают данные паспортов клиентов в формы вручную. Сегодня, когда шпионские программы и трояны становятся все более изощренными, вполне возможным видится сценарий, когда работу по перехвату изображений и отправки его в даркнет может выполнять внедренный недоброжелателем в одно из звеньев передачи информации вредоносный код.

– Возможно, сервис становится дешевле за счет того, что никто не контролирует безопасность канала, по которому информация в нешифрованом виде поступает на сервер, где происходит обработка изображений. Звено передачи нешифрованой информации является наиболее уязвимым местом. В случае же, когда безопасность обеспечивается на высоком уровне, фактически нивелируется выигрыш во времени и процесс передачи становится более сложным, затратным и медленным.

Процесс распознавания с использованием удаленного сервиса значительно более медленный, чем распознавание с помощью приложений на конечных устройствах. Требуется время на захват изображения, его передачу на сервер для обработки и распознавания, возврат данных в систему. 

Преимущество приложений распознавания в том, что они работают изолированно и автономно, не передавая в сеть никакой информации. Более того, приложения последних поколений не сохраняют и не хранят никакие изображения документов, как раз чтобы избежать утечек. Если распознавание происходит на конечном устройстве, это гарантирует, что переданы будут только данные в минимально необходимом объеме (если что-то вообще необходимо передавать).

Этика 

Утечка данных всегда сказывается не на разработчиках программного обеспечения и баз данных, и даже не на деятельности собственно организаций, откуда эта утечка произошла (хотя им наносится значительный репутационный ущерб и часть потенциальных клиентов сто раз подумает, чем обратится в компанию, данные которой стали достоянием общественности). Страдают прежде всего клиенты. 

Рассмотрим банк как пример оказания финансовых услуг. Основная задача и услуга банка — как минимум сохранять деньги клиента в безопасности, в идеальной модели преумножать их. Эта основная услуга подразумевает, что в безопасности будут находиться и персональные данные клиента, размер его сбережений и прочая чувствительная информация. Именно в этом состоит предмет договора клиента с банком. 

Когда речь идет об обеспечивающих сервисах финансовая организация вольна нанимать кого угодно: поддерживающие сервисы достаточно слабо влияют на то, каким образом выполняется основная функция банка. Распознавание документов и автоматический ввод персональных данных в формы это не поддерживающий процесс, а часть основной процедуры взаимодействия финансовой организации и клиента. Именно поэтому финансовые организации не могут позволить себе ставить под угрозу клиентские данные, подвергая их риску утечки, к чему может привести передача на аутсорсинг процесса автоматизации ввода персональных данных. Фактически передача процесса обработки клиентских данных на сторону — это передача доверия клиента от банка третьим лицам, о чем клиент может и не подозревать. Финансовая организация со своей стороны не может гарантировать безопасность данных своих клиентов, когда образы их документов передаются на удаленные сервера (и, возможно, хранятся там неопределенно долгое время), находящиеся под юрисдикцией другого юридического лица или, возможно, государства.

Разумеется, можно выбрать высокозащищенные сервисы, стоимость которых будет сравнима с разработкой и интеграцией программных продуктов в собственные приложения финансовых организаций. При этом сервис должен работать в строгом соответствии с процедурами информационной безопасности финансовой организации и находиться под полным контролем. А это, как мы понимаем, дополнительные издержки как со стороны сервиса, так и со стороны финансовой организации. При этом вопрос деловой этики остаётся также открытым. 

В случае, когда распознавание клиентских документов отдано сторонней организации, единственной «защитой» для конечного пользователя является то, что компания, доверием которой он пользуется, заключила договор, которого он, возможно, даже не видел, с некоторым третьим лицом — компанией, о которой он не знает ровным счетом ничего. В случае утечки персональных данных третья компания, возможно, и пострадает в результате судебных исков, но конечному пользователю, чьи данные утекли в даркнет, от этого, что называется, ни холодно ни жарко.

Узнайте о программных продуктах Smart Engines и их применении
Smart ID Engine
Smart Code Engine
Smart Document Engine
Smart Tomo Engine

Скачайте мобильное демоприложение и попробуйте безопасные технологии распознавания Smart Engines в действии

    

Тинькофф Банк

Smart Engines поставляет мобильные и серверные решения по распознаванию документов Тинькофф Банку

Альфа-Банк

Альфа-Банк распознает документы клиентов в мобильном приложении с помощью Smart ID Engine

ВТБ

ВТБ перешел на российские технологии для распознавания QR-кодов и банковских карт

Газпромбанк

Газпромбанк внедрил решение Smart Engines на основе искусственного интеллекта для распознавания QR-кодов

Заказать продукт

Для заказа решений, получения подробной информации или триал версий заполните приведенную ниже форму, и мы обязательно с Вами свяжемся.

    https://smartengines.ru/blog/utechka-kak-servis-chto-vam-sleduet-znat-o-bezopasnosti-raspoznavaniya-dokumentovArray ( )