Rus
Мнения
Тренд на максимальную защиту данных усиливается

Технологии Big Data и решения, основанные на них, до недавних пор воспринимались бизнесом как дорогостоящие, долгие на этапе разработки и сложные на этапе внедрения. Однако, ситуация быстро меняется, современные высокопроизводительные технологии уже позволили компаниям целого ряда отраслей оценить практическую пользу персонализированных сервисов для клиентов. Платформ машинного обучения в России и в мире уже сотни, и сегодня на первый план встает задача защиты данных. Виктор Стрелков, директор по разработке oneFactor рассказал об использовании технологии Intel® Software Guard Extensions (Intel® SGX) для задач конфиденциального машинного обучения.

- Расскажите о задаче, которая стояла перед разработчиками.

- По результатам исследования компании oneFactor, добавление в признаковое пространство ML-модели данных из нескольких доменных областей, например комбинация данных eCom и операторов связи, дает от 5 до 15% прироста точности данной модели. Перед нами встала задача не только объединить данные из нескольких источников, но обеспечить скорость вычислений и конфиденциальность данных, загружаемых в платформу, от трех участников: от одного поставщика другому, от Data Scientist-а обучающего модель и от администратора платформы обучения.

Исследовав различные пути решения задачи защиты данных, разработчики oneFactor пришли к технологии Intel SGX, которая представляет собой набор инструкций процессора, позволяющий создавать защищённую область адресного пространства в том числе и от процессов с правами администратора. На базе данной технологии oneFactor разработал способ поставки данных в платформу без возможности компрометации.

- Расскажите подробнее, как работает ML-модель?

- Разработанное приложение «поднимается» как сервис на любом компьютере с поддержкой Intel SGX. Данный сервис предоставляет интерфейсы по загрузке данных, аттестации анклавов и выгрузке результирующих данных.

В первую очередь происходит аттестация анклава (подтверждение подлинности анклава), затем клиент создает защищенное соединение, по которому можно поставить свои данные. При аттестации анклава проверка происходит по двум идентификаторам: mr_signer – разработчик анклава, в данном случае oneFactor, и mr_enclave, конкретная сборка данного приложения. При пересборке mr_enclave меняется и oneFactor по защищенным каналам передает дата-провайдеру новый ID. Внешним сервисом подтверждения подлинности анклава также является Intel Attestation Server (IAS), аналог корневого центра сертификации.

После аттестации самого соединения анклав используется для хранения «секрета» дата-провайдера, в данном случае этим «секретом» является пара ключей (несимметричный алгоритм), которыми шифруется набор данных. Открытый ключ поставляется через соединение с анклавом внутрь и данные загружаются на компьютер, где развернут сервис oneFactor, в зашифрованном виде. Это проделывают все поставщики данных, которые будут участвовать в обучении - загружают свои зашифрованные данные в обычную область на диск и «секреты», в данном случае открытый ключ, в зашифрованную область памяти.

Затем data-scientist, который одновременно может выступать и поставщиком данных, через привычный ему инструмент Jupyter Kernel заходит в ядро среды разработки, которое в свою очередь обращается к развёрнутому анклаву, в котором проходит машинное обучение.

Как переход на технологию SGX 2.0 позволил ускорить обучение до 19 раз, рассказано в публикации на Хабр.

- В чем уникальность вашей разработки?

- Особенностью платформы oneFactor является высокий уровень защиты исходных данных от компрометации на аппаратном уровне, поскольку их «видит» только алгоритм машинного обучения. Технология Intel SGX позволила привнести в платформу ключевой дифференциатор – конфиденциальное совместное машинное обучение.

К данным нет доступа даже у администраторов системы или поставщика облачных сервисов, что подтверждено независимым аудитом с участием компаний, подключивших свои данные к платформе. Изоляция данных в анклаве SGX обеспечивает дополнительную защиту от несанкционированного внешнего или внутреннего доступа. Это первое в России коммерческое применение технологии обеспечения конфиденциальности данных для тренировки алгоритмов машинного обучения.

Тесты показали, что при использовании объединенных данных, например, в финансовом секторе, качество выявления мошенничества на 20–35% выше, чем при раздельной обработке данных. Теперь с помощью платформы банки могут дополнительно улучшить качество сервисов и обслуживания своих клиентов: от противодействия телефонному мошенничеству до полностью автоматической верификации кредитных заявок.

Технология не ограничивает количество или категории данных, которые могут быть подключены к платформе. Она позволяет за несколько дней запустить сервисы машинного обучения как для владельцев данных, использующих платформу, так и для коммерческих заказчиков: банков, страховых компаний, ретейлеров, площадок электронной коммерции.

- Как данное решение влияет на конечных пользователей услуг?

- По отзывам наших клиентов, люди обеспокоены возможностью утечки персональных данных, но при этом готовы делиться своими неперсонифицированными данными, чтобы получать лучшие услуги и удовольствие от их потребления. Высокая предсказательная точность модели и защищенность данных, гарантируют, что человек получить услуги, соответствующие его ожиданиям и образу жизни без раскрытия персональных данных.

Компания oneFactor (входит в «ИКС Холдинг») – ведущая российская IT-компания, лидер рынка безопасной монетизации данных, специализирующаяся на разработке решений для оптимизации ключевых бизнес-процессов на основе обработки больших массивов данных.