21.05.2025

ИИ в Data Governance: как мы ускорили маркировку персональных данных


Команда разработки продукта RT.DataGovernance компании TData внедрила алгоритмы искусственного интеллекта для ускорения маркировки персональных данных (ПДн). Это позволило сократить время на верификацию размеченных данных с нескольких лет до 2–3 недель.

Проблема 

Процесс первичного документирования объектов в RT.DataGovernance трудоёмок. Пользователям требуется задавать описание для таблиц или представлений, назначать ответственных за качество метаданных, устанавливать связи с другими объектами, проставлять теги. Всё это требует ручных действий.

Для решения этой проблемы команда RT.DataGovernance решила использовать генеративные модели для автогенерации описаний на основе их содержания. Однако даже «легковесные» модели оставались ресурсоёмкими, поэтому от этой идеи пришлось отказаться.

Разработка и тестирование модели

Изначально модель должна была определять только 4 вида ПДн: адрес, ФИО, дату рождения и мобильный телефон. Однако подготовленное MVP показало низкие метрики.

После получения датасета команда решила его дополнить атрибутом «Флаг». У него было всего два значения: 0 и 1. Если «score» не соответствовал действительности, то ставили «0».

По усреднённым результатам метрика Accuracy была равна около 0,3. Это означало, что только 3 значения из 10 были верно отмечены. С таким результатом модель в бой отпускать было нельзя.

Второй подход позволил учесть дополнительные требования к алгоритмам. Теперь к основным 4 тегам были добавлены ещё 4: номер СНИЛС, номер паспорта, номер ИНН и почтовый индекс.

Полученная модель была создана на основе регулярных выражений. Она решает задачу мультиклассовой классификации — то есть пока модель проставляет только один тег.

Интеграция алгоритмов искусственного интеллекта в RT.DataGovernance

Кроме модели, команда подготовила интерфейс: добавила цветовой индикатор (цвет информирует о наличии ПДн) и специальный дашборд для визуализации количества объектов, содержащих ПДн. Также был подготовлен специальный функционал для запуска скрипта анализа проверки содержания персональных данных.

Результаты

Первые результаты показали, что верификация уже размеченных данных занимает не годы, а вполне осязаемые сроки в 2–3 недели. Результаты разметки сразу используются в прикладных активностях информационной безопасности — настройке мониторингов и контроля доступа к данным объектам.

Это позволило ускорить процесс демократизации данных в компании. Внедрив доработку в продакшн, команда расширила функциональность продукта, решила прикладную бизнес-задачу и показала осязаемые результаты, оптимизировав рутинные операции и сократив воронку объектов, требующих человеческого участия.

Все подробности о том, как внедряли алгоритмы искусственного интеллекта, Антон Зубарев, аналитик команды разработки продукта RT.DataGovernance, рассказал на страницах Хабра.

https://habr.com/ru/companies/rostelecom/articles/909976/