HIDING CRITICAL INFORMATION WHEN TRAINING LANGUAGE MODELS

A. Evtushenko

doi:10.31618/ESU.2413-9335.2021.1.86.1349

A. Evtushenko DataFamily Khabarovsk

DOI: https://doi.org/10.31618/ESU.2413-9335.2021.1.86.1349

Ключевые слова: языковые модели, предобработка данных, GPT-3, критичная информация, персональные данные, маскирование.

Аннотация

Языковые модели машинного обучения - комбинации алгоритмов и нейронных сетей, предназначенные для обработки текстов составленные на естественном языке (Natural Language Processing, NLP).

В 2020-ом году состоялся релиз самой большой языковой модели от компании по исследованию искусственного интеллекта OpenAI - GPT-3, максимальное количество параметров которой достигает 175 млрд. Увеличенная, более чем в 100 раз, параметризация модели позволила повысить качество генерируемых текстов до уровня тяжело различимого от текстов, написанного человеком. Примечательно, что данную модель обучали на тренировочном датасете преимущественно собранном из открытых источников в сети Интернет, объем которого оценивается в 570 ГБ.

В данной статье рассматривается проблема запоминания критичной информации, в частности - персональных данных физических лиц (ПДн), на этапе обучения больших языковых моделей (GPT-2/3 и производных), а также описывается алгоритмический подход к решению данной проблемы, заключающийся в дополнительной предобработке тренировочного датасета и доработке инференса модели в разрезе генерации псевдо-персональных данных и встраивание в результаты работы по задачам суммаризации, генерации текста, формирование ответов на вопросы и другие из области применения seq2seq.

Биография автора

A. Evtushenko , DataFamily Khabarovsk

CTO

Литература

1.Tom B. Brown, Benjamin Mann, Nick Ryder, et al. Language Models are Few-Shot Learners. 2020. 75s. https://arxiv.org/pdf/2005.14165.pdf
2.Nicholas Carlini, Florian Tramer, Eric Wallace, et al. Extracting Training Data from Large Language Models. 2020. 21s. https://arxiv.org/pdf/2012.07805.pdf
3.Sorami Hisamoto, Matt Post, Kevin Duh. Membership Inference Attacks on Sequence-toSequence Models: Is My Data In Your Machine Translation System? 2020. 15c. https://arxiv.org/pdf/1904.05506.pdf
4.Congzheng Song, Ananth Raghunathan. Information Leakage in Embedding Models. 2020. 14s. https://arxiv.org/pdf/2004.00053.pdf
5.Vsyo, chto nam nuzhno — eto generaciya / Habr – soobshestvo IT specialistov. URL: https://habr.com/ru/company/sberbank/blog/550056/
6.Kontrolnoe chislo / Wikipedia svobodnaya enciklopediya. URL: https://ru.wikipedia.org/wiki/Kontrolnoe_chislo

МАСКИРОВКА КРИТИЧНОЙ ИНФОРМАЦИИ ПРИ ОБУЧЕНИИ ЯЗЫКОВЫХ МОДЕЛЕЙ

Аннотация

Биография автора

Литература

CC BY-ND