МАСКИРОВКА КРИТИЧНОЙ ИНФОРМАЦИИ ПРИ ОБУЧЕНИИ ЯЗЫКОВЫХ МОДЕЛЕЙ
Аннотация
Языковые модели машинного обучения - комбинации алгоритмов и нейронных сетей, предназначенные для обработки текстов составленные на естественном языке (Natural Language Processing, NLP).
В 2020-ом году состоялся релиз самой большой языковой модели от компании по исследованию искусственного интеллекта OpenAI - GPT-3, максимальное количество параметров которой достигает 175 млрд. Увеличенная, более чем в 100 раз, параметризация модели позволила повысить качество генерируемых текстов до уровня тяжело различимого от текстов, написанного человеком. Примечательно, что данную модель обучали на тренировочном датасете преимущественно собранном из открытых источников в сети Интернет, объем которого оценивается в 570 ГБ.
В данной статье рассматривается проблема запоминания критичной информации, в частности - персональных данных физических лиц (ПДн), на этапе обучения больших языковых моделей (GPT-2/3 и производных), а также описывается алгоритмический подход к решению данной проблемы, заключающийся в дополнительной предобработке тренировочного датасета и доработке инференса модели в разрезе генерации псевдо-персональных данных и встраивание в результаты работы по задачам суммаризации, генерации текста, формирование ответов на вопросы и другие из области применения seq2seq.
Литература
2.Nicholas Carlini, Florian Tramer, Eric Wallace, et al. Extracting Training Data from Large Language Models. 2020. 21s. https://arxiv.org/pdf/2012.07805.pdf
3.Sorami Hisamoto, Matt Post, Kevin Duh. Membership Inference Attacks on Sequence-toSequence Models: Is My Data In Your Machine Translation System? 2020. 15c. https://arxiv.org/pdf/1904.05506.pdf
4.Congzheng Song, Ananth Raghunathan. Information Leakage in Embedding Models. 2020. 14s. https://arxiv.org/pdf/2004.00053.pdf
5.Vsyo, chto nam nuzhno — eto generaciya / Habr – soobshestvo IT specialistov. URL: https://habr.com/ru/company/sberbank/blog/550056/
6.Kontrolnoe chislo / Wikipedia svobodnaya enciklopediya. URL: https://ru.wikipedia.org/wiki/Kontrolnoe_chislo
CC BY-ND
Эта лицензия позволяет свободно распространять произведение, как на коммерческой, так некоммерческой основе, при этом работа должна оставаться неизменной и обязательно должно указываться авторство.