VaultGemma: Google представила самую большую открытую языковую модель с дифференцированной конфиденциальностью
— Технологии&Авто
2861

Google Research совместно с DeepMind представили VaultGemma — новую языковую модель с 1 миллиардом параметров, полностью обученную с использованием технологии дифференцированной приватности (DP).
Об этом говорится в блоге Google Research.
Это самая большая на сегодняшний день открытая модель такого типа. Она уже доступна на платформах Hugging Face и Kaggle.
В чем особенность этой модели
Дифференцированная приватность добавляет к данным специально сгенерированный «шум», что делает невозможным запоминание конфиденциальной информации.
Такой подход, говорят в компании, повышает безопасность, но затрудняет тренировку моделей, увеличивает затраты ресурсов и требует больших объемов данных.
Чтобы преодолеть эти ограничения, Google разработал новые «законы масштабирования» — правила, описывающие, как балансировать между качеством обучения, объемами данных, ресурсами и уровнем конфиденциальности.
Что показало тестирование модели
Используя эти результаты, исследователи создали оптимальные условия для тренировки VaultGemma.
Модель показала производительность, соразмерную языковым системам пятилетней давности, в частности GPT-2, но при этом гарантирует защиту данных.
Тесты подтвердили, что VaultGemma не воспроизводит обучающие примеры, а значит — не запоминает приватную информацию.
Иными словами: даже в случае запросов, близких к обучающим примерам, модель не может выдать приватные данные пользователей.
В Google подчеркивают, что VaultGemma является важным шагом в создании безопасного и ответственного искусственного интеллекта.
Хотя разрыв между приватными и обычными моделями еще существует, в компании уверены, что благодаря дальнейшим исследованиям его можно постепенно сократить.
По материалам:
Поделиться новостью
