20.06.2025

Новости

Как российские разработчики решают проблему деградации нейросетей

Сегодня все больше языковых моделей обучаются на данных, сгенерированных другими нейросетями. Появился термин Model collapse - процесс, при котором модели искусственного интеллекта (ИИ) теряют способность точной работы из-за обучения на сгенерированных ранее данных. Эксперты отмечают, что уже появились методы, способные сохранить надежность ИИ-систем.

К грязным данным относятся некорректные или некачественные наборы информации, содержащие ошибки, искажения, неправильный контекст или нестабильное форматирование. Они могут включать в себя ложные факты, неполные фразы, неестественные языковые конструкции, а также дублирование и шаблонность. При обучении на таких данных модель усваивает ошибочные или упрощенные паттерны, и это снижает ее работоспособность.

Андрей Кулинич, ведущий преподаватель МИРБИС и ИИ-архитектор, указывает на две основные причины "загрязнения" данных. Первая - неполнота информации, когда модель при генерации может опускать детали или делать ошибочные выводы. Вторая - проблема испорченного телефона: если модель, обученная на синтетических данных, будет генерировать "синтетику" для других моделей, то происходит вырождение - накопление ошибок и потеря связи с реальными фактами.

"Под термином model collapse подразумевают деградацию знаний ИИ-модели, когда она со временем теряет способность распознавать редкие паттерны, теряя свою полезность для решения практических задач", - отмечает руководитель научной группы "Адаптивные агенты" Института AIRI Владислав Куренков.

Полную версию материала читайте на rg.ru

Текст: Татьяна Самусенко

Фото: Александр Гальперин/РИА Новости



Еще новости / Назад к новостям