Новости
Как российские разработчики решают проблему деградации нейросетей

К грязным данным относятся некорректные или некачественные наборы информации, содержащие ошибки, искажения, неправильный контекст или нестабильное форматирование. Они могут включать в себя ложные факты, неполные фразы, неестественные языковые конструкции, а также дублирование и шаблонность. При обучении на таких данных модель усваивает ошибочные или упрощенные паттерны, и это снижает ее работоспособность.
Андрей Кулинич, ведущий преподаватель МИРБИС и ИИ-архитектор, указывает на две основные причины "загрязнения" данных. Первая - неполнота информации, когда модель при генерации может опускать детали или делать ошибочные выводы. Вторая - проблема испорченного телефона: если модель, обученная на синтетических данных, будет генерировать "синтетику" для других моделей, то происходит вырождение - накопление ошибок и потеря связи с реальными фактами.
"Под термином model collapse подразумевают деградацию знаний ИИ-модели, когда она со временем теряет способность распознавать редкие паттерны, теряя свою полезность для решения практических задач", - отмечает руководитель научной группы "Адаптивные агенты" Института AIRI Владислав Куренков.
Полную версию материала читайте на rg.ru
Текст: Татьяна Самусенко
Фото: Александр Гальперин/РИА Новости