Новости
Создана методика оценки эффективности ИИ при работе с длинными текстами
"Данная разработка - важный шаг в оценке реальной эффективности языковых моделей. Наш бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей", - пояснил руководитель группы "Модели с памятью" лаборатории "Когнитивные системы ИИ" Института AIRI Юрий Куратов, чьи слова приводит пресс-служба института.
Разработанный Куратовым и его коллегами, в том числе специалистами МФТИ, Лондонского института математических наук (LIMS) и SberDevices, инструмент представляет собой набор из двух десятков задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них - связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.
При оценке качества работы той или иной системы ИИ бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста. Для получения подобной информации ученые приспособили популярный набор данных BABI, нацеленный на оценку понимания базовой логики и арифметики, а также подготовили набор отрывков и полных произведений из художественной литературы, в которые были встроены задачи, изначально рассчитанные на понимание коротких текстов.
В ходе экспериментов исследователи применили бенчмарк для анализа популярных моделей с открытым исходным кодом при различных длинах контекста. Проведенный анализ показал, что почти все популярные модели используют лишь 10-20% от общей длины контекста, и при этом качество их работы очень быстро падает при увеличении сложности задач, а также при росте объема данных. Это подчеркивает необходимость улучшения механизмов обработки контекстной информации., подытожили ученые.
Источник: tass.ru
Изображение: freepik.com