15.11.2024

Новости

Создана методика оценки эффективности ИИ при работе с длинными текстами

При оценке качества работы ИИ бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста

Исследователи из России и Великобритании создали инструмент, позволяющий оценивать реальную производительность систем ИИ на базе больших языковых моделей при работе с большими объемами данных на английском и русском языках. Его создание поможет разработчикам подобрать оптимальные параметры работы и обучения этих систем ИИ, сообщила пресс-служба Института AIRI.

"Данная разработка - важный шаг в оценке реальной эффективности языковых моделей. Наш бенчмарк не только позволяет сравнивать корректность работы моделей на разной длине контекста, но и служит индикатором их качества, что демонстрирует, в каких аспектах требуется улучшение. Это значительно поможет разработчикам новых моделей", - пояснил руководитель группы "Модели с памятью" лаборатории "Когнитивные системы ИИ" Института AIRI Юрий Куратов, чьи слова приводит пресс-служба института.

Разработанный Куратовым и его коллегами, в том числе специалистами МФТИ, Лондонского института математических наук (LIMS) и SberDevices, инструмент представляет собой набор из двух десятков задач, которые требуют поиска и обработки разрозненных фактов в крупных текстах. Среди них - связывание и комбинирование информации из нескольких фактов, индукция, дедукция, простейший подсчет и работа со списками и множествами.

При оценке качества работы той или иной системы ИИ бенчмарк оценивает две метрики: качество ответа и зависимость точности от длины контекста. Для получения подобной информации ученые приспособили популярный набор данных BABI, нацеленный на оценку понимания базовой логики и арифметики, а также подготовили набор отрывков и полных произведений из художественной литературы, в которые были встроены задачи, изначально рассчитанные на понимание коротких текстов.

В ходе экспериментов исследователи применили бенчмарк для анализа популярных моделей с открытым исходным кодом при различных длинах контекста. Проведенный анализ показал, что почти все популярные модели используют лишь 10-20% от общей длины контекста, и при этом качество их работы очень быстро падает при увеличении сложности задач, а также при росте объема данных. Это подчеркивает необходимость улучшения механизмов обработки контекстной информации., подытожили ученые.

Источник: tass.ru

Изображение: freepik.com



Еще новости / Назад к новостям