Исследователи Сбера представили революционный метод, который позволяет почти на 30% точнее выявлять ложные ответы больших языковых моделей, используя при этом в разы меньше данных для обучения. Это открытие способно кардинально удешевить и ускорить внедрение надежного искусственного интеллекта в бизнес-процессы.
Ученые Центра практического искусственного интеллекта Сбербанка разработали метод, который значительно снижает риски галлюцинаций больших языковых моделей (LLM). Результаты исследования опубликованы в статье "Эффективные мета-модели для оценки вопросов и ответов Больших Языковых Моделей на основании контекста" (Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs) на престижной конференции SIGIR 2025. Работа посвящена оценке ответов моделей искусственного интеллекта в RAG-системах - ключевом элементе современных мультиагентных решений.
Проблема галлюцинаций больших языковых моделей - одна из самых распространенных в индустрии. LLM могут генерировать правдоподобные, но ложные ответы. Наиболее эффективные современные методы обнаружения галлюцинаций - обучаемые, они требуют большого количества качественных размеченных данных для обучения, что дорого и трудозатратно.
Как отмечает Глеб Гусев, директор Центра практического искусственного интеллекта Сбербанка, именно это и было главной задачей исследования: "В индустриальных решениях, где разметка данных требует значительных временных и финансовых ресурсов, остро стоит вопрос эффективности. Наш метод меняет сам подход, доказывая, что для достижения высокой точности не нужны гигантские размеченные датасеты. Мы используем метамодели и умное понижение размерности - это и есть наш прорыв в детекции галлюцинаций ИИ".
Достижение ученых Сбера решает эту проблему. Они разработали метамодели, которые повышают точность обнаружения ложных ответов почти на 30%, используя всего 250 примеров для обучения. Это в разы меньше, чем нужно другим решениям.
Такой подход позволяет компаниям заметно экономить ресурсы на разметку данных и улучшать качество RAG-систем. Ученые и разработчики получают новый инструмент для анализа больших языковых моделей, а пользователи - более точные и надежные ответы от AI-моделей, что критично для поддержания доверия к технологиям.
Последние комментарии
Специалист по радиосвязи легко осваивает проводную связь, тогда как проводнику сложнее разобраться в радиосвязи. И это факт!
Берег в Рождествено у людей украл
Только в своих «мудрых» речах Антон почему-то умалчивает, как по-свински поступил с работниками своей команды. Что «предупредил» людей о закрытии за две недели до роспуска команды. Уговорил написать увольнение по собственному желанию, клятвенно обещая выплатить всё после продажи интеллектуальной собственности. Потом исчез, и своих денег мы ждём до сих пор
Прибывалка63 умерла после появления в Самаре Яндекс.Транспорт
Всё написали, кроме того как называется приложение