Нейросеть для анализа русскоязычных научных статей и патентов: разработка НИУ ВШЭ
Учёные Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели для работы с русскоязычными научными текстами. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, что позволяет запускать её на более доступном оборудовании.
Объём научно-технической информации — патентов, статей, отчётов — растёт с каждым днём. Эффективно работать с этим массивом помогает искусственный интеллект. Однако большинство популярных языковых моделей, таких как ChatGPT, обучаются преимущественно на английских данных, что создаёт риск монокультуры данных в области ИИ. Российские исследователи решили эту проблему, адаптировав модель для работы с русским языком.
Как обучали модель
Учёные НИУ ВШЭ использовали корпус данных iFORA-QA, который вручную собрали более 150 экспертов из аналитических материалов и отчётов в сфере науки, технологий и инноваций. Программа прошла государственную регистрацию. После адаптации точность модели при ответах на узкопрофессиональные вопросы выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.
«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта Анастасия Малашина.
Планы на будущее
Уже в этом году исследователи разработают дополнительные инструменты на базе адаптированной модели. Первым станет умный поисковик, который снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники. Второй инструмент — граф связей, позволяющий выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать: сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать ответ.
Все эти возможности объединятся в единую мультиагентную систему, которая сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. «Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчёркивает Анастасия Малашина.
Комментарии
0 всего