← Назад

Нейросеть для анализа русскоязычных научных статей и патентов: разработка НИУ ВШЭ

Учёные Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели для работы с русскоязычными научными текстами. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, что позволяет запускать её на более доступном оборудовании.

Автор

Эмили Дрейк

15.05.2026 08:00 4 мин чтения 27 просмотров 0 в избранном

Объём научно-технической информации — патентов, статей, отчётов — растёт с каждым днём. Эффективно работать с этим массивом помогает искусственный интеллект. Однако большинство популярных языковых моделей, таких как ChatGPT, обучаются преимущественно на английских данных, что создаёт риск монокультуры данных в области ИИ. Российские исследователи решили эту проблему, адаптировав модель для работы с русским языком.

Как обучали модель

Учёные НИУ ВШЭ использовали корпус данных iFORA-QA, который вручную собрали более 150 экспертов из аналитических материалов и отчётов в сфере науки, технологий и инноваций. Программа прошла государственную регистрацию. После адаптации точность модели при ответах на узкопрофессиональные вопросы выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.

«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта Анастасия Малашина.

Планы на будущее

Уже в этом году исследователи разработают дополнительные инструменты на базе адаптированной модели. Первым станет умный поисковик, который снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники. Второй инструмент — граф связей, позволяющий выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать: сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать ответ.

Все эти возможности объединятся в единую мультиагентную систему, которая сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. «Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчёркивает Анастасия Малашина.

Похожие статьи

Наука 29.07.2026 04:30

Лесные пожары в Канаде 2026 года могут стать рекордными: более 3 млн гектаров уничтожено

Лесные пожары в Канаде в 2026 году уже охватили более трех миллионов гектаров, превысив средние показатели. По словам экспертов, огонь может войти в число крупнейших за всю историю наблюдений.

0 просмотров 4 мин

Наука 29.07.2026 04:30

Ученые MIT создали «оригами-таблетку» для длительного приема лекарств

Исследователи из Массачусетского технологического института разработали таблетку, которая раскладывается в желудке подобно оригами и может непрерывно высвобождать лекарство до четырех дней, оставаясь в организме до трех недель.

0 просмотров 4 мин

Наука 29.07.2026 04:02

Орбитальные дата-центры угрожают экологической катастрофой: учёные бьют тревогу

Учёные предупреждают, что размещение дата-центров на орбите может привести к катастрофическому загрязнению атмосферы. Петиция с 113 ссылками на исследования требует от FCC провести экологическую экспертизу.

1 просмотров 4 мин

Ещё из раздела «Наука»

При прокрутке вниз будут подгружаться полноценные предыдущие статьи этой же рубрики — одна за другой.

Прокрути ниже, чтобы открыть следующую предыдущую статью.

Нейросеть для анализа русскоязычных научных статей и патентов: разработка НИУ ВШЭ

Как обучали модель

Планы на будущее

Теги

Комментарии

Ещё из раздела «Наука»