← Назад
Наука

Нейросеть для анализа русскоязычных научных статей и патентов: разработка НИУ ВШЭ

Учёные Института статистических исследований и экономики знаний НИУ ВШЭ дообучили существующие большие языковые модели для работы с русскоязычными научными текстами. Адаптированная модель работает в 2,7 раза быстрее и требует на 73% меньше памяти, что позволяет запускать её на более доступном оборудовании.

Источник: naked-science.ru
Иллюстрация нейросети, анализирующей научные статьи на русском языке

Объём научно-технической информации — патентов, статей, отчётов — растёт с каждым днём. Эффективно работать с этим массивом помогает искусственный интеллект. Однако большинство популярных языковых моделей, таких как ChatGPT, обучаются преимущественно на английских данных, что создаёт риск монокультуры данных в области ИИ. Российские исследователи решили эту проблему, адаптировав модель для работы с русским языком.

Как обучали модель

Учёные НИУ ВШЭ использовали корпус данных iFORA-QA, который вручную собрали более 150 экспертов из аналитических материалов и отчётов в сфере науки, технологий и инноваций. Программа прошла государственную регистрацию. После адаптации точность модели при ответах на узкопрофессиональные вопросы выросла, скорость генерации увеличилась в 2,7 раза, а использование памяти сократилось на 73% по сравнению с открытой мультиязычной моделью.

«Универсальные языковые модели знают много, но поверхностно. Нам же нужна модель, которая понимает, о чем пишут российские ученые и инженеры. Благодаря проведенным исследованиям мы смогли научить алгоритм мыслить в категориях предметной области, понимать связи между сложными понятиями и корректно интерпретировать запросы», — комментирует главный аналитик проекта Анастасия Малашина.

Планы на будущее

Уже в этом году исследователи разработают дополнительные инструменты на базе адаптированной модели. Первым станет умный поисковик, который снизит риски галлюцинирования модели и будет формировать выводы только со ссылками на научные источники. Второй инструмент — граф связей, позволяющий выявлять закономерности, в том числе скрытые, на основе структуры источников. Кроме того, модель получит способность работать с неполной и неоднозначной информацией, а также рассуждать: сначала анализировать, чего ей не хватает, задавать уточняющие вопросы пользователю и только потом формулировать ответ.

Все эти возможности объединятся в единую мультиагентную систему, которая сможет автономно анализировать научно-техническую информацию и выявлять скрытые связи. «Мы создаем целостную систему интеллектуальных агентов, адаптированную под реалии российской науки. Это шаг к автоматизации научной аналитики, где ИИ становится партнером исследователя», — подчёркивает Анастасия Малашина.

Комментарии

0 всего
Пока комментариев нет. Будь первым.

Похожие статьи

Валерий Фальков оценил работу центра «Арктика» САФУ и призвал внедрять разработки в экономику
Наука 15.05.2026 10:30

Валерий Фальков оценил работу центра «Арктика» САФУ и призвал внедрять разработки в экономику

Министр науки и высшего образования РФ Валерий Фальков посетил центр коллективного пользования «Арктика» САФУ — один из ведущих научных центров страны. Он высоко оценил потенциал учёных, но подчеркнул необходимость прикладного применения разработок.

0 просмотров 4 мин
Физики ищут следы темной материи в гравитационных волнах от слияния черных дыр
Наука 15.05.2026 10:00

Физики ищут следы темной материи в гравитационных волнах от слияния черных дыр

Ученые предположили, что облака легких скалярных частиц вокруг черных дыр могут искажать сигналы гравитационных волн, регистрируемых детекторами LIGO, VIRGO и KAGRA. Анализ данных 28 событий выявил два случая, где такая гипотеза получила статистическое предпочтение.

0 просмотров 4 мин
Самая подробная 3D-карта Вселенной: DESI собрал данные о 47 миллионах галактик
Наука 15.05.2026 09:30

Самая подробная 3D-карта Вселенной: DESI собрал данные о 47 миллионах галактик

Международная коллаборация DESI представила крупнейшую трёхмерную карту Вселенной, которая насчитывает более 47 миллионов галактик и квазаров. Главная цель проекта — изучение тёмной энергии, которая может оказаться непостоянной.

1 просмотров 4 мин

Ещё из раздела «Наука»

При прокрутке вниз будут подгружаться полноценные предыдущие статьи этой же рубрики — одна за другой.

Прокрути ниже, чтобы открыть следующую предыдущую статью.