Проекты
Фильтр по:
Очистить выбор

Программа персональных цифровых сертификатов
14.05.2021
Совместные образовательные курсы с Университетом 20.35
31.10.2021
Обучение преподавателей региональных университетов
31.12.2021
Совместная разработка образовательного контента с университетом Оулу
31.12.2022
Образовательный курс «Форсайт научно-технологического развития»
31.12.2021
Обучение управлению на основе данных
31.01.2022Средства интеллектуального анализа больших массивов текстов
Руководитель проекта

Заказчик

Описание проекта
Проект направлен на создание первого в мире полностью отечественного решения в области технологий текстовой аналитики на основе интеллектуальных систем сбора и обработки масштабных коллекций полнотекстовых данных на русском и английском языках. В настоящее время реализуется ряд пилотных проектов на базе организаций-партнеров Центра НТИ по большим данным МГУ – Институте проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН и ООО «Технологии системного анализа».
Проект посвящен текстовой аналитике, обработке любой информации, представленной в текстовом виде. Преимущество проекта заключается в возможности анализа текстов на наиболее распространенных в странах СНГ языках и отсутствии необходимости повторного поиска одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Для субъекта, осуществляющего поиск, сбор и анализ информации, это означает существенное упрощение процедур поиска, что способствует снижению трудоемкости и повышению эффективности таких процессов, как патентный и исследовательский поиск.
Проект является первым в мире промышленным решением, обладающим подобными возможностями. Схожие проекты крупнейших поисковых систем в области исследовательского поиска и патентного анализа не обладают функциями кросс-языкового поиска: у пользователя нет возможности загрузить документ на русском языке и найти информацию по близкой тематике, например, на английском языке. Разрабатываемые в Центре НТИ по большим данным МГУ технологии позволяют преодолеть это ограничение.
Юрий Чехович, исполнительный директор компании «Антиплагиат», индустриального партнера Центра в рамках проекта:
«Мы заинтересованы в развитии наших поисковых алгоритмов – как в части повышения их производительности и показателей качества, так и в части расширения их возможностей. В 2017 году мы ввели в эксплуатацию совершенно новые возможности по поиску переводных заимствований. “Антиплагиат” стал обнаруживать тексты на русском языке, которые были переведены с английского. Сейчас эти возможности расширены на казахский и киргизский языки, а в ближайших планах начать обнаруживать перевод в рамках 100 самых распространенных языков мировой науки.
Для развития в этом направлении мы налаживаем взаимодействие с ведущими научными центрами. Компания “Антиплагиат” стала индустриальным партнером консорциума по большим данным на базе Центра компетенций НТИ МГУ 12 апреля 2019 года. Мы рассчитываем в сотрудничестве с Центром существенно улучшить качество наших алгоритмов обработки больших объемов текстов на естественных языках».
Итоги 2019 года
● Создан научный и технологический задел в области эффективных методов текстового поиска и анализа, которые могли бы использоваться в системах и сервисах аналитики в условиях постоянно увеличивающихся объемов данных. В частности, подготовлена заявка на программу для ЭВМ «Программа автоматической патентной классификации научно-технических текстов на русском и английском языках». Научная новизна проекта заключается как в комплексном применении ранее разработанных заявителями методов и подходов к интеллектуальному анализу массивов документов, так и в создании индустриально применимых методов и технологий кросс-языкового поиска. Экспериментальные результаты проекта представлены в том числе в следующей публикации – Hybrid Method for Accurate Patent Classification. Lobachevskii Journal of Mathematics, Pleiades Publishing. 2019. Vol. 40, No. 11, pp. 1873–1880 (в печати).
● Сформирован корпус для обучения кросс-языковых эмбеддингов. Для обучения использованы сравнимые корпусы прецедентов. В качестве текстов с общей лексикой использованы в том числе параллельные корпусы, доступные на ресурсе Opus.
● Построены кросс-языковых эмбеддинги для слов и словосочетаний, выделяемые синтаксическим анализатором именные группы (для пары языков русский-английский).
● Результаты исследований готовятся к публикации и оформлению заявок на Государственную регистрацию программ для ЭВМ.
Итоги 2020 года
● Разработан экспериментальный образец программного обеспечения построения семантических описаний лексики текстов на русском и английском языках.
● Разработаны алгоритмы обучения стеммингу и токенизации для произвольного языка.
● На основе алгоритмов создан сервис по предварительной обработке текстов на 100 ведущих мировых языках, на которых публикуются научные произведения.
● Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.
Итоги 2021 года
● Доработан экспериментальный образец ПО интеллектуального анализа больших массивов текстов.
● Сформулированы рекомендации по промышленному использованию и кругу потенциальных потребителей ПО информационной системы интеллектуального анализа больших массивов текстов.
● Ведутся переговоры по поводу внедрения результатов проекта «Средства интеллектуального анализа больших массивов текстов» в деятельность АО «Антиплагиат».