Проект

Средства интеллектуального анализа больших массивов текстов


Описание проекта


Проект направлен на создание первого в мире полностью отечественного решения в области технологий текстовой аналитики на основе интеллектуальных систем сбора и обработки масштабных коллекций полнотекстовых данных на русском и английском языках. В настоящее время реализуется ряд пилотных проектов на базе организаций-партнеров Центра компетенций НТИ по большим данным на базе МГУ – Институте проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН и ООО «Технологии системного анализа».

Проект посвящен текстовой аналитике, обработке любой информации, представленной в текстовом виде. Преимущество проекта заключается в возможности анализа текстов на наиболее распространенных в странах СНГ языках и отсутствии необходимости повторного поиска одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Для субъекта, осуществляющего поиск, сбор и анализ информации, это означает существенное упрощение процедур поиска, что способствует снижению трудоемкости и повышению эффективности таких процессов, как патентный и исследовательский поиск.

Проект является первым в мире промышленным решением, обладающим подобными возможностями. Схожие проекты крупнейших поисковых систем в области исследовательского поиска и патентного анализа не обладают функциями кросс-языкового поиска: у пользователя нет возможности загрузить документ на русском языке и найти информацию по близкой тематике, например, на английском языке. Разрабатываемые в Центре компетенций НТИ по большим данным на базе МГУ технологии позволяют преодолеть это ограничение.

Юрий Чехович, исполнительный директор компании «Антиплагиат», индустриального партнера Центра в рамках проекта:

«Мы заинтересованы в развитии наших поисковых алгоритмов – как в части повышения их производительности и показателей качества, так и в части расширения их возможностей. В 2017 году мы ввели в эксплуатацию совершенно новые возможности по поиску переводных заимствований. “Антиплагиат” стал обнаруживать тексты на русском языке, которые были переведены с английского. Сейчас эти возможности расширены на казахский и киргизский языки, а в ближайших планах начать обнаруживать перевод в рамках 100 самых распространенных языков мировой науки.

Для развития в этом направлении мы налаживаем взаимодействие с ведущими научными центрами. Компания “Антиплагиат” стала индустриальным партнером консорциума по большим данным на базе Центра компетенций НТИ МГУ 12 апреля 2019 года. Мы рассчитываем в сотрудничестве с Центром существенно улучшить качество наших алгоритмов обработки больших объемов текстов на естественных языках».


Итоги 2019 года


● Создан научный и технологический задел в области эффективных методов текстового поиска и анализа, которые могли бы использоваться в системах и сервисах аналитики в условиях постоянно увеличивающихся объемов данных. В частности, подготовлена заявка на программу для ЭВМ «Программа автоматической патентной классификации научно-технических текстов на русском и английском языках». Научная новизна проекта заключается как в комплексном применении ранее разработанных заявителями методов и подходов к интеллектуальному анализу массивов документов, так и в создании индустриально применимых методов и технологий кросс-языкового поиска. Экспериментальные результаты проекта представлены в том числе в следующей публикации – Hybrid Method for Accurate Patent Classification. Lobachevskii Journal of Mathematics, Pleiades Publishing. 2019. Vol. 40, No. 11, pp. 1873–1880 (в печати).

● Сформирован корпус для обучения кросс-языковых эмбеддингов. Для обучения использованы сравнимые корпусы прецедентов. В качестве текстов с общей лексикой использованы в том числе параллельные корпусы, доступные на ресурсе Opus.

● Построены кросс-языковых эмбеддинги для слов и словосочетаний, выделяемые синтаксическим анализатором именные группы, для пары языков русский-английский.

● Результаты исследований готовятся к публикации и оформлению заявок на Государственную регистрацию программ для ЭВМ.