Проекты
Фильтр по:
Очистить выбор
Программа персональных цифровых сертификатов
14.05.2021Совместные образовательные курсы с Университетом 20.35
31.10.2021Обучение преподавателей региональных университетов
31.12.2021Совместная разработка образовательного контента с университетом Оулу
31.12.2022Образовательный курс «Форсайт научно-технологического развития»
31.12.2021Обучение управлению на основе данных
31.01.2022Средства интеллектуального анализа больших массивов текстов
Руководитель проекта
Илья Соченков
Руководитель проекта
Заказчик
МГУ имени М.В. Ломоносова
Заказчик
Описание проекта
Проект направлен на создание первого в мире полностью отечественного решения в области технологий текстовой аналитики на основе интеллектуальных систем сбора и обработки масштабных коллекций полнотекстовых данных на русском и английском языках. В настоящее время реализуется ряд пилотных проектов на базе организаций-партнеров Центра НТИ по большим данным МГУ – Институте проблем искусственного интеллекта ФИЦ «Информатика и управление» РАН и ООО «Технологии системного анализа».
Проект посвящен текстовой аналитике, обработке любой информации, представленной в текстовом виде. Преимущество проекта заключается в возможности анализа текстов на наиболее распространенных в странах СНГ языках и отсутствии необходимости повторного поиска одних и тех же сведений, представленных в документах на разных языках и описанных терминами из разных языков. Для субъекта, осуществляющего поиск, сбор и анализ информации, это означает существенное упрощение процедур поиска, что способствует снижению трудоемкости и повышению эффективности таких процессов, как патентный и исследовательский поиск.
Проект является первым в мире промышленным решением, обладающим подобными возможностями. Схожие проекты крупнейших поисковых систем в области исследовательского поиска и патентного анализа не обладают функциями кросс-языкового поиска: у пользователя нет возможности загрузить документ на русском языке и найти информацию по близкой тематике, например, на английском языке. Разрабатываемые в Центре НТИ по большим данным МГУ технологии позволяют преодолеть это ограничение.
Юрий Чехович, исполнительный директор компании «Антиплагиат», индустриального партнера Центра в рамках проекта:
«Мы заинтересованы в развитии наших поисковых алгоритмов – как в части повышения их производительности и показателей качества, так и в части расширения их возможностей. В 2017 году мы ввели в эксплуатацию совершенно новые возможности по поиску переводных заимствований. “Антиплагиат” стал обнаруживать тексты на русском языке, которые были переведены с английского. Сейчас эти возможности расширены на казахский и киргизский языки, а в ближайших планах начать обнаруживать перевод в рамках 100 самых распространенных языков мировой науки.
Для развития в этом направлении мы налаживаем взаимодействие с ведущими научными центрами. Компания “Антиплагиат” стала индустриальным партнером консорциума по большим данным на базе Центра компетенций НТИ МГУ 12 апреля 2019 года. Мы рассчитываем в сотрудничестве с Центром существенно улучшить качество наших алгоритмов обработки больших объемов текстов на естественных языках».
Итоги 2019 года
● Создан научный и технологический задел в области эффективных методов текстового поиска и анализа, которые могли бы использоваться в системах и сервисах аналитики в условиях постоянно увеличивающихся объемов данных. В частности, подготовлена заявка на программу для ЭВМ «Программа автоматической патентной классификации научно-технических текстов на русском и английском языках». Научная новизна проекта заключается как в комплексном применении ранее разработанных заявителями методов и подходов к интеллектуальному анализу массивов документов, так и в создании индустриально применимых методов и технологий кросс-языкового поиска. Экспериментальные результаты проекта представлены в том числе в следующей публикации – Hybrid Method for Accurate Patent Classification. Lobachevskii Journal of Mathematics, Pleiades Publishing. 2019. Vol. 40, No. 11, pp. 1873–1880 (в печати).
● Сформирован корпус для обучения кросс-языковых эмбеддингов. Для обучения использованы сравнимые корпусы прецедентов. В качестве текстов с общей лексикой использованы в том числе параллельные корпусы, доступные на ресурсе Opus.
● Построены кросс-языковых эмбеддинги для слов и словосочетаний, выделяемые синтаксическим анализатором именные группы (для пары языков русский-английский).
● Результаты исследований готовятся к публикации и оформлению заявок на Государственную регистрацию программ для ЭВМ.
Итоги 2020 года
● Разработан экспериментальный образец программного обеспечения построения семантических описаний лексики текстов на русском и английском языках.
● Разработаны алгоритмы обучения стеммингу и токенизации для произвольного языка.
● На основе алгоритмов создан сервис по предварительной обработке текстов на 100 ведущих мировых языках, на которых публикуются научные произведения.
● Созданы также коллекция и база данных переводных предложений для того же набора языков. Коллекция используется АО «Антиплагиат» для оптимизации семантических моделей.
Итоги 2021 года
● Доработан экспериментальный образец ПО интеллектуального анализа больших массивов текстов.
● Сформулированы рекомендации по промышленному использованию и кругу потенциальных потребителей ПО информационной системы интеллектуального анализа больших массивов текстов.
● Ведутся переговоры по поводу внедрения результатов проекта «Средства интеллектуального анализа больших массивов текстов» в деятельность АО «Антиплагиат».