Классификация коротких текстов является одной из самых сложных областей обработки естественного языка. Это создает некоторые уникальные проблемы по сравнению с текстовой классификацией, потому что в стандартной текстовой классификации контекст доступен, но в коротком тексте его становится очень трудно предсказать. Исследователи работают и придумывают новые идеи и подходы к классификации короткого текста.

Цель этого отчета — дать представление о некоторых из последних подходов и некоторых из предыдущих. Это обзор родственных методов классификации коротких текстов. В одном из известных обзоров (Ge Song, et al., МАЙ 2014 г.) анализируются особенности и трудности классификации коротких текстов и обобщаются существующие связанные методы. Это исследование было проведено почти десять лет назад, и недавних исследований по классификации коротких текстов не проводилось. Это шаг к заполнению некоторых пробелов. он состоит из некоторых избранных статей с 2014 по 2019 год.

(Bouaziz, et al. 2014) сделали первый шаг к разработке новых алгоритмов для повышения точности. До этого много внимания уделялось предварительной обработке текста. Автор предложил новый для того времени метод, при котором краткий текст обогащается двояко: во-первых, текст как совокупность слов, взятых по отдельности, и, во-вторых, как целое. Как только текст обогащается, применяется семантический случайный лес, который уменьшает выбор случайных признаков в пользу выбора, управляемого семантикой. Традиционно в Random Forest в деревьях построения используются все признаки корпуса, но в целевых методах выбираются только семантические признаки. Алгоритм вычисляет сходство между всеми темами и текстом. Применяя этот метод, авторы построили дерево, состоящее из узлов, принадлежащих к одной теме.

(Lee and Dernoncourt 2016) с целью разработки модели для классификации коротких текстов. Модель состоит из двух частей. Первая часть создает векторное представление для каждого короткого текста с использованием архитектуры RNN или CNN. Вторая часть классифицирует векторное представление с помощью классификатора SoftMax.

(Wangy, et al. 2017) используют новый метод, который сочетает в себе явное и неявное представление короткого текста с использованием большой базы таксономических знаний и объединенных слов. Сеть называется сверточной нейронной сетью, основанной на знаниях. Это комбинация двух подсетей для извлечения признаков слова. Первая сеть извлекает признаки как из слов, так и из соответствующих понятий. Вторая сеть — это сверточная нейронная сеть на уровне символов, которая собирает детализированную семантическую информацию. Наконец, оба выхода подсетей объединяются для полностью подключенного выходного слоя.

Чтобы решить проблему разреженности данных при классификации коротких текстов (Zeng, et al. 2018), примените новый подход, используя память темы для кодирования скрытого представления темы, указывающего на метки классов. Целевой метод, называемый сетями тематической памяти, использует преимущества представления тем на уровне корпуса за счет использования механизма тематической памяти для улучшения классификации коротких текстов. Архитектура модели состоит из трех основных компонентов: кодировщик текста, сеть тематической памяти и классификатор. Кодер текста кодирует короткий текст в непрерывное векторное представление (Zeng, et al. 2018) и использует CNN в качестве кодировщика текста. Память тем предназначена для кодирования скрытых представлений тем через сети памяти для классификации коротких текстов. Они предлагают новый механизм, который позволяет делать совместные выводы о скрытых темах и устраняет проблемы разреженности данных. Он состоит из двух частей: кодировщик темы и память темы. Наконец, классификатор принимает закодированный текст и скрытые темы в качестве входных данных и предсказывает метки классов короткого входного текста.

(Xu and Cai† 2019) Авторы нацелены на модель нейронной сети, которая включает релевантные контексту знания в CNN для классификации коротких текстов. Модель состоит из двух частей: одна часть, которая является нижней подсетью, отвечает за извлечение концептуального признака, а другая часть извлекает контекстный признак, она называется верхней подсетью. Нижний уровень подсети состоит из двух слоев. Первый слой — это сверточный слой, который извлекает концептуальные признаки из входного текста. Второй уровень — это уровень внимания, который получает релевантные для контекста понятия, обращая внимание на наиболее релевантную часть входного текста. Механизм внимания присваивает веса различным частям входного текста в зависимости от их отношения к задаче. Верхняя подсеть объединяет вложения слов и контекстно-зависимые вложения понятий вместе, называемые CCWE, и передает их в CNN. Сеть способна собирать информацию как на уровне слов, так и на уровне контекста, что позволяет модели лучше улавливать смысл короткого текста.

(Chen et al., 2019), цель нового подхода к классификации коротких текстов с использованием внешних источников знаний для улучшения семантического представления. Архитектура STCKA состоит из трех основных слоев. Первый слой — это слой встраивания слов, который отображает каждое слово данного текста в векторном представлении. Второй уровень является наиболее важным уровнем, и на этом уровне (Чен и др., 2019) представлены два механизма внимания: понятие к короткому тексту (C-ST) и понятие к набору понятий (C-CS). Последним слоем является классификационный слой. Входные данные для этого слоя являются выходными данными слоя внимания с расширенными знаниями и предсказывают метку класса данного входного текста.

Новый подход был разработан (Linmei et al. 2019) для частично контролируемой классификации коротких текстов на основе гетерогенной графовой нейронной сети. (Lee and Dernoncourt 2016) решают задачу достижения уровня производительности на коротком тексте с дефицитом данных ограниченных помеченных данных и использования ограниченного набора помеченных данных и больших неразмеченных данных посредством распространения информации по графу. Метод содержит два шага. Во-первых, чтобы уменьшить разреженность коротких текстов, автор представляет гибкую структуру HIN (гетерогенная информационная сеть) для обработки коротких текстов. Эта структура может включать любую дополнительную информацию, а также фиксировать семантику между кратким текстом и добавленной информацией. HIN состоит из нескольких типов узлов и ребер, которые обладают различными типами объектов и отношений в сети.

Во-вторых, (Linmei et al. 2019) разработали новую модель HGAT (сеть гетерогенного графа внимания), чтобы внедрить HIN для классификации коротких текстов на основе нового двухуровневого механизма внимания. Модель учитывает разнообразие различных типов информации, используя механизмы внимания на уровне узлов и на уровне типов. Внимание на уровне узла заключается в извлечении важных функций из каждого узла в графе. Внимание на уровне типа используется для извлечения функции из каждого типа узла в графе. Модель HGAT также имеет несколько других слоев, а выходной слой использует активацию SoftMax для прогнозирования вероятностей класса для каждого входного текста.

В этом отчете обсуждалось множество исследований, и каждое из них решает проблемы классификации коротких текстов с помощью своих уникальных подходов. После 2019 года также была проделана большая работа, чтобы дать сводку тех подходов, которые оставлены для будущей работы.

Рекомендации

Буазиз, Амени, Кристель Дартигес-Паллез, Пресиозо, Патрик Льорет и Перейра. 2014. «Классификация коротких текстов с использованием семантического случайного леса». 288–289.

Чен, Цзиньдун, Ичжоу Ху, Цзинпин Лю, Янхуа Сяо и Хайюнь Цзян. 2019. «Глубокая классификация коротких текстов с привлечением внимания, основанного на знаниях». Тридцать третья конференция AAAI по искусственному интеллекту (AAAI-19).

Гэ Сун, Юньмин Е, Сяолинь Ду, Сяохуэй Хуан и Шифу Би. МАЙ 2014. «Классификация коротких текстов: обзор». МУЛЬТИМЕДИЙНЫЙ ЖУРНАЛ, ТОМ. 9, НЕТ. 5, 635–636.

Ли, Джи Янг и Франк Дернонкур. 2016. «Последовательная классификация коротких текстов с помощью рекуррентных и сверточных нейронных сетей». NAACL. arXiv.

Линмэй, Ху, Тяньчи Ян, Чуан Ши, Хоуе Цзи и Сяоли Ли. 2019. «Гетерогенные графические сети внимания для полуконтролируемой классификации коротких текстов». Материалы конференции по эмпирическим методам обработки естественного языка 2019 г. и 9-й Международной совместной конференции по обработке естественного языка (EMNLP-IJCNLP). :: Ассоциация вычислительной лингвистики. 4821–4830.

Ванги, Цзинь, Чжунъюань Ванц, Давэй Чжан и Цзюнь Ян. 2017. «Объединение знаний с глубокими свёрточными нейронными сетями для классификации коротких текстов». Материалы Двадцать шестой Международной объединенной конференции по искусственному интеллекту (IJCAI-17).

Сюй, Цзиньюнь и И Кай†. 2019. «Включение контекстно-зависимых знаний в сверточные нейронные сети для классификации коротких текстов». Тридцать третья конференция AAAI по искусственному интеллекту (AAAI-19).

Цзэн, Цзичуань, Цзин Ли, Ян Сун, Цуюнь Гао, Майкл Р. Лю и Ирвин Кинг. 2018. «Тематические сети памяти для классификации коротких текстов». Материалы конференции 2018 года по эмпирическим методам обработки естественного языка. Брюссель, Бельгия: Ассоциация компьютерной лингвистики. 3120–3131.