1. Адаптивная тонкая настройка языковых моделей на основе преобразователя для распознавания именованных объектов (arXiv)

Автор:Феликс Столленверк

Аннотация. Текущий стандартный подход к тонкой настройке языковых моделей на основе преобразователя включает фиксированное количество эпох обучения и график линейной скорости обучения. Чтобы получить модель, близкую к оптимальной для данной нисходящей задачи, обычно требуется поиск в оптимизационном пространстве гиперпараметров. В частности, количество эпох обучения необходимо привести в соответствие с размером набора данных. В этой статье мы представляем адаптивную точную настройку, которая представляет собой альтернативный подход, использующий раннюю остановку и настраиваемый график скорости обучения для динамической настройки количества эпох обучения в соответствии с размером набора данных. На примере использования распознавания именованных объектов мы показываем, что наш подход не только делает гиперпараметрический поиск по количеству периодов обучения избыточным, но также приводит к улучшению результатов с точки зрения производительности, стабильности и эффективности. Это справедливо, особенно для небольших наборов данных, где мы превосходим современный метод тонкой настройки с большим отрывом.

2. Обучение на основе BTPK: интерпретируемый метод распознавания именованных объектов (arXiv)

Автор: Юлинь Чен, Зелаи Яо, Хайсяо Чи, Дов Габбай, Бо Юань, Бруно Бэнтзен, Бэйшуй Ляо

Аннотация. Распознавание именованных сущностей (NER) является важной задачей обработки естественного языка, но внутренний механизм большинства моделей NER представляет собой черный ящик для пользователей. В некоторых важных областях принятия решений улучшение интерпретируемости метода NER имеет решающее значение, но является сложной задачей. В этой статье, основываясь на существующей модели детерминированной талмудической логики публичных объявлений (TPK), мы предлагаем новую модель бинарного дерева (называемую BTPK) и применяем ее к двум широко используемым Bi-RNN для получения интерпретируемых на основе BTPK. Затем мы разрабатываем модуль контрфактической проверки для проверки метода обучения на основе BTPK. Экспериментальные результаты на трех общедоступных наборах данных показывают, что обучение на основе BTPK превосходит две классические Bi-RNN с самостоятельным вниманием, особенно на небольших простых данных и относительно больших сложных данных. Более того, контрфактическая проверка демонстрирует, что объяснения, предоставляемые методом обучения на основе BTPK, разумны и точны в задачах NER. Кроме того, логические рассуждения, основанные на BTPK, показывают, как Bi-RNN справляются с задачами NER, с разной дистанцией публичных объявлений на длинных и сложных последовательностях.

3. Аннотирование корпуса Tweebank по распознаванию именованных сущностей и построению моделей НЛП для анализа социальных сетей (arXiv)

Автор: Хан Цзян, Инин Хуа, Дуг Биферман, Деб Рой

Аннотация. Данные из социальных сетей, такие как сообщения Twitter («твиты»), представляют особую проблему для систем НЛП из-за их короткого, шумного и разговорного характера. Такие задачи, как распознавание именованных сущностей (NER) и синтаксический синтаксический анализ, требуют для хорошей производительности обучающих данных с высокой степенью соответствия предметной области. На сегодняшний день не существует полного обучающего корпуса как для NER, так и для синтаксического анализа (например, тегирование частей речи, анализ зависимостей) твитов. Хотя есть некоторые общедоступные аннотированные наборы данных НЛП твитов, они предназначены только для отдельных задач. В этом исследовании мы стремимся создать Tweebank-NER, английский корпус NER на основе Tweebank V2 (TB2), обучить современные (SOTA) модели Tweet NLP на TB2 и выпустить конвейер NLP под названием Twitter-Stanza. . Мы аннотируем именованные объекты в TB2 с помощью Amazon Mechanical Turk и измеряем качество наших аннотаций. Мы обучаем конвейер Stanza на TB2 и сравниваем его с альтернативными фреймворками NLP (например, FLAIR, spaCy) и моделями на основе трансформаторов. Токенизатор и лемматизатор Stanza достигают производительности SOTA на TB2, в то время как теггер Stanza NER, тегировщик части речи (POS) и анализатор зависимостей достигают производительности, конкурентоспособной по сравнению с моделями без преобразователя. Модели на основе преобразователя создают прочную основу для Tweebank-NER и обеспечивают новую производительность SOTA в тегировании POS и анализе зависимостей на TB2. Мы выпускаем набор данных и делаем как конвейер Stanza, так и модели на основе BERTweet доступными «готовыми» для использования в будущих исследованиях Tweet NLP. Наш исходный код, данные и предварительно обученные модели доступны по адресу: \url{https://github.com/social-machines/TweebankNLP}.

4. L3Cube-MahaNER: набор данных для распознавания именованных сущностей маратхи и модели BERT (arXiv)

Автор:Партх Патил, Апарна Ранаде, Маитхили Сабане, Онкар Литаке, Равирадж Джоши

Аннотация: Распознавание именованных объектов (NER) — это базовая задача НЛП, которая находит широкое применение в диалоговых и поисковых системах. Это помогает нам идентифицировать ключевые объекты в предложении, используемом для нижестоящего приложения. NER или аналогичные системы заполнения слотов для популярных языков широко используются в коммерческих приложениях. В этой работе мы сосредоточимся на маратхи, индийском языке, на котором широко говорят жители штата Махараштра. Маратхи — это язык с низким уровнем ресурсов, и ему по-прежнему не хватает полезных ресурсов NER. Мы представляем L3Cube-MahaNER, первый крупный набор данных распознавания сущностей с золотым стандартом на языке маратхи. Мы также описываем правила ручной аннотации, которым следовали в процессе. В конце мы сравним набор данных с различными моделями на основе CNN, LSTM и Transformer, такими как mBERT, XLM-RoBERTa, IndicBERT, MahaBERT и т. д. MahaBERT обеспечивает наилучшую производительность среди всех моделей. Данные и модели доступны на https://github.com/l3cube-pune/MarathiNLP.

5. hmBERT: Исторические многоязычные языковые модели для распознавания именованных сущностей (arXiv)

Автор:Стефан Шветер, Луиза Марц, Катарина Шмид, Эрион Чано

Аннотация. По сравнению со стандартным распознаванием именованных объектов (NER) идентификация людей, мест и организаций в исторических текстах представляет собой большую проблему. Для получения машиночитаемых корпусов исторический текст обычно сканируется, и необходимо выполнить оптическое распознавание символов (OCR). В результате исторические корпуса содержат ошибки. Кроме того, такие объекты, как местоположение или организация, могут меняться со временем, что создает еще одну проблему. В целом исторические тексты имеют несколько особенностей, которые сильно отличаются от современных текстов, и большие размеченные корпуса для обучения нейронного маркировщика вряд ли доступны для этой области. В этой работе мы занимаемся NER для исторического немецкого, английского, французского, шведского и финского языков, обучая большие исторические языковые модели. Мы обходим необходимость в помеченных данных, используя немаркированные данные для предварительной подготовки языковой модели. hmBERT, историческая многоязычная языковая модель на основе BERT, которая публикуется в различных размерах. Кроме того, мы оцениваем возможности hmBERT, решая NER нижестоящего уровня в рамках общей задачи HIPE-2022 в этом году, и предоставляем подробный анализ и идеи. В крупнозернистой задаче NER многоязычного классического комментария наш тегировщик HISTeria превосходит модели других команд для двух из трех языков.