24 июля 2023 г., Правило на собственном примере: использование логических правил для объяснимого разжигания ненависти — Кристофер Кларк, Мэтью Холл, Гаурав Миттал, Е Ю, Сандра Саджив, Джейсон Марс, Мэй Чен

В документе представлен новый метод под названием «Правило на примере» (RBE) для обнаружения языка ненависти, который сочетает в себе объяснимость логических правил с предсказательной силой моделей глубокого обучения.

  • RBE использует модель двойного кодировщика с отдельными кодировщиками для правил и текста. Он обучает эти кодировщики, используя контрастное обучение, чтобы сопоставлять вложения ненавистного текста с кластерами образцов правил.
  • Это позволяет RBE давать объяснения, основанные на правилах, прослеживая прогнозы до конкретных правил и соответствующих примеров.
  • RBE требует только 1 экземпляр для каждого правила, показывая, что он может эффективно учиться на ограниченных размеченных данных.
  • Эксперименты с 3 наборами данных о разжигании ненависти показывают, что RBE улучшается по сравнению с использованием только правил или только BERT/MPNet, с приростом 1–4% F1.
  • RBE работает как в контролируемых, так и в неконтролируемых условиях. Для неконтролируемого доступа используются стратегии кластеризации для определения качества правил.
  • Преимущества RBE включают настраиваемость с помощью новых правил, прозрачность за счет основанных на правилах и обработку возникающего ненавистнического контента.
  • Ограничения включают опору на правила/образцы качества и более высокую стоимость, чем просто правила.

В целом, RBE демонстрирует многообещающий подход, позволяющий сделать обнаружение языка ненависти более точным и объяснимым за счет сочетания логических правил с глубоким обучением интерпретируемым образом. В частности, возможность обоснования правил помогает решить проблемы с прозрачностью.

раскрытие информации: Автор использует ИИ для создания черновиков резюме.