В документе представлен новый метод под названием «Правило на примере» (RBE) для обнаружения языка ненависти, который сочетает в себе объяснимость логических правил с предсказательной силой моделей глубокого обучения.
- RBE использует модель двойного кодировщика с отдельными кодировщиками для правил и текста. Он обучает эти кодировщики, используя контрастное обучение, чтобы сопоставлять вложения ненавистного текста с кластерами образцов правил.
- Это позволяет RBE давать объяснения, основанные на правилах, прослеживая прогнозы до конкретных правил и соответствующих примеров.
- RBE требует только 1 экземпляр для каждого правила, показывая, что он может эффективно учиться на ограниченных размеченных данных.
- Эксперименты с 3 наборами данных о разжигании ненависти показывают, что RBE улучшается по сравнению с использованием только правил или только BERT/MPNet, с приростом 1–4% F1.
- RBE работает как в контролируемых, так и в неконтролируемых условиях. Для неконтролируемого доступа используются стратегии кластеризации для определения качества правил.
- Преимущества RBE включают настраиваемость с помощью новых правил, прозрачность за счет основанных на правилах и обработку возникающего ненавистнического контента.
- Ограничения включают опору на правила/образцы качества и более высокую стоимость, чем просто правила.
В целом, RBE демонстрирует многообещающий подход, позволяющий сделать обнаружение языка ненависти более точным и объяснимым за счет сочетания логических правил с глубоким обучением интерпретируемым образом. В частности, возможность обоснования правил помогает решить проблемы с прозрачностью.
раскрытие информации: Автор использует ИИ для создания черновиков резюме.