Иногда в процессе работы с ML-моделями могут происходить забавные вещи, начиная от странного вывода и заканчивая забавными ошибками в работе моделей. Собирая такие вещи, начинает формироваться определенная картина, и мы начинаем наблюдать интересные закономерности и понимать, как можно не только смеяться над этими случаями, но и учиться и извлекать из них пользу.

В этом уроке мы расскажем вам, как быстро выявлять ошибки в работе моделей и бороться с ними.

1. Игра может иметь

Самый правильный способ обнаружения ошибок в работе модели — это просмотреть результаты, которые наиболее далеки от аннотаций или имеют самую низкую оценку качества. Вам следует изучать эти ошибки до тех пор, пока вы не начнете «угадывать» все типы ошибок, которые делает модель при следующем прогнозе, будь то неправильно распознанное текстовое поле, неспособность распознать более n объектов на изображение или сгенерированная фраза, напоминающая словесный салат.

Работа выполнена, теперь вы понимаете, в каких типах данных модель допускает больше ошибок, так что вы знаете, как ее улучшить!

2. По образу и подобию

Еще один хороший способ обнаружения ошибок — формирование списка критериев, отвечающих на вопрос "Какая модель правильная?". Таким образом, мы можем отбросить все «очевидные» знания о постановке задачи и, следовательно, о модели. Например, если вы делаете встраивания текста, то вполне понятно, что похожий текст будет близок по метрике, соответственно повторное встраивание того же текста не должно отличаться от оригинала. Эта настройка подразумевает выполнение условия, при котором коллекция уникальных текстов содержит ровно одно полное совпадение по вложениям этих текстов и никогда не совпадает с остальными. На практике оказывается, что в наборе данных под разными текстовыми идентификаторами могут присутствовать идентичные данные, что нам и удалось отловить, отказавшись от «очевидных» соображений.

Вуаля! Еще одна ошибка попалась нам на крючок!

Какие аналитические данные вы используете для обнаружения ошибок? Хлопайте в ладоши, если урок был для вас полезен, и делитесь своими лайфхаками в комментариях.