Сходства и различия между различными типами регрессии

Допустим, вы, как специалист по обработке данных, хотите проанализировать набор данных об учениках, в котором есть записи об их росте и весе. Вы заметили, что в столбце веса отсутствует значение. Можете ли вы предсказать это отсутствующее значение?

Регрессия помогает решить подобные проблемы. В реальных приложениях машинного обучения регрессионные модели часто используются для прогнозирования неизвестных значений на основе известных характеристик (например, определения цены подержанного автомобиля на основе марки, модели, пробега и т. Д.), И это делается путем построения статистических данных. связь между неизвестной переменной (также известной как зависимая переменная) и известными характеристиками (также известными как независимые переменные). Эта связь может быть выражена как:

зависимая_переменная = f (независимая_переменная_1, независимая_переменная_2….)

Эта статистическая взаимосвязь может принимать множество различных форм в зависимости от типа предикторов, результатов и функции, используемой для построения взаимосвязи. Ниже приведены пять часто встречающихся типов регрессионных моделей. Я описываю их таким образом, чтобы явно связать один тип с другим, чтобы было легко понять сходства и различия.

1) Простая линейная регрессия

Как следует из названия, простая регрессия - это буквально простейшая форма всех регрессий. Он имеет только одну зависимую переменную и объясняется одной независимой переменной, обе представлены на двумерной диаграмме рассеяния. Приведенный выше пример - соотношение между ростом и весом - является классическим примером простой линейной регрессии. Математическая формулировка простой модели линейной регрессии имеет следующий вид:

Вес = b0 + b1 * Рост + e

где b0 = точка пересечения, b1 = коэффициент и e = член ошибки

2) Множественная регрессия

Множественная регрессия похожа на простую линейную регрессию, но в этом случае вместо одной будет несколько независимых переменных. Если мы снова проследим приведенный выше пример и предположим, что вес определяется не только ростом, но и дополнительной переменной, например возрастом, то получится множественная регрессия. В математической формулировке мы просто добавляем эту дополнительную переменную:

Вес = b0 + b1 * Рост + b2 * Возраст + e

3) Регрессия LASSO

Итак, множественная регрессия лучше простой линейной регрессии, не так ли? Поскольку предикторов больше, прогноз должен быть более точным! Не совсем, не всегда. Иногда более простые модели работают лучше, чем сложные. Приведенная выше множественная регрессия имеет 2 независимые переменные, что по-прежнему довольно просто, но что, если в наборе данных 20 или 200 переменных? Вот где специалистам по данным нужно серьезно подумать о том, сколько и какие функции оставить, а какие отпустить.

В машинном обучении выбор функций - важный шаг к устранению переобучения, что также имеет место при регрессии. Итак, в LASSO, если имеется слишком много функций, некоторые из них полностью удаляются. И это делается путем установки коэффициентов на ноль. В терминологии машинного обучения этот процесс известен как «L1 Регуляризация».

4) Регрессия гребня

В регрессии LASSO мы упрощаем уравнения регрессии, которые имеют слишком много функций, и делаем это, полностью удаляя некоторые из них. Риджевая регрессия служит той же цели, то есть упрощает модели, но вместо полного исключения функций сводит к минимуму их влияние.

Таким образом, при гребневой регрессии коэффициенты признаков сокращаются до близкого к нулю, но не до нуля (процесс, известный как Регуляризация L2). В моделях регрессии гребня машинного обучения гиперпараметр лямбда используется для управления весом штрафа, связанного с функцией потерь.

Поскольку ни один элемент не удаляется полностью, регрессия гребня не используется для выбора элемента.

5) Пошаговая регрессия

До сих пор мы изучали различные способы управления функциями для повышения производительности модели. Существует старый, но не менее эффективный подход к поиску лучших моделей, известный как «Пошаговая регрессия».

Как следует из названия, при пошаговой регрессии вы начинаете с самой простой модели (например, 1 зависимая и 1 независимая переменная), а затем оцениваете ее эффективность. Затем вы добавляете еще одну переменную, снова оцениваете производительность и сравниваете две модели, чтобы найти лучшую. Этот процесс повторяется до тех пор, пока не будет найдена наиболее эффективная модель.

Оценщик под названием Информационный критерий Акаике (AIC) используется для сравнения производительности модели в пошаговой регрессии.

Резюме

Регрессия позволяет количественно оценить взаимосвязь между зависимой и одной или несколькими независимыми переменными, и существует множество различных способов установить и количественно оценить эту взаимосвязь. В этой статье я сосредоточился на 5 типах регрессии, с которыми вы, как специалист по анализу данных, будете чаще всего сталкиваться. Следует помнить, что, хотя между ними есть различия, это не совсем разные классы. Сходства больше, чем различий. Поэтому, изучая регрессию (или любую другую семью моделирования, если на то пошло), лучше изучать их все вместе, а не по отдельности.