Царство действительно больших данных

Люди рождаются со способностями к распознаванию образов, которые позволяют нам с первого взгляда различать закономерности в графических изображениях. Однако можем ли мы визуализировать отношения между сотнями переменных в наших огромных наборах данных?Даже самые передовые методы визуализации данных не выходят за пределы пяти измерений.

Схема: процесс уменьшения размеров

  1. Высокоразмерные данные
  2. Уменьшение размерности
  3. Методы уменьшения размерности
  4. Вывод
  5. Ссылка на пример упражнения
  6. Что такое многомерные данные?

В традиционном наборе данных размеры (p) данных были низкими со многими наблюдениями (n). В этом случае часто применяются классические правила, такие как Центральная предельная теорема, для получения некоторого вывода из данных. Новая проблема сегодня связана с другой настройкой, когда размерность данных (p) очень велика, а количество наблюдений (n) мало. Таким образом, это означает, что всякий раз, когда набор данных имеет p›n, это данные высокой размерности.

Например, мало пациентов с большим количеством генов. В таких случаях классические методы не дают хорошего понимания природы проблемы.

Проблемы с многомерными наборами данных. Для обучения модели на многомерном наборе данных обычно требуется:

а) Огромная временная и пространственная сложность

б) часто приводит к переоснащению

c) Не все функции имеют отношение к нашей проблеме

Таким образом, нам нужен сдвиг парадигмы и нетрадиционный способ мышления для решения проблем, связанных с многомерными данными.

Одним из самых популярных подходов к устранению проблем с многомерными данными является уменьшение размерности.

2. Что такое уменьшение размерности?

Уменьшение размерности — это процесс уменьшения количества просматриваемых случайных величин путем получения набора главных компонентов.То есть данные преобразуются из пространства высокой размерности в пространство меньшей размерности. количество параметровбез потери информации.

В качестве примера уменьшения размерности можно рассмотреть простую проблему классификации электронной почты, где нам нужно классифицировать, является ли электронная почта спамом или нет. Это может включать в себя большое количество функций, например, имеет ли электронное письмо стандартный заголовок, содержание электронного письма, использует ли электронное письмо персонализированный шаблон и т. д. Следовательно, мы можем уменьшить количество особенностей в таких задачах. Трехмерную задачу классификации бывает трудно визуализировать, тогда как двухмерную задачу можно отобразить в простое двухмерное пространство, а одномерную — в простую линию.

Рисунок ниже иллюстрирует эту концепцию, где идея состоит в том, что эти точки не разбросаны в пространстве случайным образом, они лежат в подмножестве пространства. наша цель: эффективно найти подпространство, которое представляет все данные.

Компоненты уменьшения размерности

Есть два компонента уменьшения размерности:

  • Выбор признаков: здесь мы пытаемся найти подмножество исходного набора переменных или признаков, чтобы получить меньшее подмножество, которое можно использовать для моделирования проблемы.
  • Извлечение признаков: это сводит данные в пространстве высокой размерности к пространству меньшей размерности, т. е. в пространство с меньшим числом измерений. размеров.

3. Как мы выполняем уменьшение размерности?

Существуют различные методы, используемые для уменьшения размерности, но наиболее распространенным на практике является метод главных компонентов (PCA).

Анализ основных компонентов:

PCA — один из самых успешных методов многомерной аналитики. Этот метод был представлен Карлом Пирсоном. PCA пытается объяснить корреляционную структуру набора переменных-предикторов, используя меньший набор линейных комбинаций этих переменных. Эти линейные комбинации называются компонентами.

Это означает, что общая изменчивость набора данных, созданного полным набором m переменных, может быть объяснена меньшим набором из k линейных комбинаций, и существует почти столько же информации в k компонентах, сколько содержится в исходных m переменных.

Предположим, что исходные переменные образуют систему координат в m-мерном пространстве. Главные компоненты представляют собой новую систему координат, найденную вращением исходной системы по направлениям максимальной изменчивости.

Мы приступаем к применению PCA с использованием разложения по собственным значениям или разложения по сингулярным значениям

а) Собственная декомпозиция включает следующие этапы:

  • Постройте ковариационную матрицу данных.
  • Вычисляем собственное разложение матрицы — получаем набор собственных значений и собственных векторов. Я настоятельно рекомендую вам посмотреть эту лекцию Собственные векторы и собственные значения, прежде чем вы подробно узнаете о методе уменьшения размерности, не пропустите ее!
  • Собственные векторы, соответствующие наибольшим собственным значениям, используются для восстановления большей части дисперсии исходных данных.

При этом получаем следующее.

Напомним, что одним из мотивов PCA было сокращение количества отдельных пояснительных элементов. Возникает вопрос:«Как определить, сколько компонентов нужно извлечь?»

Мы можем использовать график осыпи, чтобы определить количество компонентов.График осыпи — это графический график зависимости собственных значений от количества компонентов. Графики осыпи полезны для нахождения верхней границы (максимума) количества компонентов, которые следует сохранить.

б) разложение по единственному значению:

SVD — это прямой метод, который обобщает концепцию выражения матрицы в виде диагональной матрицы на любую произвольную матрицу, если мы используем правильные домены и области значений.

Основное различие между разложением по собственным числам и разложением по сингулярным числам описано ниже.

  • Разложение по собственным числам использует только один базис, то есть собственные векторы, в то время как SVD использует два разных базиса, левый и правый сингулярные векторы.
  • База собственного разложения не обязательно ортогональна, собственный базис SVD ортонормирован!

Доказано, что метод разложения по сингулярным значениям более эффективен, чем метод разложения по собственным значениям в зависимости от ситуаций для анализа. Чтобы узнать о математике, лежащей в основе анализа PCA, посмотрите лекции на YouTube. Часть1, Часть2 и Часть3.

Вывод:

Уменьшение размерности оказалось полезным для обнаружения нелинейных, нелокальных отношений в данных, которые не очевидны в пространстве признаков. В машинном обучении это критично и, следовательно, эффективно при применении.

PCA для набора данных IRIS с использованием Python:

Ниже приведены шаги для выполнения PCA и визуализации результатов с использованием наиболее известного набора данных IRIS.

Набор данных и код:

https://github.com/ChitraRajasekaran/Principal-Component-Analysis

Ссылки:

Учебник по интеллектуальному анализу данных и прогнозной аналитике.