ОЧИСТКА ДАННЫХ:

Данные реального мира собираются из нескольких ресурсов, и высока вероятность того, что данные будут повреждены. В наборе данных могут быть отсутствующие значения, и для его использования могут потребоваться некоторые преобразования. Очистка этих данных может заключаться в простом заполнении этих пустот с помощью техники, называемой вменением данных.
Это одна из важнейших частей очистки данных, поскольку в будущем нам потребуется извлекать из нее данные, чтобы построить эффективную модель. Этот этап играет важную роль в точности окончательной модели.
Всякий раз, когда мы обнаруживаем, что значения / данные отсутствуют, специалист по данным несет ответственность за обеспечение эффективной обработки отсутствующих данных на этапе очистки данных. Некоторые распространенные техники вменения включают одну из трех следующих стратегий:
I, Среднее
II, Медианное
III, Режим

Рассмотрим изображение ниже:

→ Что означают эти значения NaN ??
Это недостающие значения в наборе данных.
Мы можем обработать их двумя способами:
1, удаляя строки с пропущенными значениями. (Как правило, не рекомендуется, поскольку это может в некоторой степени сократить набор данных, что приведет к меньшему количеству данных для обучения)
2, Используя Imputer, чтобы найти наилучшую возможную замену для замены отсутствующих значений

→ Чтобы узнать общее количество значений NaN мы используем функцию lambda.
Синтаксис: data1.apply(lambda x:sum(x.is.null()),axis=0)
isnull()- проверяет, является ли значение нулевым или нет.

axis=0- выбирает все столбцы & axis=1 проверяет все строки, как показано на рисунке.

→ Давайте теперь начнем заполнять эти значения с помощью функции Imputer, присутствующей в модуле sklearn.preprocessing , a s, показанном на рис: 1. При написании строки выше отсутствующие значения заменяются средним значением всех других значений, присутствующих в наборе данных. Теперь нам нужно преобразовать наш набор данных (например, данные 1) в массив, чтобы выполнять с ним операции.

отображаемые данные2
→ [:,:] обозначают все строки и все столбцы соответственно.
→ Как показано на рис. данные преобразуются в массивы, чтобы выполнять с ними операции, поскольку массив является частью библиотеки numpy.

Здесь мы пытаемся уместить все строки 0-го и 1-го столбцов индекса в импьютер, чтобы значения NaN заменялись используемой стратегией.

→ Теперь, как мы видим на рис: «mean_imputation», мы обнаруживаем, что пустоты (NaN) успешно заполнены импьютером.

→ Это всего лишь предположение, что вместо пропущенных значений помещаются средние значения. Однако нам нужно протестировать и другие стратегии, чтобы выбрать лучшую.

Теперь давайте перейдем к медианной стратегии, как показано ниже: (синтаксис imputer остается прежним)

Теперь, после всего этого, нам нужно выбрать, какая стратегия подходит нашему алгоритму. Мы можем узнать это, используя коробчатую диаграмму, как показано ниже:

→ Это построение графика до удаления выбросов.
→ Выбросы - это значения, которые превышают диапазон (или) это также называется данными вне привязки
(как мы видели это в нашем предыдущем блоге)
→ Здесь мы находим, что на наш выходной озон в основном влияет солнечная энергия → Построение графиков всех трех методов вменения с выбросами для будущего сравнения.
В коде указано, что озон наносится на ось y, а солнечная энергия - на x- ось
→ Линия оси, совпадающая с синими точками (точками данных), называется осевой линией. 'R' указывает на то, что линия должна быть красного цвета, и мы рассматриваем линию в линейной форме (-)
→ Наконец, отображение графика → Та же процедура выполняется для всех импортеров, как показано ниже для медианы , Режим.

Примечание. Тем более нет. точек, которые пересекает красная линия, тем лучше, если это замена.
Следующий шаг - проверить выбросы и повторить тот же процесс, удалив выбросы (если выбросы обнаружены).
Выбросы обозначены крошечными кружками вне диапазона на графике.
Проверка выбросов выполняется с помощью boxplot (), как показано ниже:

Нормализация :
→ Нормализация - это метод, часто применяемый при подготовке данных.
→ Цель
- это масштабировать числовые значения в столбцах.
→ Не каждый набор данных в ML требует нормализации, а только наборы данных, характеристики которых имеют разные диапазоны, требуют нормализации
→ Когда мы нормализуем набор данных, мы уменьшаем все значения объектов находятся в диапазоне 0–1
Например: Рассмотрим данный набор данных о качестве воздуха
, мы замечаем, что диапазоны атрибутов меняются от однозначных до трехзначных. Итак, мы используем нормализацию, чтобы все значения оставались в одном диапазоне.
2. Другим сценарием в реальном времени может быть возраст и зарплата человека. Диапазон значений обоих атрибутов различается (т. Е. Возраст находится в диапазоне от 1 до 100, а зарплата может варьироваться от 1 до 90 000 долларов или даже больше).

Чтобы выполнить операцию, мы берем значение озона в y:
Шаги для выполнения нормализации:
i) Изменение формы y в диапазоне (-1,1)
ii ) из предварительной обработки импорта sklearn
iii) На следующем шаге мы присваиваем переменной y преобразованные значения
v) Отображение результата. На выходе мы можем заметить, что наши значения находятся в диапазоне от (0,1) до вывод
представлен в виде массива.

→ В большинстве случаев мы используем среднее значение как лучшее значение, потому что оно является средним из всех значений. Но вы можете попробовать и другие методы, чтобы присвоить наилучшие значения отсутствующим данным с помощью различных стратегий для эффективной модели. Отметьте красную линию, чтобы увидеть максимальное количество точек, совпадающих с линией, и выберите эту стратегию.

😃 Ну, вот и все.
Надеюсь, он вам понравился 👍
Любые вопросы, пожалуйста, не стесняйтесь, как Рениш Сундрани, Киран Лакхани < br /> Вы также можете связаться с нами через connectedIn- https://www.linkedin.com/in/renish-sundrani-6a748317a и https://www.linkedin.com/in/kiran-lakhani-20

→ Ссылка на наш предыдущий блог: https://medium.com/@reni.sundrani/installation-of-jupyter-notebook-getting-started-with-machine-learning-7443a5e09309?sk=10132b40b011596877d43818238db352