Numpy, Pandas и Matplotlib — это три библиотеки на Python для научного и аналитического использования.

PANDAS (PANelDAta) — это инструмент обработки данных высокого уровня для анализа данных.

Pandas имеет три важные структуры данных, а именно Series, Data Frame и Panel, чтобы сделать процесс анализа данных организованным, эффективным и действенным.

  • Зачем нужны панды, если для анализа данных можно использовать Numpy:
  1. Массив Numpy требует однородных данных, в то время как кадр данных Pandas может иметь разные типы данных (с плавающей запятой, целое число, строка, дата, время и т. д.).
  2. Pandas имеет более простой интерфейс для таких операций, как загрузка файлов, построение графиков, выбор, объединение, GROUP BY, которые очень удобны в приложениях для обработки данных
    .
  3. Фреймы данных Pandas (с именами столбцов) упрощают отслеживание данных.
  4. Pandas используется, когда данные представлены в табличном формате, тогда как Numpy используется для обработки данных на основе числового массива.
  • Установка панд

пип установить панды

  • Структура данных в Pandas:

Ряд

Фрейм данных

  • Серия

Серия — это одномерный массив, содержащий последовательность значений любого типа данных (целое число, число с плавающей запятой, список, строка и т. д.), которые по умолчанию имеют числовые метки данных, начинающиеся с нуля. Метка данных, связанная с конкретным значением, называется его индексом.

Создание серии:

Существуют разные способы создания серии в Pandas. Чтобы создать или использовать серию, нам сначала нужно импортировать библиотеку Pandas.

Например. Создание серий из скалярных значений:

импортировать панд как pd
series1=pd.Series([10,20,30])
print(series1)

Например. Определить индекс серии в pandas

импортировать панд как pd
series2=pd.Series(["Kavi", "shyam", "Ravi"],index=[3,5,1])
print(series2)

Например. Определить письмо как индекс к серии

импортировать панд как pd
series2=pd.Series(["Kavi", "shyam", "Ravi"],index=[3,5,1])
print(series2)