СПРАВОЧНИК

Pandas

DataFrame, Series, методы анализа данных

Pandas — основная библиотека для анализа и обработки табличных данных в Python. Главные структуры — DataFrame (таблица) и Series (столбец). Все примеры предполагают импорт: import pandas as pd.

Агрегация и группировка 9

DataFrame.count()

DataFrame.count(axis=0)Считает число непустых значений.

DataFrame.groupby()

DataFrame.groupby(by, as_index=True)Группирует строки для агрегации по категориям.

DataFrame.max()

DataFrame.max(axis=0, numeric_only=False)Максимальное значение.

DataFrame.mean()

DataFrame.mean(axis=0, numeric_only=False)Среднее арифметическое значений.

DataFrame.min()

DataFrame.min(axis=0, numeric_only=False)Минимальное значение.

DataFrame.sum()

DataFrame.sum(axis=0, numeric_only=False)Суммирует значения по столбцам или строкам.

GroupBy.agg(func)Применяет несколько агрегаций сразу.

Series.nunique()

Series.nunique(dropna=True)Число уникальных значений.

Series.value_counts()

Series.value_counts(normalize=False, dropna=True)Считает частоту каждого уникального значения.

Выборка 6

DataFrame.at[row_label, col_label]Быстрый доступ к одной ячейке по меткам.

DataFrame.filter()

DataFrame.filter(items=None, like=None, regex=None, axis=None)Отбирает строки или столбцы по именам меток.

DataFrame.iloc[]

DataFrame.iloc[row_pos, col_pos]Доступ к строкам и столбцам по числовым позициям.

DataFrame.loc[]

DataFrame.loc[row_labels, col_labels]Доступ к строкам и столбцам по меткам.

DataFrame.query()

DataFrame.query(expr)Фильтрует строки по выражению в виде строки.

DataFrame['column_name']Доступ к столбцу по имени — возвращает Series.

Объединение 3

DataFrame.join()

DataFrame.join(other, on=None, how='left')Соединяет таблицы по индексу.

pd.concat(objs, axis=0, ignore_index=False)Склеивает таблицы по строкам или столбцам.

pd.merge(left, right, how='inner', on=None)Соединяет две таблицы по общим ключам (как SQL JOIN).

Преобразование 9

DataFrame.apply()

DataFrame.apply(func, axis=0)Применяет функцию к столбцам или строкам.

DataFrame.applymap()

DataFrame.applymap(func)Применяет функцию к каждой ячейке таблицы.

DataFrame.drop()

DataFrame.drop(labels=None, axis=0, columns=None)Удаляет указанные строки или столбцы.

DataFrame.dropna()

DataFrame.dropna(axis=0, how='any', subset=None)Удаляет строки или столбцы с пропусками.

DataFrame.fillna()

DataFrame.fillna(value=None, method=None)Заполняет пропуски (NaN) заданным значением.

DataFrame.rename()

DataFrame.rename(columns=None, index=None)Переименовывает столбцы или строки по словарю.

DataFrame.replace()

DataFrame.replace(to_replace, value)Заменяет одни значения на другие.

Series.astype()

Series.astype(dtype)Приводит столбец к указанному типу данных.

Series.map(arg, na_action=None)Заменяет значения Series по словарю или функции.

Просмотр 9

DataFrame.columns

DataFrame.columnsИндекс с именами столбцов.

DataFrame.describe()

DataFrame.describe(percentiles=None, include=None)Считает базовую статистику по числовым столбцам.

DataFrame.dtypes

DataFrame.dtypesSeries с типами данных каждого столбца.

DataFrame.head()

DataFrame.head(n=5)Возвращает первые n строк таблицы.

DataFrame.index

DataFrame.indexМетки строк таблицы.

DataFrame.info()

DataFrame.info(verbose=None, show_counts=None)Печатает сводку: типы столбцов, число непустых значений, память.

DataFrame.shape

DataFrame.shapeКортеж (число строк, число столбцов).

DataFrame.tail()

DataFrame.tail(n=5)Возвращает последние n строк таблицы.

DataFrame.values

DataFrame.valuesДанные таблицы в виде массива NumPy.

Прочее 5

DataFrame.reset_index()

DataFrame.reset_index(drop=False)Сбрасывает индекс в обычный столбец 0..n.

DataFrame.sample()

DataFrame.sample(n=None, frac=None, random_state=None)Возвращает случайную выборку строк.

DataFrame.set_index()

DataFrame.set_index(keys, drop=True)Делает указанный столбец индексом таблицы.

pd.pivot_table()

pd.pivot_table(data, values, index, columns, aggfunc='mean')Строит сводную таблицу с агрегацией.

Series.unique()

Series.unique()Возвращает массив уникальных значений.

Создание и ввод-вывод 6

DataFrame.to_csv()

DataFrame.to_csv(path_or_buf=None, sep=',', index=True)Сохраняет DataFrame в CSV-файл.

pd.DataFrame(data=None, index=None, columns=None, dtype=None)Создаёт таблицу из словаря, списка списков или массива.

pd.read_csv(filepath, sep=',', header=0, index_col=None)Читает CSV-файл в DataFrame.

pd.read_excel()

pd.read_excel(io, sheet_name=0, header=0)Читает лист Excel (.xlsx) в DataFrame.

pd.read_json(path_or_buf, orient=None)Читает JSON в DataFrame.

pd.Series(data=None, index=None, dtype=None, name=None)Создаёт одномерный массив с подписями (индексом).

Сортировка 4

DataFrame.nlargest()

DataFrame.nlargest(n, columns)Возвращает n строк с наибольшими значениями.

DataFrame.nsmallest()

DataFrame.nsmallest(n, columns)Возвращает n строк с наименьшими значениями.

DataFrame.sort_index()

DataFrame.sort_index(axis=0, ascending=True)Сортирует строки или столбцы по меткам индекса.

DataFrame.sort_values()

DataFrame.sort_values(by, ascending=True)Сортирует строки по значениям столбца.

Фильтрация 5

DataFrame.isnull()

DataFrame.isnull()Маска пропущенных значений (NaN).

DataFrame.notnull()

DataFrame.notnull()Маска заполненных (непустых) значений.

Series.between()

Series.between(left, right, inclusive='both')Проверяет попадание в диапазон.

Series.isin(values)Проверяет вхождение значений в список.

Булева индексация

DataFrame[boolean_condition]Отбор строк по условию-маске.