СПРАВОЧНИК
Pandas
DataFrame, Series, методы анализа данных
Pandas — основная библиотека для анализа и обработки табличных данных в Python. Главные структуры — DataFrame (таблица) и Series (столбец). Все примеры предполагают импорт: import pandas as pd.
Агрегация и группировка 9
DataFrame.count()
DataFrame.count(axis=0)Считает число непустых значений.DataFrame.groupby()
DataFrame.groupby(by, as_index=True)Группирует строки для агрегации по категориям.DataFrame.max()
DataFrame.max(axis=0, numeric_only=False)Максимальное значение.DataFrame.mean()
DataFrame.mean(axis=0, numeric_only=False)Среднее арифметическое значений.DataFrame.min()
DataFrame.min(axis=0, numeric_only=False)Минимальное значение.DataFrame.sum()
DataFrame.sum(axis=0, numeric_only=False)Суммирует значения по столбцам или строкам.GroupBy.agg()
GroupBy.agg(func)Применяет несколько агрегаций сразу.Series.nunique()
Series.nunique(dropna=True)Число уникальных значений.Series.value_counts()
Series.value_counts(normalize=False, dropna=True)Считает частоту каждого уникального значения.Выборка 6
DataFrame.at[]
DataFrame.at[row_label, col_label]Быстрый доступ к одной ячейке по меткам.DataFrame.filter()
DataFrame.filter(items=None, like=None, regex=None, axis=None)Отбирает строки или столбцы по именам меток.DataFrame.iloc[]
DataFrame.iloc[row_pos, col_pos]Доступ к строкам и столбцам по числовым позициям.DataFrame.loc[]
DataFrame.loc[row_labels, col_labels]Доступ к строкам и столбцам по меткам.DataFrame.query()
DataFrame.query(expr)Фильтрует строки по выражению в виде строки.df['column']
DataFrame['column_name']Доступ к столбцу по имени — возвращает Series.Объединение 3
Преобразование 9
DataFrame.apply()
DataFrame.apply(func, axis=0)Применяет функцию к столбцам или строкам.DataFrame.applymap()
DataFrame.applymap(func)Применяет функцию к каждой ячейке таблицы.DataFrame.drop()
DataFrame.drop(labels=None, axis=0, columns=None)Удаляет указанные строки или столбцы.DataFrame.dropna()
DataFrame.dropna(axis=0, how='any', subset=None)Удаляет строки или столбцы с пропусками.DataFrame.fillna()
DataFrame.fillna(value=None, method=None)Заполняет пропуски (NaN) заданным значением.DataFrame.rename()
DataFrame.rename(columns=None, index=None)Переименовывает столбцы или строки по словарю.DataFrame.replace()
DataFrame.replace(to_replace, value)Заменяет одни значения на другие.Series.astype()
Series.astype(dtype)Приводит столбец к указанному типу данных.Series.map()
Series.map(arg, na_action=None)Заменяет значения Series по словарю или функции.Просмотр 9
DataFrame.columns
DataFrame.columnsИндекс с именами столбцов.DataFrame.describe()
DataFrame.describe(percentiles=None, include=None)Считает базовую статистику по числовым столбцам.DataFrame.dtypes
DataFrame.dtypesSeries с типами данных каждого столбца.DataFrame.head()
DataFrame.head(n=5)Возвращает первые n строк таблицы.DataFrame.index
DataFrame.indexМетки строк таблицы.DataFrame.info()
DataFrame.info(verbose=None, show_counts=None)Печатает сводку: типы столбцов, число непустых значений, память.DataFrame.shape
DataFrame.shapeКортеж (число строк, число столбцов).DataFrame.tail()
DataFrame.tail(n=5)Возвращает последние n строк таблицы.DataFrame.values
DataFrame.valuesДанные таблицы в виде массива NumPy.Прочее 5
DataFrame.reset_index()
DataFrame.reset_index(drop=False)Сбрасывает индекс в обычный столбец 0..n.DataFrame.sample()
DataFrame.sample(n=None, frac=None, random_state=None)Возвращает случайную выборку строк.DataFrame.set_index()
DataFrame.set_index(keys, drop=True)Делает указанный столбец индексом таблицы.pd.pivot_table()
pd.pivot_table(data, values, index, columns, aggfunc='mean')Строит сводную таблицу с агрегацией.Series.unique()
Series.unique()Возвращает массив уникальных значений.Создание и ввод-вывод 6
DataFrame.to_csv()
DataFrame.to_csv(path_or_buf=None, sep=',', index=True)Сохраняет DataFrame в CSV-файл.pd.DataFrame()
pd.DataFrame(data=None, index=None, columns=None, dtype=None)Создаёт таблицу из словаря, списка списков или массива.pd.read_csv()
pd.read_csv(filepath, sep=',', header=0, index_col=None)Читает CSV-файл в DataFrame.pd.read_excel()
pd.read_excel(io, sheet_name=0, header=0)Читает лист Excel (.xlsx) в DataFrame.pd.read_json()
pd.read_json(path_or_buf, orient=None)Читает JSON в DataFrame.pd.Series()
pd.Series(data=None, index=None, dtype=None, name=None)Создаёт одномерный массив с подписями (индексом).Сортировка 4
DataFrame.nlargest()
DataFrame.nlargest(n, columns)Возвращает n строк с наибольшими значениями.DataFrame.nsmallest()
DataFrame.nsmallest(n, columns)Возвращает n строк с наименьшими значениями.DataFrame.sort_index()
DataFrame.sort_index(axis=0, ascending=True)Сортирует строки или столбцы по меткам индекса.DataFrame.sort_values()
DataFrame.sort_values(by, ascending=True)Сортирует строки по значениям столбца.Фильтрация 5
DataFrame.isnull()
DataFrame.isnull()Маска пропущенных значений (NaN).DataFrame.notnull()
DataFrame.notnull()Маска заполненных (непустых) значений.Series.between()
Series.between(left, right, inclusive='both')Проверяет попадание в диапазон.Series.isin()
Series.isin(values)Проверяет вхождение значений в список.Булева индексация
DataFrame[boolean_condition]Отбор строк по условию-маске.