pandas- все статьи тега


Новая библиотека превосходит Pandas по производительности

Выпуск pandas датируется 2008 годом, и написана она была на Python, Cython и Си. Сегодня мы сравниваем производительность этой всем известной библиотеки с новой DataFrame библиотекой pypolars, написанной на Rust. Сравнение производится при сортировке и конкатенации данных с 25 миллионами записей, а также при объединении двух CSV-файлов. Загрузка с...

10 лайфхаков для работы с библиотекой Pandas

Однажды у меня произошел нервный срыв из-за моих UI знаний. В то время я работал над множеством проектов  —  в основном над стартапами. Я осознавал, что мои дизайнерские способности технически были хорошими, и на таком уровне, который я мог бы использовать где-нибудь еще. В этой статье я хочу выделить несколько способов, как развить свои UI навыки...

3 классные малоизвестные функции Pandas

Я и раньше писал о Pandas по очевидным причинам — это изумительная библиотека для анализа данных и даже для визуализации. Предыдущая статья была о функциях, которые стоит чаще использовать, потому что они:  держат ваш код в чистоте;не заставляют вас заново изобретать колесо. Однако в сегодняшнем посте я хочу сместить фокус на некоторые более ...

3 функции Pandas, которые стоит использовать чаще

Используемый набор данных Мы будем использовать знаменитый набор данных Titanic. Импортируем его и получаем следующее: 1. idxmin() and idxmax() Эти функции возвращают индексную позицию определенной записи. В наборе данных Titanic, например, можно найти индексную позицию самого молодого/старого человека. Попробуем найти только имена этих людей. Мн...

5 Расширенных возможностей Pandas и как ими пользоваться

Pandas — это золотой стандарт в обработке данных. А функциональные возможности библиотеки по загрузке, фильтрации, обработке и изучению данных быстро сделали ее излюбленным инструментом аналитиков. Конечно же, большинство из нас работает с самыми примитивными возможностями: загрузка данных из CSV-файла, фильтр нескольких столбцов и переход к визуа...

Максимальная производительность Pandas Python

В этой статье мы докажем, что использование Nuclio и RAPIDS, бесплатной open-source платформы для ускорения обработки данных от NVIDIA, может значительно увеличить производительность Python. Я продемонстрирую самый популярный вариант использования обработки живых данных, состоящих из журналов на основе Json. Мы выполним несколько аналитических зад...

Вычислительные затраты на написание чистого кода

Почему иногда люди пишут подобный код? var = float(str(alist[::-1][0]).split()[1:4])/3+float(alist[4:]) Ответ прост: чтобы сэкономить вычислительное время. Стоит только написать это в четыре строки… var = alist[::-1][0] var = str(var).split()[1:4] var = float(var)/3 var += float(alist[4:] …составители бюджета вычислительной стоимос...

Хватит использовать Pandas, пора переходить на Spark + Scala!

Переход с Pandas на Spark и Scala не настолько труден, насколько вы можете предположить, при этом в итоге ваш код будет выполняться быстрее, и, скорее всего, качество его написания тоже возрастёт.  Работая инженером по работе с данными, я понял, что в Pandas создание конвейеров зачастую требует от нас регулярного повышения ресурсов, чтобы пос...

TextHero - самый простой способ чистки и анализа текста в Pandas

Упрощенная обработка естественного языка (NLP) Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональность Texthero, я знал, что должен его попробовать. Texthero разработан как оболочка Pandas, поэтому пред...

7 трюков pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается в использовании генератора и комбинации клавиш Ctrl + Enter вместо Shift + Enter, чтобы итеративно просматривать различные образцы в о...

Фрейм данных Pandas, имеющий дополнительный " слой"

Предположим, что у вас есть следующий фрейм данных: import pandas as pd import numpy as np df = pd.DataFrame(np.nan,columns=['A','B','C'],index=[0,1,2]) Предположим, мне нужен дополнительный "слой" поверх этого фрейма данных pandas, такой, что столбец A, строка 0 будет иметь свое значение, столбец B, строка 0 будет иметь другое значение, столбец C, строка 0 будет иметь что-то, столбец A, строка 1 и так далее. Таким образом, как фрейм данных поверх этого существующего. Можно ли добавить дру ...

Вычислить средневзвешенное значение с помощью фрейма данных pandas

У меня есть следующий фрейм данных pandas: data_df = pd.DataFrame({'ind':['la','p','la','la','p','g','g','la'], 'dist':[10.,5.,7.,8.,7.,2.,5.,3.], 'diff':[0.54,3.2,8.6,7.2,2.1,1.,3.5,4.5], 'cas':[1.,2.,3.,4.,5.,6.,7.,8.]}) То есть cas diff dist ind 0 1 0.54 10 la 1 2 3.20 5 p 2 3 8.60 7 la 3 4 7.20 8 la 4 5 2.10 7 p 5 6 1.00 2 g 6 7 3.50 5 g 7 ...

Как удалить строки из фрейма данных pandas, содержащего определенную строку в определенном столбце?

У меня есть очень большой фрейм данных в python, и я хочу удалить все строки, которые имеют определенную строку внутри определенного столбца. Например, я хочу удалить все строки, которые имеют строку " XYZ " в качестве подстроки в столбце C фрейма данных. Может ли это быть реализовано эффективным способом с помощью .метод drop ()? ...

Как извлечь ячейку из фрейма данных панды

Скажем, я создаю pandas фрейм данных (я не очень хорош в pandas, и это может быть не очень эффективно): import pandas as pd colnames = ['a', 'b'] data = pd.DataFrame(columns=colnames) df_row = ['val1', 'val2'] app = pd.Series(df_row, index=cols) data = data.append(app, ignore_index=True) Я хочу получить доступ к val1 как к строке, а не как к объекту pandas. Если я это сделаю: cell = data.iloc[[0],[0]] type(cell) Я вижу, что cell имеет тип <class 'pandas.core.frame.DataFrame'> Ес ...

Подключайтесь к Hive и создавайте таблицы с помощью pandas

У меня есть фрейм данных pandas в PYTHON. Я хочу создать / загрузить этот фрейм данных в таблицу hive. Я знаю, что мы можем создать фрейм данных spark из фрейма данных pandas и создать таблицу hive. Я хотел бы сделать это, используя чистый python способ, не используя pyspark. Я установил pyhive pyhs2 в моем местном python Используя pyhive conn_1 = hive.Connection(host=hive_host, port=10000, username=username) Я получаю следующую ошибку: NotImplementedError: Wrong number of arguments f ...

Pandas Multiindex from array => TypeError: unhashable тип: 'dict'

Я пытаюсь создать фрейм данных из массива со следующей структурой: df = [[{'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Tom', 'value': '129'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Kate', 'value': '0'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'GroupeId', 'value': '0'}, {...}, {...}, {...}],[another list of dictionaries like the first one],[and another one]] Используя этот код: def cr ...

Использование логического индексирования для многозначных строк и столбцов в Pandas

Вопросы в конце, вжирным шрифтом . Но сначала давайте установим некоторые данные: import numpy as np import pandas as pd from itertools import product np.random.seed(1) team_names = ['Yankees', 'Mets', 'Dodgers'] jersey_numbers = [35, 71, 84] game_numbers = [1, 2] observer_names = ['Bill', 'John', 'Ralph'] observation_types = ['Speed', 'Strength'] row_indices = list(product(team_names, jersey_numbers, game_numbers, observer_names, observation_types)) observation_values = np.random.randn(le ...

как объединить несколько листов excel из одного файла?

У меня есть большой файл excel, который содержит много разных листов. Все листы имеют одинаковую структуру, например: Name col1 col2 col3 col4 1 1 2 4 4 3 2 1 Как я могу объединить (вертикально) все эти листы в Pandas, не называя каждый из них вручную? Если бы это были файлы, я мог бы использовать glob для получения списка файлов в каталоге. Но здесь, для листов excel, я потерялся. Существует ли способ создать переменную в результирующем фрейме данных, которая иде ...

Питон панды - построение многомерной сводной таблицы, чтобы отобразить количество Нанс и non-Нанс

У меня есть набор данных, основанный на различных метеостанциях для нескольких переменных (температура, давление и т. д.), stationID | Time | Temperature | Pressure |... ----------+------+-------------+----------+ 123 | 1 | 30 | 1010.5 | 123 | 2 | 31 | 1009.0 | 202 | 1 | 24 | NaN | 202 | 2 | 24.3 | NaN | 202 | 3 | NaN | 1000.3 | ... И я хотел бы создать сводную таблицу, которая показывал ...

Добавление столбцов pandas в разреженную матрицу

У меня есть дополнительные производные значения для переменных X, которые я хочу использовать в своей модели. XAll = pd_data[['title','wordcount','sumscores','length']] y = pd_data['sentiment'] X_train, X_test, y_train, y_test = train_test_split(XAll, y, random_state=1) Поскольку я работаю с текстовыми данными в заголовке, я сначала преобразую их в dtm отдельно: vect = CountVectorizer(max_df=0.5) vect.fit(X_train['title']) X_train_dtm = vect.transform(X_train['title']) column_index = X_tra ...