pandas- все статьи тега


Хватит использовать Pandas, пора переходить на Spark + Scala!

Переход с Pandas на Spark и Scala не настолько труден, насколько вы можете предположить, при этом в итоге ваш код будет выполняться быстрее, и, скорее всего, качество его написания тоже возрастёт.  Работая инженером по работе с данными, я понял, что в Pandas создание конвейеров зачастую требует от нас регулярного повышения ресурсов, чтобы пос...

TextHero - самый простой способ чистки и анализа текста в Pandas

Упрощенная обработка естественного языка (NLP) Я всегда нахожусь в поиске новых инструментов, которые помогут мне упростить процедуру обработки естественного языка, поэтому, когда я наткнулся на короткий видеоклип, показывающий функциональность Texthero, я знал, что должен его попробовать. Texthero разработан как оболочка Pandas, поэтому пред...

7 трюков pandas для науки о данных

1. Анализ образцов датафреймов с помощью df.groupby().__iter__() Обычно исследовать набор данных строка за строкой или группа за группой в блокнотах Jupyter сложнее, чем в Excel. Один из полезных трюков заключается в использовании генератора и комбинации клавиш Ctrl + Enter вместо Shift + Enter, чтобы итеративно просматривать различные образцы в о...

Фрейм данных Pandas, имеющий дополнительный " слой"

Предположим, что у вас есть следующий фрейм данных: import pandas as pd import numpy as np df = pd.DataFrame(np.nan,columns=['A','B','C'],index=[0,1,2]) Предположим, мне нужен дополнительный "слой" поверх этого фрейма данных pandas, такой, что столбец A, строка 0 будет иметь свое значение, столбец B, строка 0 будет иметь другое значение, столбец C, строка 0 будет иметь что-то, столбец A, строка 1 и так далее. Таким образом, как фрейм данных поверх этого существующего. Можно ли добавить дру ...

Вычислить средневзвешенное значение с помощью фрейма данных pandas

У меня есть следующий фрейм данных pandas: data_df = pd.DataFrame({'ind':['la','p','la','la','p','g','g','la'], 'dist':[10.,5.,7.,8.,7.,2.,5.,3.], 'diff':[0.54,3.2,8.6,7.2,2.1,1.,3.5,4.5], 'cas':[1.,2.,3.,4.,5.,6.,7.,8.]}) То есть cas diff dist ind 0 1 0.54 10 la 1 2 3.20 5 p 2 3 8.60 7 la 3 4 7.20 8 la 4 5 2.10 7 p 5 6 1.00 2 g 6 7 3.50 5 g 7 ...

Как удалить строки из фрейма данных pandas, содержащего определенную строку в определенном столбце?

У меня есть очень большой фрейм данных в python, и я хочу удалить все строки, которые имеют определенную строку внутри определенного столбца. Например, я хочу удалить все строки, которые имеют строку " XYZ " в качестве подстроки в столбце C фрейма данных. Может ли это быть реализовано эффективным способом с помощью .метод drop ()? ...

Как извлечь ячейку из фрейма данных панды

Скажем, я создаю pandas фрейм данных (я не очень хорош в pandas, и это может быть не очень эффективно): import pandas as pd colnames = ['a', 'b'] data = pd.DataFrame(columns=colnames) df_row = ['val1', 'val2'] app = pd.Series(df_row, index=cols) data = data.append(app, ignore_index=True) Я хочу получить доступ к val1 как к строке, а не как к объекту pandas. Если я это сделаю: cell = data.iloc[[0],[0]] type(cell) Я вижу, что cell имеет тип <class 'pandas.core.frame.DataFrame'> Ес ...

Подключайтесь к Hive и создавайте таблицы с помощью pandas

У меня есть фрейм данных pandas в PYTHON. Я хочу создать / загрузить этот фрейм данных в таблицу hive. Я знаю, что мы можем создать фрейм данных spark из фрейма данных pandas и создать таблицу hive. Я хотел бы сделать это, используя чистый python способ, не используя pyspark. Я установил pyhive pyhs2 в моем местном python Используя pyhive conn_1 = hive.Connection(host=hive_host, port=10000, username=username) Я получаю следующую ошибку: NotImplementedError: Wrong number of arguments f ...

Pandas Multiindex from array => TypeError: unhashable тип: 'dict'

Я пытаюсь создать фрейм данных из массива со следующей структурой: df = [[{'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Tom', 'value': '129'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'Kate', 'value': '0'}, {'date_time': Timestamp('2015-05-22 05:37:59'), 'name': 'GroupeId', 'value': '0'}, {...}, {...}, {...}],[another list of dictionaries like the first one],[and another one]] Используя этот код: def cr ...

Использование логического индексирования для многозначных строк и столбцов в Pandas

Вопросы в конце, вжирным шрифтом . Но сначала давайте установим некоторые данные: import numpy as np import pandas as pd from itertools import product np.random.seed(1) team_names = ['Yankees', 'Mets', 'Dodgers'] jersey_numbers = [35, 71, 84] game_numbers = [1, 2] observer_names = ['Bill', 'John', 'Ralph'] observation_types = ['Speed', 'Strength'] row_indices = list(product(team_names, jersey_numbers, game_numbers, observer_names, observation_types)) observation_values = np.random.randn(le ...

как объединить несколько листов excel из одного файла?

У меня есть большой файл excel, который содержит много разных листов. Все листы имеют одинаковую структуру, например: Name col1 col2 col3 col4 1 1 2 4 4 3 2 1 Как я могу объединить (вертикально) все эти листы в Pandas, не называя каждый из них вручную? Если бы это были файлы, я мог бы использовать glob для получения списка файлов в каталоге. Но здесь, для листов excel, я потерялся. Существует ли способ создать переменную в результирующем фрейме данных, которая иде ...

Питон панды - построение многомерной сводной таблицы, чтобы отобразить количество Нанс и non-Нанс

У меня есть набор данных, основанный на различных метеостанциях для нескольких переменных (температура, давление и т. д.), stationID | Time | Temperature | Pressure |... ----------+------+-------------+----------+ 123 | 1 | 30 | 1010.5 | 123 | 2 | 31 | 1009.0 | 202 | 1 | 24 | NaN | 202 | 2 | 24.3 | NaN | 202 | 3 | NaN | 1000.3 | ... И я хотел бы создать сводную таблицу, которая показывал ...

Добавление столбцов pandas в разреженную матрицу

У меня есть дополнительные производные значения для переменных X, которые я хочу использовать в своей модели. XAll = pd_data[['title','wordcount','sumscores','length']] y = pd_data['sentiment'] X_train, X_test, y_train, y_test = train_test_split(XAll, y, random_state=1) Поскольку я работаю с текстовыми данными в заголовке, я сначала преобразую их в dtm отдельно: vect = CountVectorizer(max_df=0.5) vect.fit(X_train['title']) X_train_dtm = vect.transform(X_train['title']) column_index = X_tra ...

Панды: создайте новый столбец со случайными значениями, основанными на условных значениях.

Я пробовал читать подобные вопросы, прежде чем задавать, но я все еще в тупике. Любая помощь истощается. Входные данные: У меня есть фрейм данных pandas со столбцом с надписью " радон ", который имеет значения в диапазоне: [0.5, 13.65] Вывод: Я хотел бы создать новый столбец, в котором все значения радона, которые = 0.5, изменяются на случайное значение между 0.1 и 0.5 Я попробовал это: df['radon_adj'] = np.where(df['radon']==0.5, random.uniform(0, 0.5), df.radon) Однако я получаю одн ...

python pandas дата время преобразование в дату

Я ищу, чтобы преобразовать datetime в дату для a pandas datetime серия. Я перечислил код ниже: df = pd.DataFrame() df = pandas.io.parsers.read_csv("TestData.csv", low_memory=False) df['PUDATE'] = pd.Series([pd.to_datetime(date) for date in df['DATE_TIME']]) df['PUDATE2'] = datetime.datetime.date(df['PUDATE']) #Does not work Может ли кто-нибудь направить меня в правильном направлении? ...

Python pandas groupby ключевая ошибка в пандах.коллекция Hashtable.PyObjectHashTable.получить товар

Я делаю то, что кажется простой группой в Пандах. Колонка-это колонка строк без НАН или странных строк. Тем не менее, я продолжаю получать ниже ошибку. Кто-нибудь знает, почему это может произойти? Я чувствую, что это может иметь какое-то отношение к моим данным, но, кажется, все в порядке... Я бегу by_user = df.groupby('User') И трассировка стека: by_user = df.groupby('User') File "c:Anacondalibsite-packagespandascoregeneric.py", line 2773, in groupby sort=sort, group_keys=group_keys ...

Близлежащие значения столбца таблицы данных в Python

У меня есть фрейм данных с некоторыми столбцами, скажем' n 'столбцов и некоторые строки, скажем' m ' строк. Я хочу сгруппировать строки фрейма данных в зависимости от одного столбца(столбец:'x') значения, это не точное совпадение значений столбца 'x'. Мне нужно сгруппировать близлежащие ценности. Например, мой фрейм данных будет выглядеть так: y yh x xw w Nxt 0 2987 3129 347 2092 1735.0 501 1 2715 2847 501 1725 1224.0 492 2 2419 2716 490 2196 17 ...

Заполнение NaN в фрейме данных на основе значений столбца

У меня есть данные, которые напоминают следующий упрощенный пример: Col1 Col2 Col3 a A 10.1 b A NaN d B NaN e B 12.3 f B NaN g C 14.1 h C NaN i C NaN ...на многие тысячи рядов. Мне нужно заполнить LNA, основываясь на значении в Col2, используя что-то аналогичное методу ffill. Результат, который я ищу, таков: Col1 Col2 Col3 a A 10.1 b A 10.1 d B ...

Чтение списка списков из столбца файла excel и сохранение его в списке python

Я знаю, что некоторые части этого вопроса могут быть простыми, но я новичок в этом и действительно оценил бы самое простое возможное решение: у меня есть excel (.xlsx файл), где один из его столбцов имеет свои ячейки, каждая из которых имеет список списков чисел (с числами, разделенными пробелом, и даже есть пробел в конце каждого списка). Итак, колонка выглядит примерно так: ColumnHeader [[[9 9 9 9 9 13 ][11 11 11 11 11 11 ][11 11 11 11 11 11 ][9 9 9 9 9 9 ] [[[9 9 9 9 9 9 ][9 9 9 9 9 9 ] ...

Python Pandas: удаление записей на основе количества вхождений

Я пытаюсь удалить записи из фрейма данных, которые встречаются менее 100 раз. Фрейм данных data выглядит следующим образом: pid tag 1 23 1 45 1 62 2 24 2 45 3 34 3 25 3 62 Теперь я подсчитываю количество вхождений тегов следующим образом: bytag = data.groupby('tag').aggregate(np.count_nonzero) Но тогда я не могу понять, как удалить те записи, которые имеют низкое количество... ...