pandas- все статьи тега ➜ страница 2


Питон панды - построение многомерной сводной таблицы, чтобы отобразить количество Нанс и non-Нанс

У меня есть набор данных, основанный на различных метеостанциях для нескольких переменных (температура, давление и т. д.), stationID | Time | Temperature | Pressure |... ----------+------+-------------+----------+ 123 | 1 | 30 | 1010.5 | 123 | 2 | 31 | 1009.0 | 202 | 1 | 24 | NaN | 202 | 2 | 24.3 | NaN | 202 | 3 | NaN | 1000.3 | ... И я хотел бы создать сводную таблицу, которая показывал ...

Добавление столбцов pandas в разреженную матрицу

У меня есть дополнительные производные значения для переменных X, которые я хочу использовать в своей модели. XAll = pd_data[['title','wordcount','sumscores','length']] y = pd_data['sentiment'] X_train, X_test, y_train, y_test = train_test_split(XAll, y, random_state=1) Поскольку я работаю с текстовыми данными в заголовке, я сначала преобразую их в dtm отдельно: vect = CountVectorizer(max_df=0.5) vect.fit(X_train['title']) X_train_dtm = vect.transform(X_train['title']) column_index = X_tra ...

Панды: создайте новый столбец со случайными значениями, основанными на условных значениях.

Я пробовал читать подобные вопросы, прежде чем задавать, но я все еще в тупике. Любая помощь истощается. Входные данные: У меня есть фрейм данных pandas со столбцом с надписью " радон ", который имеет значения в диапазоне: [0.5, 13.65] Вывод: Я хотел бы создать новый столбец, в котором все значения радона, которые = 0.5, изменяются на случайное значение между 0.1 и 0.5 Я попробовал это: df['radon_adj'] = np.where(df['radon']==0.5, random.uniform(0, 0.5), df.radon) Однако я получаю одн ...

python pandas дата время преобразование в дату

Я ищу, чтобы преобразовать datetime в дату для a pandas datetime серия. Я перечислил код ниже: df = pd.DataFrame() df = pandas.io.parsers.read_csv("TestData.csv", low_memory=False) df['PUDATE'] = pd.Series([pd.to_datetime(date) for date in df['DATE_TIME']]) df['PUDATE2'] = datetime.datetime.date(df['PUDATE']) #Does not work Может ли кто-нибудь направить меня в правильном направлении? ...

Python pandas groupby ключевая ошибка в пандах.коллекция Hashtable.PyObjectHashTable.получить товар

Я делаю то, что кажется простой группой в Пандах. Колонка-это колонка строк без НАН или странных строк. Тем не менее, я продолжаю получать ниже ошибку. Кто-нибудь знает, почему это может произойти? Я чувствую, что это может иметь какое-то отношение к моим данным, но, кажется, все в порядке... Я бегу by_user = df.groupby('User') И трассировка стека: by_user = df.groupby('User') File "c:Anacondalibsite-packagespandascoregeneric.py", line 2773, in groupby sort=sort, group_keys=group_keys ...

Близлежащие значения столбца таблицы данных в Python

У меня есть фрейм данных с некоторыми столбцами, скажем' n 'столбцов и некоторые строки, скажем' m ' строк. Я хочу сгруппировать строки фрейма данных в зависимости от одного столбца(столбец:'x') значения, это не точное совпадение значений столбца 'x'. Мне нужно сгруппировать близлежащие ценности. Например, мой фрейм данных будет выглядеть так: y yh x xw w Nxt 0 2987 3129 347 2092 1735.0 501 1 2715 2847 501 1725 1224.0 492 2 2419 2716 490 2196 17 ...

Заполнение NaN в фрейме данных на основе значений столбца

У меня есть данные, которые напоминают следующий упрощенный пример: Col1 Col2 Col3 a A 10.1 b A NaN d B NaN e B 12.3 f B NaN g C 14.1 h C NaN i C NaN ...на многие тысячи рядов. Мне нужно заполнить LNA, основываясь на значении в Col2, используя что-то аналогичное методу ffill. Результат, который я ищу, таков: Col1 Col2 Col3 a A 10.1 b A 10.1 d B ...

Чтение списка списков из столбца файла excel и сохранение его в списке python

Я знаю, что некоторые части этого вопроса могут быть простыми, но я новичок в этом и действительно оценил бы самое простое возможное решение: у меня есть excel (.xlsx файл), где один из его столбцов имеет свои ячейки, каждая из которых имеет список списков чисел (с числами, разделенными пробелом, и даже есть пробел в конце каждого списка). Итак, колонка выглядит примерно так: ColumnHeader [[[9 9 9 9 9 13 ][11 11 11 11 11 11 ][11 11 11 11 11 11 ][9 9 9 9 9 9 ] [[[9 9 9 9 9 9 ][9 9 9 9 9 9 ] ...

Python Pandas: удаление записей на основе количества вхождений

Я пытаюсь удалить записи из фрейма данных, которые встречаются менее 100 раз. Фрейм данных data выглядит следующим образом: pid tag 1 23 1 45 1 62 2 24 2 45 3 34 3 25 3 62 Теперь я подсчитываю количество вхождений тегов следующим образом: bytag = data.groupby('tag').aggregate(np.count_nonzero) Но тогда я не могу понять, как удалить те записи, которые имеют низкое количество... ...

Объединение полигонов в Python, GeoPandas или shapely (в единую геометрию)

Я пытаюсь найти объединение двух полигонов в Геопандах и вывести единую геометрию, которая включает точки из обоих полигонов в качестве своих вершин. Функция geopandas.overlay дает мне полигоны для каждого отдельного объединения, но я хотел бы иметь один полигон. Для контекста я использую это, чтобы объединить две административные области вместе в одну область (т. е. включить городской округ в пределах страны). Следующий пример взят с веб-сайта geopandas и иллюстрирует, что Я бы хотел: ...

Как ускорить применение метода с лямбда в пандах с датами времени

Я новичок в пандах. У меня есть очень простой фрейм данных с именем dlf с индексом и двумя столбцами с 40K-строкой. Он загружается следующим образом: d = pd.DataFrame.from_csv(csvsLocation + 'name.csv', index_col='ID', infer_datetime_format=True) d['LAST'] = pd.to_datetime(d['LAST'], format = '%d-%b-%y') d['FIRST'] = pd.to_datetime(d['FIRST'], format = '%d-%b-%y') dlf = d[['LAST', 'FIRST']] Это выглядит примерно так: LAST FIRST ID 1 1997-04-17 1991-10-04 3 2009-02-13 19 ...

Pandas / Python: установка значения одного столбца на основе значения в другом столбце

Мне нужно установить значение одного столбца на основе значения другого в фрейме данных Pandas. Это логика: if df['c1'] == 'Value': df['c2'] = 10 else: df['c2'] = df['c3'] Я не могу заставить это сделать то, что я хочу, а именно просто создать столбец с новыми значениями (или изменить значение существующего столбца: любой из них работает для меня). Если я попытаюсь выполнить приведенный выше код или напишу его как функцию и использую метод apply, то получу следующее: ValueError: T ...

Python: создание ковариационной матрицы из списков

Есть ли самый быстрый способ перейти от следующих трех списков к ковариационной матрице в Python (массив numpy)? Fac2 Fac1 VarCovar a a 1.4 a b 0.7 a c 0.3 b a 0.7 b b 1.8 b c 6.3 c a 0.3 c b 6.3 c c 2.4 ...

Как конвертировать Pandas Dataframe в нужный формат Json

start = datetime.datetime(2013, 1, 1) end = datetime.datetime(2013, 01, 27) f=web.get_data_yahoo('AAPL',start, end) f['Adj Close'].to_json(date_format='iso',orient='split') Приведенный выше код дает следующий результат: Out[85]: '{"name":"Adj Close","index":["2013-01-02T00:00:00","2013-01-03T00:00:0 0","2013-01-04T00:00:00","2013-01-07T00:00:00","2013-01-08T00:00:00","2013-01-09 T00:00:00","2013-01-10T00:00:00","2013-01-11T00:00:00","2013-01-14T00:00:00","20 13-01-15T00:00:00","2013-01-16T00 ...

Сумма вдоль столбца панды, обусловленная значением Мультииндекса?

У меня есть следующий фрейм данных Pandas df: Value time Position 1493791210867023000 0.0 21156.0 1.0 1230225.0 2.0 1628088.0 3.0 2582359.0 4.0 3388164.0 1493791210880251000 0.0 21156.0 1.0 1230225.0 2.0 1628088.0 3.0 258235 ...

Разбить столбцы на мультииндекс с отсутствующими столбцами в панд

Это похоже на задачу, которую я задал здесь. Однако я обнаружил, что данные, с которыми я работаю, не всегда согласуются. Например, скажем: import pandas as pd df = pd.DataFrame(pd.DataFrame([[1,2,3,4],[5,6,7,8],[9,10,11,12]],columns=["X_a","Y_c","X_b","Y_a"])) X_a Y_c X_b Y_a 0 1 2 3 4 1 5 6 7 8 2 9 10 11 12 Теперь вы можете видеть, что X не имеет соответствующего столбца c и Y не имеет соответствующего столбца b. Теперь, когда я хочу создать многоу ...

Создание нового столбца фрейма данных на основе правил в Python Pandas

У меня есть CSV-файл, и я пытаюсь решить свою проблему с пандами. Я решил ее с помощью чистого питона, но я не могу сделать это с пандами. Мой CSV-файл содержит 5 столбцов. Я хочу создать новый, используя данные одного из других. Содержание столбца [0,1,2,3,4,5]. Итак, основываясь на значении, я хочу сделать следующее: if value == 0: cost_new_column = 0 elif value == 1: cost_new_column = 1000 elif value == 2: cost_new_column = 2500 ... Сделать это в чистом Python, используя for и i ...

Python чтение в тиковых данных панд

У меня есть некоторые данные, которые выглядят так: Symbol Timestamp bid ask 0 EUR/USD 20140101 21:55:34.378 1.37622 1.37693 1 EUR/USD 20140101 21:55:40.410 1.37624 1.37698 2 EUR/USD 20140101 21:55:47.210 1.37619 1.37696 3 EUR/USD 20140101 21:55:57.963 1.37616 1.37696 4 EUR/USD 20140101 21:56:03.117 1.37616 1.37694 Я пытаюсь преобразовать его в панду, но застрял на микросекундной части....ниже то, что я есть, что у меня есть до сих пор... Считы ...

Как Вы читаете в фрейме данных со списками, используя pd.читать буфер обмена?

Вот некоторые данные из другого вопроса: positive negative neutral 1 [marvel, moral, bold, destiny] [] [view, should] 2 [beautiful] [complicated, need] [] 3 [celebrate] [crippling, addiction] [big] Что бы я сделал сначала, это добавил кавычки через все слова, а затем: import ast df = pd.read_clipboard(sep='s{2,}') df = df.applymap(ast.lite ...

Проверьте, находится ли строка в фрейме данных pandas

Я хотел бы посмотреть, существует ли определенная строка в определенном столбце В моем фрейме данных. Я получаю ошибку ValueError: значение истинности ряда неоднозначно. Использовать.пустые, а.типа bool(), а.пункт(), а.любой() или.все(). import pandas as pd BabyDataSet = [('Bob', 968), ('Jessica', 155), ('Mary', 77), ('John', 578), ('Mel', 973)] a = pd.DataFrame(data=BabyDataSet, columns=['Names', 'Births']) if a['Names'].str.contains('Mel'): print "Mel is there" ...