pandas- все статьи тега ➜ страница 6


Переименовать один заголовок столбца в панды фрейма данных

у меня есть фрейм данных под названием data. Как бы я переименовал только один заголовок столбца? Например gdp до log(gdp)? data = y gdp cap 0 1 2 5 1 2 3 9 2 8 7 2 3 3 4 7 4 6 7 7 5 4 8 3 6 8 2 8 7 9 9 10 8 6 6 4 9 10 10 7 ...

панды: как разделить текст в столбце на несколько строк?

Я работаю с большим csv-файлом, и в предпоследнем столбце есть строка текста, которую я хочу разделить определенным разделителем. Мне было интересно, есть ли простой способ сделать это с помощью панд или питона? CustNum CustomerName ItemQty Item Seatblocks ItemExt 32363 McCartney, Paul 3 F04 2:218:10:4,6 60 31316 Lennon, John 25 F01 1:13:36:1,12 1:13:37:1,13 300 Я хочу разделить на пробел(' ') а потом двоеточие(':') ...

Извлечение только месяца и года из столбца Pandas Datetime (Python)

у меня есть фрейм данных, df, со следующим столбцом: df['ArrivalDate'] = ... 936 2012-12-31 938 2012-12-29 965 2012-12-31 966 2012-12-31 967 2012-12-31 968 2012-12-31 969 2012-12-31 970 2012-12-29 971 2012-12-31 972 2012-12-29 973 2012-12-29 ... элементы столбца-панды.tslib.Отметка времени. Я хочу просто указать год и месяц. Я думал, что будет простой способ сделать это, но я не могу понять это. вот что я пробовал: df['ArrivalDate'].resample('M', how = 'mean') я по ...

Как разделить столбец на два столбца?

у меня есть фрейм данных с одним столбцом, и я хотел бы разделить его на два столбца, с одним заголовком столбца как'fips' и другие 'row' мой фрейм данных df выглядит так: row 0 00000 UNITED STATES 1 01000 ALABAMA 2 01001 Autauga County, AL 3 01003 Baldwin County, AL 4 01005 Barbour County, AL Я не знаю, как использовать df.row.str[:] для достижения моей цели разделения ячейки строки. Я могу использовать df['fips'] = hello, чтобы добавить новый столбец и заполнить ег ...

группировка строк в списке в pandas groupby

у меня есть фрейм данных панды, как: A 1 A 2 B 5 B 5 B 4 C 6 Я хочу сгруппировать по первому столбцу и получить второй столбец в виде списков в строках: A [1,2] B [5,5,4] C [6] можно ли сделать что-то подобное с помощью pandas groupby? ...

Python pandas dataframe: получение количества столбцов

как программно получить количество столбцов в кадре данных pandas? Я надеялся на что-то вроде: df.num_columns ...

Разделить (взорвать) запись строки фрейма данных pandas на отдельные строки

у меня есть pandas dataframe в котором один столбец текстовых строк содержит значения, разделенные запятыми. Я хочу разделить каждое поле CSV и создать новую строку для каждой записи (предположим, что CSV чист и должен быть разделен только на','). Например, a должны стать b: In [7]: a Out[7]: var1 var2 0 a,b,c 1 1 d,e,f 2 In [8]: b Out[8]: var1 var2 0 a 1 1 b 1 2 c 1 3 d 2 4 e 2 5 f 2 до сих пор я пробовал различные простые функци ...

Как перебирать столбцы фрейма данных pandas для запуска регрессии

Я уверен, что это просто, но как полный новичок в python, у меня возникли проблемы с выяснением, как перебирать переменные в pandas dataframe и запустить регрессию с каждым. вот что я делаю: all_data = {} for ticker in ['FIUIX', 'FSAIX', 'FSAVX', 'FSTMX']: all_data[ticker] = web.get_data_yahoo(ticker, '1/1/2010', '1/1/2015') prices = DataFrame({tic: data['Adj Close'] for tic, data in all_data.iteritems()}) returns = prices.pct_change() Я знаю, что могу запустить регрессию следующим об ...

Как отобразить панд DataFrame поплавков с помощью строки формата для столбцов?

Я хотел бы отобразить панд dataframe с заданным форматом с помощью print() и IPython display(). Например: df = pd.DataFrame([123.4567, 234.5678, 345.6789, 456.7890], index=['foo','bar','baz','quux'], columns=['cost']) print df cost foo 123.4567 bar 234.5678 baz 345.6789 quux 456.7890 Я хотел бы как-то принудить это к печати cost foo 3.46 bar 4.57 baz 5.68 quux 6.79 без необходимости изменять сами данные или создавать копи ...

Превратите панд мульти-индекс в столбец

у меня есть фрейм данных с 2 уровнями индекса: value Trial measurement 1 0 13 1 3 2 4 2 0 NaN 1 12 3 0 34 который я хочу превратить в это: Trial measurement value 1 0 13 1 1 3 1 2 4 2 0 NaN 2 ...

Применение функции с несколькими аргументами для создания нового столбца pandas

Я хочу создать новый столбец в pandas фрейм данных путем применения функции к двум существующим столбцам. После этого ответа я смог создать новый столбец, когда мне нужен только один столбец в качестве аргумента: import pandas as pd df = pd.DataFrame({"A": [10,20,30], "B": [20, 30, 10]}) def fx(x): return x * x print(df) df['newcolumn'] = df.A.apply(fx) print(df) однако я не могу понять, как сделать то же самое, когда функция требует нескольких аргументов. Например, как создать новый ст ...

Как получить первый столбец фрейма данных pandas в виде серии?

пробовал: x=pandas.DataFrame(...) s = x.take([0], axis=1) и s получает фрейм данных, а не ряд. ...

В чем разница между Серией pandas и Одностолбцовым фреймом данных?

почему панды делают различие между a Series и один столбец DataFrame? Другими словами: в чем причина существования Series класса? Я в основном использую временные ряды с индексом datetime, возможно, это помогает установить контекст. ...

Панды читать в таблице без заголовков

Как я могу читать .csv-файл (без заголовков) И когда я хочу только подмножество столбцов (скажем, 4-й и 7-й из 20 столбцов), используя панды? Я не могу, кажется, быть в состоянии сделать usecols ...

ImportError: нет модуля с именем dateutil.синтаксический анализатор

Я получаю следующую ошибку при импорте pandas на Python - программы monas-mbp:book mona$ sudo pip install python-dateutil Requirement already satisfied (use --upgrade to upgrade): python-dateutil in /System/Library/Frameworks/Python.framework/Versions/2.7/Extras/lib/python Cleaning up... monas-mbp:book mona$ python t1.py No module named dateutil.parser Traceback (most recent call last): File "t1.py", line 4, in <module> import pandas as pd File "/Library/Python/2.7/site-packages/p ...

Переопределение индекса в объекте фрейма данных Pandas

Я пытаюсь переиндексировать панд DataFrame объект, например, From: a b c 0 1 2 3 1 10 11 12 2 20 21 22 To : b c 1 2 3 10 11 12 20 21 22 Я об этом как показано ниже, и я получаю неправильный ответ. Любой подсказки о том, как это сделать? >>> col = ['a','b','c'] >>> data = DataFrame([[1,2,3],[10,11,12],[20,21,22]],columns=col) >>> data a b c 0 1 2 3 1 10 11 1 ...

Как добавить строку заголовка в фрейм данных pandas

Я читаю CSV-файл в pandas. Этот csv-файл состоит из четырех столбцов и некоторых строк, но не имеет строки заголовка, которую я хочу добавить. Я пробовал следующее: Cov = pd.read_csv("path/to/file.txt", sep='t') Frame=pd.DataFrame([Cov], columns = ["Sequence", "Start", "End", "Coverage"]) Frame.to_csv("path/to/file.txt", sep='t') но когда я применяю код, я получаю следующую ошибку: ValueError: Shape of passed values is (1, 1), indices imply (4, 1) что именно означает ошибка? И что было б ...

python pandas: удалите дубликаты по столбцам A, сохраняя строку с самым высоким значением в столбце B

у меня есть фрейм данных с повторяющимися значениями в столбце A. Я хочу удалить дубликаты, сохраняя строку с самым высоким значением в столбце B. значит так: A B 1 10 1 20 2 30 2 40 3 10 должно превратиться в это: A B 1 20 2 40 3 10 Уэс добавил некоторые хорошие функции для удаления дубликатов:http://wesmckinney.com/blog/?p=340. но AFAICT, он предназначен для точных дубликатов, поэтому нет упоминания о критериях выбора, какие строки сохраняются. Я предполагая, что, вероятно, есть прост ...

Случайный выбор строк в кадре данных Pandas

есть ли способ выбрать случайные строки из фрейма данных в панд. в R, используя пакет автомобиля, есть полезная функция some(x, n) который похож на head, но выбирает в этом примере 10 строк случайным образом из x. Я также посмотрел на разделочную документацию, и, похоже, нет ничего эквивалентного. обновление теперь используется версия 20. Существует примерный метод. df.sample(n) ...

панды groupby сортировка внутри групп

Я хочу сгруппировать свой фрейм данных по двум столбцам, а затем отсортировать агрегированные результаты внутри групп. In [167]: df Out[167]: count job source 0 2 sales A 1 4 sales B 2 6 sales C 3 3 sales D 4 7 sales E 5 5 market A 6 3 market B 7 2 market C 8 4 market D 9 1 market E In [168]: df.groupby(['job','source']).agg({'count':sum}) Out[168]: count job source market A 5 B 3 C 2 D ...