Версия 0.9.1 (14 ноября 2012)#

Это выпуск с исправлением ошибок из версии 0.9.0 и включает несколько новых функций и улучшений вместе с большим количеством исправлений ошибок. Новые функции включают сортировку по столбцам для DataFrame и Series, улучшенную обработку NA для метода rank, функции маскирования для DataFrame и внутридневную фильтрацию временных рядов для DataFrame.

Новые возможности#

Series.sort, DataFrame.sort, и DataFrame.sort_index теперь может быть указан для каждого столбца отдельно для поддержки нескольких порядков сортировки (GH 928)
In [2]: df = pd.DataFrame(np.random.randint(0, 2, (6, 3)),
   ...:                   columns=['A', 'B', 'C'])

In [3]: df.sort(['A', 'B'], ascending=[1, 0])

Out[3]:
   A  B  C
3  0  1  1
4  0  1  1
2  0  0  1
0  1  0  0
1  1  0  0
5  1  0  0
DataFrame.rank теперь поддерживает дополнительные значения аргументов для na_option параметр, чтобы пропущенные значения могли получить либо наибольший, либо наименьший ранг (GH 1508, GH 2159)
In [1]: df = pd.DataFrame(np.random.randn(6, 3), columns=['A', 'B', 'C'])

In [2]: df.loc[2:4] = np.nan

In [3]: df.rank()
Out[3]: 
     A    B    C
0  3.0  2.0  1.0
1  1.0  3.0  2.0
2  NaN  NaN  NaN
3  NaN  NaN  NaN
4  NaN  NaN  NaN
5  2.0  1.0  3.0

[6 rows x 3 columns]

In [4]: df.rank(na_option='top')
Out[4]: 
     A    B    C
0  6.0  5.0  4.0
1  4.0  6.0  5.0
2  2.0  2.0  2.0
3  2.0  2.0  2.0
4  2.0  2.0  2.0
5  5.0  4.0  6.0

[6 rows x 3 columns]

In [5]: df.rank(na_option='bottom')
Out[5]: 
     A    B    C
0  3.0  2.0  1.0
1  1.0  3.0  2.0
2  5.0  5.0  5.0
3  5.0  5.0  5.0
4  5.0  5.0  5.0
5  2.0  1.0  3.0

[6 rows x 3 columns]
DataFrame имеет новые where и mask методы для выбора значений в соответствии с заданной булевой маской (GH 2109, GH 2151)
DataFrame в настоящее время поддерживает срезы через логический вектор той же длины, что и DataFrame (внутри []). Возвращённый DataFrame имеет то же количество столбцов, что и исходный, но срезан по его индексу.
In [6]: df = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])

In [7]: df
Out[7]: 
          A         B         C
0  0.276232 -1.087401 -0.673690
1  0.113648 -1.478427  0.524988
2  0.404705  0.577046 -1.715002
3 -1.039268 -0.370647 -1.157892
4 -1.344312  0.844885  1.075770

[5 rows x 3 columns]

In [8]: df[df['A'] > 0]
Out[8]: 
          A         B         C
0  0.276232 -1.087401 -0.673690
1  0.113648 -1.478427  0.524988
2  0.404705  0.577046 -1.715002

[3 rows x 3 columns]
Если DataFrame срезается с помощью булевого условия на основе DataFrame (того же размера, что и исходный DataFrame), то возвращается DataFrame того же размера (индекс и столбцы), что и исходный, с элементами, которые не удовлетворяют булевому условию, как NaN. Это достигается с помощью нового метода DataFrame.where. Кроме того, where принимает необязательный other аргумент для замены.
In [9]: df[df > 0]
Out[9]: 
          A         B         C
0  0.276232       NaN       NaN
1  0.113648       NaN  0.524988
2  0.404705  0.577046       NaN
3       NaN       NaN       NaN
4       NaN  0.844885  1.075770

[5 rows x 3 columns]

In [10]: df.where(df > 0)
Out[10]: 
          A         B         C
0  0.276232       NaN       NaN
1  0.113648       NaN  0.524988
2  0.404705  0.577046       NaN
3       NaN       NaN       NaN
4       NaN  0.844885  1.075770

[5 rows x 3 columns]

In [11]: df.where(df > 0, -df)
Out[11]: 
          A         B         C
0  0.276232  1.087401  0.673690
1  0.113648  1.478427  0.524988
2  0.404705  0.577046  1.715002
3  1.039268  0.370647  1.157892
4  1.344312  0.844885  1.075770

[5 rows x 3 columns]
Кроме того, where теперь выравнивает входное булево условие (ndarray или DataFrame), так что частичный выбор с установкой возможен. Это аналогично частичной установке через .ix (но по содержимому, а не по меткам осей)
In [12]: df2 = df.copy()

In [13]: df2[df2[1:4] > 0] = 3

In [14]: df2
Out[14]: 
          A         B         C
0  0.276232 -1.087401 -0.673690
1  3.000000 -1.478427  3.000000
2  3.000000  3.000000 -1.715002
3 -1.039268 -0.370647 -1.157892
4 -1.344312  0.844885  1.075770

[5 rows x 3 columns]
DataFrame.mask является обратной булевой операцией для where.
In [15]: df.mask(df <= 0)
Out[15]: 
          A         B         C
0  0.276232       NaN       NaN
1  0.113648       NaN  0.524988
2  0.404705  0.577046       NaN
3       NaN       NaN       NaN
4       NaN  0.844885  1.075770

[5 rows x 3 columns]
Включить ссылки на столбцы Excel по их именам (GH 1936)
In [1]: xl = pd.ExcelFile('data/test.xls')

In [2]: xl.parse('Sheet1', index_col=0, parse_dates=True,
                 parse_cols='A:D')
Добавлена опция отключения локаторов и форматировщиков меток в стиле pandas с использованием series.plot(x_compat=True) или pandas.plot_params['x_compat'] = True (GH 2205)

Существующие методы TimeSeries at_time и between_time были добавлены в DataFrame (GH 2149)

DataFrame.dot теперь может принимать ndarrays (GH 2042)

DataFrame.drop теперь поддерживает неуникальные индексы (GH 2101)

Panel.shift теперь поддерживает отрицательные периоды (GH 2164)

DataFrame теперь поддерживает унарный оператор ~ (GH 2110)

Изменения API#

Повышение частоты данных с PeriodIndex приведет к TimeSeries с более высокой частотой, которая охватывает исходное временное окно
In [1]: prng = pd.period_range('2012Q1', periods=2, freq='Q')

In [2]: s = pd.Series(np.random.randn(len(prng)), prng)

In [4]: s.resample('M')
Out[4]:
2012-01   -1.471992
2012-02         NaN
2012-03         NaN
2012-04   -0.493593
2012-05         NaN
2012-06         NaN
Freq: M, dtype: float64
Period.end_time теперь возвращает последнюю наносекунду во временном интервале (GH 2124, GH 2125, GH 1764)
In [16]: p = pd.Period('2012')

In [17]: p.end_time
Out[17]: Timestamp('2012-12-31 23:59:59.999999999')
Парсеры файлов больше не приводят к float или bool для столбцов, для которых указаны пользовательские преобразователи (GH 2184)
In [18]: import io

In [19]: data = ('A,B,C\n'
   ....:         '00001,001,5\n'
   ....:         '00002,002,6')
   ....: 

In [20]: pd.read_csv(io.StringIO(data), converters={'A': lambda x: x.strip()})
Out[20]: 
       A  B  C
0  00001  1  5
1  00002  2  6

[2 rows x 3 columns]

См. полные заметки о выпуске или трекер задач на GitHub для полного списка.

Участники#

Всего 11 человек внесли патчи в этот релиз. Люди со знаком "+" рядом с именами внесли патч впервые.

Brenda Moon +
Chang She
Jeff Reback +
Justin C Johnson +
K.-Michael Aye
Martin Blais
Tobias Brandt +
Wes McKinney
Wouter Overmeire
timmie
y-p