Версия 0.9.1 (14 ноября 2012)#

Это выпуск с исправлением ошибок из версии 0.9.0 и включает несколько новых функций и улучшений вместе с большим количеством исправлений ошибок. Новые функции включают сортировку по столбцам для DataFrame и Series, улучшенную обработку NA для метода rank, функции маскирования для DataFrame и внутридневную фильтрацию временных рядов для DataFrame.

Новые возможности#

  • Series.sort, DataFrame.sort, и DataFrame.sort_index теперь может быть указан для каждого столбца отдельно для поддержки нескольких порядков сортировки (GH 928)

    In [2]: df = pd.DataFrame(np.random.randint(0, 2, (6, 3)),
       ...:                   columns=['A', 'B', 'C'])
    
    In [3]: df.sort(['A', 'B'], ascending=[1, 0])
    
    Out[3]:
       A  B  C
    3  0  1  1
    4  0  1  1
    2  0  0  1
    0  1  0  0
    1  1  0  0
    5  1  0  0
    
  • DataFrame.rank теперь поддерживает дополнительные значения аргументов для na_option параметр, чтобы пропущенные значения могли получить либо наибольший, либо наименьший ранг (GH 1508, GH 2159)

    In [1]: df = pd.DataFrame(np.random.randn(6, 3), columns=['A', 'B', 'C'])
    
    In [2]: df.loc[2:4] = np.nan
    
    In [3]: df.rank()
    Out[3]: 
         A    B    C
    0  3.0  2.0  1.0
    1  1.0  3.0  2.0
    2  NaN  NaN  NaN
    3  NaN  NaN  NaN
    4  NaN  NaN  NaN
    5  2.0  1.0  3.0
    
    [6 rows x 3 columns]
    
    In [4]: df.rank(na_option='top')
    Out[4]: 
         A    B    C
    0  6.0  5.0  4.0
    1  4.0  6.0  5.0
    2  2.0  2.0  2.0
    3  2.0  2.0  2.0
    4  2.0  2.0  2.0
    5  5.0  4.0  6.0
    
    [6 rows x 3 columns]
    
    In [5]: df.rank(na_option='bottom')
    Out[5]: 
         A    B    C
    0  3.0  2.0  1.0
    1  1.0  3.0  2.0
    2  5.0  5.0  5.0
    3  5.0  5.0  5.0
    4  5.0  5.0  5.0
    5  2.0  1.0  3.0
    
    [6 rows x 3 columns]
    
  • DataFrame имеет новые where и mask методы для выбора значений в соответствии с заданной булевой маской (GH 2109, GH 2151)

    DataFrame в настоящее время поддерживает срезы через логический вектор той же длины, что и DataFrame (внутри []). Возвращённый DataFrame имеет то же количество столбцов, что и исходный, но срезан по его индексу.

    In [6]: df = pd.DataFrame(np.random.randn(5, 3), columns=['A', 'B', 'C'])
    
    In [7]: df
    Out[7]: 
              A         B         C
    0  0.276232 -1.087401 -0.673690
    1  0.113648 -1.478427  0.524988
    2  0.404705  0.577046 -1.715002
    3 -1.039268 -0.370647 -1.157892
    4 -1.344312  0.844885  1.075770
    
    [5 rows x 3 columns]
    
    In [8]: df[df['A'] > 0]
    Out[8]: 
              A         B         C
    0  0.276232 -1.087401 -0.673690
    1  0.113648 -1.478427  0.524988
    2  0.404705  0.577046 -1.715002
    
    [3 rows x 3 columns]
    

    Если DataFrame срезается с помощью булевого условия на основе DataFrame (того же размера, что и исходный DataFrame), то возвращается DataFrame того же размера (индекс и столбцы), что и исходный, с элементами, которые не удовлетворяют булевому условию, как NaN. Это достигается с помощью нового метода DataFrame.where. Кроме того, where принимает необязательный other аргумент для замены.

    In [9]: df[df > 0]
    Out[9]: 
              A         B         C
    0  0.276232       NaN       NaN
    1  0.113648       NaN  0.524988
    2  0.404705  0.577046       NaN
    3       NaN       NaN       NaN
    4       NaN  0.844885  1.075770
    
    [5 rows x 3 columns]
    
    In [10]: df.where(df > 0)
    Out[10]: 
              A         B         C
    0  0.276232       NaN       NaN
    1  0.113648       NaN  0.524988
    2  0.404705  0.577046       NaN
    3       NaN       NaN       NaN
    4       NaN  0.844885  1.075770
    
    [5 rows x 3 columns]
    
    In [11]: df.where(df > 0, -df)
    Out[11]: 
              A         B         C
    0  0.276232  1.087401  0.673690
    1  0.113648  1.478427  0.524988
    2  0.404705  0.577046  1.715002
    3  1.039268  0.370647  1.157892
    4  1.344312  0.844885  1.075770
    
    [5 rows x 3 columns]
    

    Кроме того, where теперь выравнивает входное булево условие (ndarray или DataFrame), так что частичный выбор с установкой возможен. Это аналогично частичной установке через .ix (но по содержимому, а не по меткам осей)

    In [12]: df2 = df.copy()
    
    In [13]: df2[df2[1:4] > 0] = 3
    
    In [14]: df2
    Out[14]: 
              A         B         C
    0  0.276232 -1.087401 -0.673690
    1  3.000000 -1.478427  3.000000
    2  3.000000  3.000000 -1.715002
    3 -1.039268 -0.370647 -1.157892
    4 -1.344312  0.844885  1.075770
    
    [5 rows x 3 columns]
    

    DataFrame.mask является обратной булевой операцией для where.

    In [15]: df.mask(df <= 0)
    Out[15]: 
              A         B         C
    0  0.276232       NaN       NaN
    1  0.113648       NaN  0.524988
    2  0.404705  0.577046       NaN
    3       NaN       NaN       NaN
    4       NaN  0.844885  1.075770
    
    [5 rows x 3 columns]
    
  • Включить ссылки на столбцы Excel по их именам (GH 1936)

    In [1]: xl = pd.ExcelFile('data/test.xls')
    
    In [2]: xl.parse('Sheet1', index_col=0, parse_dates=True,
                     parse_cols='A:D')
    
  • Добавлена опция отключения локаторов и форматировщиков меток в стиле pandas с использованием series.plot(x_compat=True) или pandas.plot_params['x_compat'] = True (GH 2205)

  • Существующие методы TimeSeries at_time и between_time были добавлены в DataFrame (GH 2149)

  • DataFrame.dot теперь может принимать ndarrays (GH 2042)

  • DataFrame.drop теперь поддерживает неуникальные индексы (GH 2101)

  • Panel.shift теперь поддерживает отрицательные периоды (GH 2164)

  • DataFrame теперь поддерживает унарный оператор ~ (GH 2110)

Изменения API#

  • Повышение частоты данных с PeriodIndex приведет к TimeSeries с более высокой частотой, которая охватывает исходное временное окно

    In [1]: prng = pd.period_range('2012Q1', periods=2, freq='Q')
    
    In [2]: s = pd.Series(np.random.randn(len(prng)), prng)
    
    In [4]: s.resample('M')
    Out[4]:
    2012-01   -1.471992
    2012-02         NaN
    2012-03         NaN
    2012-04   -0.493593
    2012-05         NaN
    2012-06         NaN
    Freq: M, dtype: float64
    
  • Period.end_time теперь возвращает последнюю наносекунду во временном интервале (GH 2124, GH 2125, GH 1764)

    In [16]: p = pd.Period('2012')
    
    In [17]: p.end_time
    Out[17]: Timestamp('2012-12-31 23:59:59.999999999')
    
  • Парсеры файлов больше не приводят к float или bool для столбцов, для которых указаны пользовательские преобразователи (GH 2184)

    In [18]: import io
    
    In [19]: data = ('A,B,C\n'
       ....:         '00001,001,5\n'
       ....:         '00002,002,6')
       ....: 
    
    In [20]: pd.read_csv(io.StringIO(data), converters={'A': lambda x: x.strip()})
    Out[20]: 
           A  B  C
    0  00001  1  5
    1  00002  2  6
    
    [2 rows x 3 columns]
    

См. полные заметки о выпуске или трекер задач на GitHub для полного списка.

Участники#

Всего 11 человек внесли патчи в этот релиз. Люди со знаком "+" рядом с именами внесли патч впервые.

  • Brenda Moon +

  • Chang She

  • Jeff Reback +

  • Justin C Johnson +

  • K.-Michael Aye

  • Martin Blais

  • Tobias Brandt +

  • Wes McKinney

  • Wouter Overmeire

  • timmie

  • y-p