Версия 0.10.1 (22 января 2013)#

Это минорный релиз от 0.10.0 и включает новые функции, улучшения и исправления ошибок. В частности, представлена существенно новая функциональность HDFStore, внесённая Jeff Reback.

Нежелательный разрыв API с функциями, принимающими inplace опция была отменена и добавлены предупреждения об устаревании.

Изменения API#

Функции, принимающие inplace опция возвращает вызывающий объект как раньше. Добавлено сообщение об устаревании
Агрегации Groupby Max/Min больше не исключают нечисловые данные (Josh Friedlander +)
Ресемплинг пустого DataFrame теперь возвращает пустой DataFrame вместо вызова исключения (GH 2640)
Читатель файлов теперь будет вызывать исключение, когда значения NA найдены в явно указанном целочисленном столбце, вместо преобразования столбца в float (GH 2631)
DatetimeIndex.unique теперь возвращает DatetimeIndex с тем же именем и
часовой пояс вместо массива (GH 2563)

Новые возможности#

Поддержка MySQL для базы данных (вклад от Dan Allan)

HDFStore#

Возможно, вам потребуется обновить существующие файлы данных. Посетите совместимость раздел в основной документации.

Вы можете указать (и индексировать) определенные столбцы, по которым хотите выполнять запросы к таблице, передав список в data_columns

In [1]: store = pd.HDFStore("store.h5")

In [2]: df = pd.DataFrame(
   ...:     np.random.randn(8, 3),
   ...:     index=pd.date_range("1/1/2000", periods=8),
   ...:     columns=["A", "B", "C"],
   ...: )
   ...: 

In [3]: df["string"] = "foo"

In [4]: df.loc[df.index[4:6], "string"] = np.nan

In [5]: df.loc[df.index[7:9], "string"] = "bar"

In [6]: df["string2"] = "cool"

In [7]: df
Out[7]: 
                   A         B         C string string2
2000-01-01  0.469112 -0.282863 -1.509059    foo    cool
2000-01-02 -1.135632  1.212112 -0.173215    foo    cool
2000-01-03  0.119209 -1.044236 -0.861849    foo    cool
2000-01-04 -2.104569 -0.494929  1.071804    foo    cool
2000-01-05  0.721555 -0.706771 -1.039575    NaN    cool
2000-01-06  0.271860 -0.424972  0.567020    NaN    cool
2000-01-07  0.276232 -1.087401 -0.673690    foo    cool
2000-01-08  0.113648 -1.478427  0.524988    bar    cool

# on-disk operations
In [8]: store.append("df", df, data_columns=["B", "C", "string", "string2"])

In [9]: store.select("df", "B>0 and string=='foo'")
Out[9]: 
                   A         B         C string string2
2000-01-02 -1.135632  1.212112 -0.173215    foo    cool

# this is in-memory version of this type of selection
In [10]: df[(df.B > 0) & (df.string == "foo")]
Out[10]: 
                   A         B         C string string2
2000-01-02 -1.135632  1.212112 -0.173215    foo    cool

Получение уникальных значений в индексируемом или столбце данных.

# note that this is deprecated as of 0.14.0
# can be replicated by: store.select_column('df','index').unique()
store.unique("df", "index")
store.unique("df", "string")

Теперь вы можете хранить datetime64 в столбцах данных

In [11]: df_mixed = df.copy()

In [12]: df_mixed["datetime64"] = pd.Timestamp("20010102")

In [13]: df_mixed.loc[df_mixed.index[3:4], ["A", "B"]] = np.nan

In [14]: store.append("df_mixed", df_mixed)

In [15]: df_mixed1 = store.select("df_mixed")

In [16]: df_mixed1
Out[16]: 
                   A         B  ...  string2                    datetime64
2000-01-01  0.469112 -0.282863  ...     cool 1970-01-01 00:00:00.978393600
2000-01-02 -1.135632  1.212112  ...     cool 1970-01-01 00:00:00.978393600
2000-01-03  0.119209 -1.044236  ...     cool 1970-01-01 00:00:00.978393600
2000-01-04       NaN       NaN  ...     cool 1970-01-01 00:00:00.978393600
2000-01-05  0.721555 -0.706771  ...     cool 1970-01-01 00:00:00.978393600
2000-01-06  0.271860 -0.424972  ...     cool 1970-01-01 00:00:00.978393600
2000-01-07  0.276232 -1.087401  ...     cool 1970-01-01 00:00:00.978393600
2000-01-08  0.113648 -1.478427  ...     cool 1970-01-01 00:00:00.978393600

[8 rows x 6 columns]

In [17]: df_mixed1.dtypes.value_counts()
Out[17]: 
float64           3
object            2
datetime64[ns]    1
Name: count, dtype: int64

Вы можете передать columns ключевое слово для выбора фильтрации списка возвращаемых столбцов, это эквивалентно передаче Term('columns',list_of_columns_to_filter)

In [18]: store.select("df", columns=["A", "B"])
Out[18]: 
                   A         B
2000-01-01  0.469112 -0.282863
2000-01-02 -1.135632  1.212112
2000-01-03  0.119209 -1.044236
2000-01-04 -2.104569 -0.494929
2000-01-05  0.721555 -0.706771
2000-01-06  0.271860 -0.424972
2000-01-07  0.276232 -1.087401
2000-01-08  0.113648 -1.478427

HDFStore теперь сериализует MultiIndex датафреймы при добавлении таблиц.

In [19]: index = pd.MultiIndex(levels=[['foo', 'bar', 'baz', 'qux'],
   ....:                               ['one', 'two', 'three']],
   ....:                       labels=[[0, 0, 0, 1, 1, 2, 2, 3, 3, 3],
   ....:                               [0, 1, 2, 0, 1, 1, 2, 0, 1, 2]],
   ....:                       names=['foo', 'bar'])
   ....:

In [20]: df = pd.DataFrame(np.random.randn(10, 3), index=index,
   ....:                   columns=['A', 'B', 'C'])
   ....:

In [21]: df
Out[21]:
                  A         B         C
foo bar
foo one   -0.116619  0.295575 -1.047704
    two    1.640556  1.905836  2.772115
    three  0.088787 -1.144197 -0.633372
bar one    0.925372 -0.006438 -0.820408
    two   -0.600874 -1.039266  0.824758
baz two   -0.824095 -0.337730 -0.927764
    three -0.840123  0.248505 -0.109250
qux one    0.431977 -0.460710  0.336505
    two   -3.207595 -1.535854  0.409769
    three -0.673145 -0.741113 -0.110891

In [22]: store.append('mi', df)

In [23]: store.select('mi')
Out[23]:
                  A         B         C
foo bar
foo one   -0.116619  0.295575 -1.047704
    two    1.640556  1.905836  2.772115
    three  0.088787 -1.144197 -0.633372
bar one    0.925372 -0.006438 -0.820408
    two   -0.600874 -1.039266  0.824758
baz two   -0.824095 -0.337730 -0.927764
    three -0.840123  0.248505 -0.109250
qux one    0.431977 -0.460710  0.336505
    two   -3.207595 -1.535854  0.409769
    three -0.673145 -0.741113 -0.110891

# the levels are automatically included as data columns
In [24]: store.select('mi', "foo='bar'")
Out[24]:
                A         B         C
foo bar
bar one  0.925372 -0.006438 -0.820408
    two -0.600874 -1.039266  0.824758

Создание нескольких таблиц через append_to_multiple и выбор через select_as_multiple может создавать/выбирать из нескольких таблиц и возвращать объединенный результат, используя where на таблице селектора.

In [19]: df_mt = pd.DataFrame(
   ....:     np.random.randn(8, 6),
   ....:     index=pd.date_range("1/1/2000", periods=8),
   ....:     columns=["A", "B", "C", "D", "E", "F"],
   ....: )
   ....: 

In [20]: df_mt["foo"] = "bar"

# you can also create the tables individually
In [21]: store.append_to_multiple(
   ....:     {"df1_mt": ["A", "B"], "df2_mt": None}, df_mt, selector="df1_mt"
   ....: )
   ....: 

In [22]: store
Out[22]: 

File path: store.h5

# individual tables were created
In [23]: store.select("df1_mt")
Out[23]: 
                   A         B
2000-01-01  0.404705  0.577046
2000-01-02 -1.344312  0.844885
2000-01-03  0.357021 -0.674600
2000-01-04  0.276662 -0.472035
2000-01-05  0.895717  0.805244
2000-01-06 -1.170299 -0.226169
2000-01-07 -0.076467 -1.187678
2000-01-08  1.024180  0.569605

In [24]: store.select("df2_mt")
Out[24]: 
                   C         D         E         F  foo
2000-01-01 -1.715002 -1.039268 -0.370647 -1.157892  bar
2000-01-02  1.075770 -0.109050  1.643563 -1.469388  bar
2000-01-03 -1.776904 -0.968914 -1.294524  0.413738  bar
2000-01-04 -0.013960 -0.362543 -0.006154 -0.923061  bar
2000-01-05 -1.206412  2.565646  1.431256  1.340309  bar
2000-01-06  0.410835  0.813850  0.132003 -0.827317  bar
2000-01-07  1.130127 -1.436737 -1.413681  1.607920  bar
2000-01-08  0.875906 -2.211372  0.974466 -2.006747  bar

# as a multiple
In [25]: store.select_as_multiple(
   ....:     ["df1_mt", "df2_mt"], where=["A>0", "B>0"], selector="df1_mt"
   ....: )
   ....: 
Out[25]: 
                   A         B         C         D         E         F  foo
2000-01-01  0.404705  0.577046 -1.715002 -1.039268 -0.370647 -1.157892  bar
2000-01-05  0.895717  0.805244 -1.206412  2.565646  1.431256  1.340309  bar
2000-01-08  1.024180  0.569605  0.875906 -2.211372  0.974466 -2.006747  bar

Улучшения

HDFStore теперь может читать таблицы в родном формате PyTables table format
Вы можете передать nan_rep = 'my_nan_rep' для добавления, чтобы изменить представление nan по умолчанию на диске (которое преобразуется в/из np.nan), по умолчанию это nan.
Вы можете передать index to append. По умолчанию это True. Это автоматически создаст индексы на индексируемые объекты и столбцы данных таблицы
Вы можете передать chunksize=an integer to append, чтобы изменить параметр записи chunksize (по умолчанию 50000). Это значительно снизит использование памяти при записи.
Вы можете передать expectedrows=an integer к первому append, чтобы установить ОБЩЕЕ количество ожидаемых строк, которое PyTables будет ожидаться. Это оптимизирует производительность чтения/записи.
Select теперь поддерживает передачу start и stop для предоставления ограничения пространства выбора в выборе.
Значительно улучшен парсинг дат ISO8601 (например, гггг-мм-дд) для парсеров файлов (GH 2698)
Разрешить DataFrame.merge для обработки комбинаторных размеров, слишком больших для 64-битного целого числа (GH 2690)
Series теперь имеет унарные операторы отрицания (-series) и инверсии (~series) (GH 2686)
DataFrame.plot теперь включает logx параметр для изменения оси X на логарифмическую шкалу (GH 2327)
Арифметические операторы Series теперь могут обрабатывать константы и входные данные ndarray (GH 2574)
ExcelFile теперь принимает kind аргумент для указания типа файла (GH 2613)
Более быстрая реализация для методов Series.str (GH 2602)

Исправления ошибок

HDFStore таблицы теперь могут хранить float32 типы корректно (не могут быть смешаны с float64 однако)
Исправлен префикс Google Analytics при указании сегмента запроса (GH 2713).
Функция для сброса хранилища токенов Google Analytics, чтобы пользователи могли восстановиться после неправильно настроенных клиентских секретов (GH 2687).
Исправлена ошибка groupby, приводящая к segfault при передаче MultiIndex (GH 2706)
Исправлена ошибка, при передаче Series со значениями datetime64 в to_datetime приводит к ложным выходным значениям (GH 2699)
Исправлена ошибка в pattern in HDFStore выражения, когда шаблон не является допустимым регулярным выражением (GH 2694)
Исправлены проблемы производительности при агрегации булевых данных (GH 2692)
При задании булевой маски ключа и Series новых значений, Series __setitem__ теперь будет выравнивать входящие значения с исходной Series (GH 2686)
Исправлена MemoryError, вызванная выполнением сортировки подсчетом при сортировке уровней MultiIndex с очень большим количеством комбинаторных значений (GH 2684)
Исправлена ошибка, вызывающая сбой построения графиков, когда индекс является DatetimeIndex с часовым поясом фиксированного смещения (GH 2683)
Исправлена логика вычитания рабочих дней, когда смещение составляет более 5 рабочих дней и начальная дата приходится на выходные (GH 2680)
Исправлено поведение парсера C-файлов, когда в файле больше столбцов, чем данных (GH 2668)
Исправлена ошибка чтения файла, которая неправильно выравнивала столбцы с данными при наличии неявного столбца и указанного usecols значение
DataFrames с числовыми или datetime индексами теперь сортируются перед построением графиков (GH 2609)
Исправлена ошибка DataFrame.from_records при передаче columns, index, но пустых записей (GH 2633)
Исправлено несколько ошибок для операций с Series, когда dtype равен datetime64 (GH 2689, GH 2629, GH 2626)

См. полные заметки о выпуске или трекер задач на GitHub для полного списка.

Участники#

Всего 17 человек внесли патчи в этот релиз. Люди со знаком "+" рядом с именами внесли патч впервые.

Энди Хейден +
Anton I. Sipos +
Chang She
Кристофер Уилан
Damien Garaud +
Dan Allan +
Dieter Vandenbussche
Garrett Drapala +
Jay Parlar +
Thouis (Ray) Jones +
Vincent Arel-Bundock +
Wes McKinney
elpres
herrfz +
jreback
svaksha +
y-p