Версия 0.13#
Версия 0.13.1#
23 февраля 2013
Выпуск 0.13.1 исправляет только некоторые ошибки и не добавляет новой функциональности.
Журнал изменений#
Исправлена ошибка тестирования, вызванная функцией
cross_validation.train_test_splitинтерпретируется как тест Yaroslav Halchenko.Исправлена ошибка в перераспределении маленьких кластеров в
cluster.MiniBatchKMeansby Гаэль Варокво.Исправлено значение по умолчанию для
gammaвdecomposition.KernelPCAby Lars Buitinck.Обновлен joblib до
0.7.0dby Гаэль Варокво.Исправленное масштабирование девиантности в
ensemble.GradientBoostingClassifierby Peter Prettenhofer.Улучшенное разрешение ничьих в
multiclass.OneVsOneClassifierby Андреас Мюллер.Другие небольшие улучшения тестов и документации.
Люди#
Список участников выпуска 0.13.1 по количеству коммитов.
5 Роберт Марчман
2 Hrishikesh Huilgolkar
1 Бастиан ван ден Берг
1 Диего Молья
1 Rafael Cunha de Almeida
1 Rolando Espinoza La fuente
Версия 0.13#
21 января 2013
Новые классы оценщиков#
dummy.DummyClassifierиdummy.DummyRegressor, два независимых от данных предиктора от Мати́ Блондель. Полезно для проверки ваших оценщиков. См. Фиктивные оценки в руководстве пользователя. Поддержка многомерного вывода добавлена Arnaud Joly.decomposition.FactorAnalysis, трансформер, реализующий классический факторный анализ, с помощью Кристиан Осендорфер и Александр Грамфор. См. Факторный анализ в руководстве пользователя.feature_extraction.FeatureHasher, трансформер, реализующий «хэширующий трюк» для быстрого извлечения признаков с низким потреблением памяти из строковых полей с помощью Lars Buitinck иfeature_extraction.text.HashingVectorizerдля текстовых документов с помощью Оливье Гризель См. Хеширование признаков и Векторизация большого текстового корпуса с помощью хеширования для документации и примеров использования.pipeline.FeatureUnion, трансформер, который объединяет результаты нескольких других трансформеров путем Андреас Мюллер. См. FeatureUnion: составные пространства признаков в руководстве пользователя.random_projection.GaussianRandomProjection,random_projection.SparseRandomProjectionи функцияrandom_projection.johnson_lindenstrauss_min_dim. Первые два являются преобразователями, реализующими матрицу проекции Гаусса и разреженную случайную проекцию от Оливье Гризель и Arnaud Joly. См. Случайная проекция в руководстве пользователя.kernel_approximation.Nystroem, трансформер для аппроксимации произвольных ядер с помощью Андреас Мюллер. См. Метод Нистрёма для аппроксимации ядра в руководстве пользователя.preprocessing.OneHotEncoder, трансформер, который вычисляет бинарные кодировки категориальных признаков с помощью Андреас Мюллер. См. Кодирование категориальных признаков в руководстве пользователя.linear_model.PassiveAggressiveClassifierиlinear_model.PassiveAggressiveRegressor, предикторы, реализующие эффективную стохастическую оптимизацию для линейных моделей с помощью Роб Зинков и Мати́ Блондель. См. Пассивно-агрессивные алгоритмы в руководстве пользователя.ensemble.RandomTreesEmbedding, трансформер для создания высокоразмерных разреженных представлений с использованием ансамблей полностью случайных деревьев от Андреас Мюллер. См. Полностью случайные деревья вложения в руководстве пользователя.manifold.SpectralEmbeddingи функцияmanifold.spectral_embedding, реализующий преобразование 'собственных отображений лапласиана' для нелинейного снижения размерности Вэй Ли. См. Спектральное вложение в руководстве пользователя.isotonic.IsotonicRegressionby Fabian Pedregosa, Александр Грамфор и Нель Варокво,
Журнал изменений#
metrics.zero_one_loss(ранееmetrics.zero_one) теперь имеет опцию нормализованного вывода, который сообщает долю неправильных классификаций, а не их количество. Автор: Кайл Бошамп.tree.DecisionTreeClassifierи все производные ансамблевые модели теперь поддерживают взвешивание выборок, с помощью Noel Dawe и Gilles Louppe.Ускорение при использовании бутстрап-выборок в лесах рандомизированных деревьев, благодаря Peter Prettenhofer и Gilles Louppe.
Графики частичной зависимости для Градиентный бустинг деревьев в
ensemble.partial_dependence.partial_dependenceby Peter Prettenhofer. См. Графики частичной зависимости и индивидуального условного ожидания для примера.Оглавление на веб-сайте теперь стало раскрываемым благодаря Jaques Grobler.
feature_selection.SelectPercentileтеперь разрешает связи детерминированно вместо возврата всех одинаково ранжированных признаков.feature_selection.SelectKBestиfeature_selection.SelectPercentileболее численно устойчивы, поскольку используют оценки, а не p-значения, для ранжирования результатов. Это означает, что они могут иногда выбирать другие признаки, чем раньше.Ридж-регрессия и ридж-классификация с обучением
sparse_cgsolver больше не имеет квадратичной сложности по памяти, благодаря Lars Buitinck и Fabian Pedregosa.Ридж-регрессия и ридж-классификация теперь поддерживают новый быстрый решатель под названием
lsqr, от Мати́ Блондель.Ускорение
metrics.precision_recall_curveот Conrad Lee.Добавлена поддержка чтения/записи файлов svmlight с атрибутом парных предпочтений (qid в формате файла svmlight) в
datasets.dump_svmlight_fileиdatasets.load_svmlight_fileby Fabian Pedregosa.Быстрее и более устойчивый
metrics.confusion_matrixи Оценка производительности кластеризации от Wei Li.cross_validation.cross_val_scoreтеперь работает с предвычисленными ядрами и матрицами сходства, путем Андреас Мюллер.использует внутренний Гаэль Варокво.
Более быстрая реализация
metrics.precision_recall_curveот Conrad Lee.Новое ядро
metrics.chi2_kernelby Андреас Мюллер, часто используется в приложениях компьютерного зрения.Исправление давней ошибки в
naive_bayes.BernoulliNBисправлено Shaun Jackman.Реализовано
predict_probaвmulticlass.OneVsRestClassifier, от Эндрю Винтермана.Улучшение согласованности в градиентном бустинге: оценщики
ensemble.GradientBoostingRegressorиensemble.GradientBoostingClassifierиспользуйте оценщикtree.DecisionTreeRegressorвместоtree._tree.Treeструктуру данных с помощью Arnaud Joly.Исправлено исключение с плавающей запятой в деревья решений модуль, от Seberg.
Исправление
metrics.roc_curveне работает, когда y_true имеет только один класс, от Wei Li.Добавьте
metrics.mean_absolute_errorфункция, которая вычисляет среднюю абсолютную ошибку.metrics.mean_squared_error,metrics.mean_absolute_errorиmetrics.r2_scoreметрики поддерживают многомерный вывод с помощью Arnaud Joly.Исправлено
class_weightподдержка вsvm.LinearSVCиlinear_model.LogisticRegressionby Андреас Мюллер. Значение параметраclass_weightбыл обратён, поскольку ошибочно более высокий вес означал меньше положительных примеров данного класса в более ранних версиях.Улучшение повествовательной документации и согласованности в
sklearn.metricsдля метрик регрессии и классификации по Arnaud Joly.Исправлена ошибка в
sklearn.svm.SVCпри использовании csr-матриц с несортированными индексами от Xinfan Meng и Андреас Мюллер.cluster.MiniBatchKMeans: Добавить случайное перераспределение центров кластеров с небольшим количеством прикрепленных к ним наблюдений, с помощью Гаэль Варокво.
Сводка изменений API#
Переименованы все вхождения
n_atomston_componentsдля согласованности. Это применяется кdecomposition.DictionaryLearning,decomposition.MiniBatchDictionaryLearning,decomposition.dict_learning,decomposition.dict_learning_online.Переименованы все вхождения
max_iterstomax_iterдля согласованности. Это применяется кsemi_supervised.LabelPropagationиsemi_supervised.label_propagation.LabelSpreading.Переименованы все вхождения
learn_ratetolearning_rateдля единообразия вensemble.BaseGradientBoostingиensemble.GradientBoostingRegressor.Модуль
sklearn.linear_model.sparseудалён. Поддержка разреженных матриц уже интегрирована в «обычные» линейные модели.sklearn.metrics.mean_square_error, который некорректно возвращал накопленную ошибку, был удалён. Используйтеmetrics.mean_squared_errorвместо этого.Передача
class_weightпараметры дляfitметоды больше не поддерживаются. Передавайте их в конструкторы оценщиков вместо этого.GMM больше не имеют
decodeиrvsметоды. Используйтеscore,predictилиsampleметоды вместо этого.The
solverопция fit в регрессии и классификации Ridge теперь устарела и будет удалена в v0.14. Используйте вместо этого опцию конструктора.feature_extraction.text.DictVectorizerтеперь возвращает разреженные матрицы в формате CSR вместо COO.Переименовано
kвcross_validation.KFoldиcross_validation.StratifiedKFoldton_folds, переименованn_bootstrapston_iterвcross_validation.Bootstrap.Переименованы все вхождения
n_iterationston_iterдля согласованности. Это применяется кcross_validation.ShuffleSplit,cross_validation.StratifiedShuffleSplit,utils.extmath.randomized_range_finderиutils.extmath.randomized_svd.Заменен
rhoвlinear_model.ElasticNetиlinear_model.SGDClassifierbyl1_ratio.rhoпараметр имел разные значения;l1_ratioбыл введён, чтобы избежать путаницы. Он имеет то же значение, что и ранееrhoвlinear_model.ElasticNetи(1-rho)вlinear_model.SGDClassifier.linear_model.LassoLarsиlinear_model.Larsтеперь хранит список путей в случае нескольких целей, а не массив путей.Атрибут
gmmofhmm.GMMHMMбыл переименован вgmm_для более строгого соответствия API.cluster.spectral_embeddingбыл перемещен вmanifold.spectral_embedding.Переименовано
eig_tolвmanifold.spectral_embedding,cluster.SpectralClusteringtoeigen_tol, переименованmodetoeigen_solver.Переименовано
modeвmanifold.spectral_embeddingиcluster.SpectralClusteringtoeigen_solver.classes_иn_classes_атрибутыtree.DecisionTreeClassifierи все производные ансамблевые модели теперь плоские в случае задач с одним выходом и вложенные в случае задач с несколькими выходами.The
estimators_атрибутensemble.GradientBoostingRegressorиensemble.GradientBoostingClassifierтеперь является массивомtree.DecisionTreeRegressor.Переименовано
chunk_sizetobatch_sizeвdecomposition.MiniBatchDictionaryLearningиdecomposition.MiniBatchSparsePCAдля согласованности.svm.SVCиsvm.NuSVCтеперь предоставляютclasses_атрибут и поддерживать произвольные типы данных для метокy. Кроме того, тип данных, возвращаемыйpredictтеперь отражает dtypeyво времяfit(ранее былоnp.float).Изменен test_size по умолчанию в
cross_validation.train_test_splitв None, добавлена возможность выводитьtest_sizeизtrain_sizeвcross_validation.ShuffleSplitиcross_validation.StratifiedShuffleSplit.Переименованная функция
sklearn.metrics.zero_onetosklearn.metrics.zero_one_loss. Учтите, что поведение по умолчанию вsklearn.metrics.zero_one_lossявляется многоклассовым набором данных кардиотокограмм плода, где классы представляют собой паттерны частоты сердечных сокращений плода (FHR), закодированные метками от 1 до 10. Здесь мы устанавливаем класс 3 (класс меньшинства) для представления выбросов. Он содержит 30 числовых признаков, некоторые из которых закодированы бинарно, а некоторые являются непрерывными.sklearn.metrics.zero_one:normalize=Falseизменено наnormalize=True.Переименованная функция
metrics.zero_one_scoretometrics.accuracy_score.datasets.make_circlesтеперь имеет одинаковое количество внутренних и внешних точек.В наивных байесовских классификаторах,
class_priorпараметр был перемещен изfitto__init__.
Люди#
Список контрибьюторов для релиза 0.13 по количеству коммитов.
364 Андреас Мюллер
143 Arnaud Joly
131 Гаэль Варокво
117 Мати́ Блондель
108 Lars Buitinck
106 Wei Li
101 Оливье Гризель
65 Vlad Niculae
30 Роб Зинков
19 Aymeric Masurelle
18 Эндрю Винтерман
17 Nelle Varoquaux
14 Daniel Nouri
13 syhw
10 Corey Lynch
10 Кайл Бошамп
9 Brian Cheung
9 Immanuel Bayer
9 мистер Шу
8 Conrad Lee
7 Tadej Janež
6 Брайан Кахес
6 Michael
6 Noel Dawe
6 Tiago Nunes
6 корова
5 Анзе
5 Shiqiao Du
4 Christian Jauvin
4 Жак Квам
4 Ричард Т. Гай
3 Alexandre Abraham
3 Doug Coleman
3 Scott Dickerson
2 ApproximateIdentity
2 John Benediktsson
2 Марк Веронда
2 Matti Lyra
2 Михаил Коробов
2 Xinfan Meng
1 Alejandro Weinstein
1 Christoph Deil
1 Евгений Нижибицкий
1 Кеннет К. Арнольд
1 Luis Pedro Coelho
1 Miroslav Batchkarov
1 Pavel
1 Себастьян Берг
1 Шон Джекман
1 Subhodeep Moitra
1 bob
1 dengemann
1 emanuele
1 x006