Версия 0.22#

Для краткого описания основных особенностей выпуска, пожалуйста, обратитесь к Основные нововведения в выпуске scikit-learn 0.22.

Легенда для списков изменений

Основная функция что-то большое, что вы не могли сделать раньше.
Функция что-то, что вы не могли делать раньше.
Эффективность существующий признак теперь может не требовать столько вычислений или памяти.
Улучшение различные мелкие улучшения.
Исправление то, что ранее не работало, как задокументировано – или согласно разумным ожиданиям – теперь должно работать.
Изменение API вам потребуется изменить свой код, чтобы добиться того же эффекта в будущем; или функция будет удалена в будущем.

Версия 0.22.2.post1#

3 марта 2020

Выпуск 0.22.2.post1 включает исправление упаковки для исходного дистрибутива, но содержимое пакетов в остальном идентично содержимому колес с версией 0.22.2 (без суффикса .post1). Оба содержат следующие изменения.

Журнал изменений#

`sklearn.impute`#

Эффективность Reduce impute.KNNImputer асимптотическое использование памяти за счёт разбиения попарного вычисления расстояний на блоки. #16397 by Joel Nothman.

`sklearn.metrics`#

Исправление Исправлена ошибка в metrics.plot_roc_curve где имя оценщика было передано в metrics.RocCurveDisplay вместо параметра name1.12.1.4. metrics.RocCurveDisplay.plot для последующих разов. #16500 by Guillaume Lemaitre.
Исправление Исправлена ошибка в metrics.plot_precision_recall_curve где имя оценщика было передано в metrics.PrecisionRecallDisplay вместо параметра name. Это приводит к другому графику при вызове metrics.PrecisionRecallDisplay.plot для последующих разов. #16505 by Guillaume Lemaitre.

`sklearn.neighbors`#

Исправление Исправлена ошибка, которая преобразовывала список массивов в двумерный объектный массив вместо одномерного массива, содержащего массивы NumPy. Эта ошибка затрагивала neighbors.NearestNeighbors.radius_neighbors. #16076 by Guillaume Lemaitre и Алекс Шакед.

Версия 0.22.1#

2 января 2020

Это выпуск с исправлением ошибок, предназначенный в первую очередь для решения некоторых проблем с упаковкой в версии 0.22.0. Также включает незначительные улучшения документации и некоторые исправления ошибок.

Журнал изменений#

`sklearn.cluster`#

Исправление cluster.KMeans с algorithm="elkan" теперь использует тот же критерий остановки, что и по умолчанию algorithm="full". #15930 by @inder128.

`sklearn.inspection`#

Исправление inspection.permutation_importance вернет то же самое importances когда random_state приведено для обоих n_jobs=1 или n_jobs>1 как с общими бэкендами памяти (потокобезопасность), так и с изолированными процессными бэкендами памяти. Также избегайте приведения данных к типу object и ошибок только для чтения на больших датафреймах с n_jobs>1 как сообщалось в #15810. Продолжение #15898 by Шивам Гаргсья. #15933 by Guillaume Lemaitre и Оливье Гризель.
Исправление inspection.plot_partial_dependence и inspection.PartialDependenceDisplay.plot теперь последовательно проверяет количество переданных осей. #15760 by Томас Фан.

`sklearn.metrics`#

Исправление metrics.plot_confusion_matrix теперь вызывает ошибку, когда normalize недействителен. Ранее он работал нормально без нормализации. #15888 by Hanmin Qin.
Исправление metrics.plot_confusion_matrix теперь правильно окрашивает цвет метки для максимизации контраста с её фоном. #15936 by Томас Фан и @DizietAsahi.
Исправление metrics.classification_report больше не игнорирует значение zero_division аргумент ключевого слова. #15879 by Bibhash Chandra Mitra.
Исправление Исправлена ошибка в metrics.plot_confusion_matrix для корректной передачи values_format параметр для metrics.ConfusionMatrixDisplay вызов plot(). #15937 by Stephen Blystone.

`sklearn.model_selection`#

Исправление model_selection.GridSearchCV и model_selection.RandomizedSearchCV принимает скалярные значения, предоставленные в fit_params. Изменение в версии 0.22 нарушило обратную совместимость. #15863 by Адрин Джалали и Guillaume Lemaitre.

`sklearn.naive_bayes`#

Исправление Удалено abstractmethod декоратор для метода _check_X в naive_bayes.BaseNB что может нарушить зависимые проекты, наследующие от этого устаревшего публичного базового класса. #15996 by Бригитта Сипёч.

`sklearn.preprocessing`#

Исправление preprocessing.QuantileTransformer теперь гарантирует quantiles_ атрибут должен быть полностью отсортирован в неубывающем порядке. #15751 by Tirth Patel.

`sklearn.semi_supervised`#

Исправление semi_supervised.LabelPropagation и semi_supervised.LabelSpreading теперь позволяют вызываемой функции ядра возвращать разреженную матрицу весов. #15868 by Niklas Smedemark-Margulies.

`sklearn.utils`#

Исправление utils.check_array теперь корректно преобразует pandas DataFrame с булевыми столбцами во float. #15797 by Томас Фан.
Исправление utils.validation.check_is_fitted принимает обратно явный attributes аргумент для проверки конкретных атрибутов как явных маркеров обученного оценщика. Когда нет явного attributes предоставлены, только атрибуты, которые заканчиваются подчеркиванием и не начинаются с двойного подчеркивания, используются как маркеры "обученности". all_or_any аргумент также больше не является устаревшим. Это изменение сделано для восстановления некоторой обратной совместимости с поведением этой утилиты в версии 0.21. #15947 by Томас Фан.

Версия 0.22.0#

3 декабря 2019

Обновление веб-сайта#

Наш веб-сайт был переработан и получил новый современный вид. #14849 by Томас Фан.

Четкое определение публичного API#

Scikit-learn имеет публичный API и приватный API.

Мы стараемся не нарушать публичный API и вводить только обратно совместимые изменения, не требующие действий пользователя. Однако в случаях, когда это невозможно, любое изменение публичного API подлежит циклу устаревания в две минорные версии. Приватный API не документируется публично и не подлежит какому-либо циклу устаревания, поэтому пользователям не следует полагаться на его стабильность.

Функция или объект являются публичными, если они задокументированы в Справочник API и если его можно импортировать с путем импорта без ведущих подчеркиваний. Например sklearn.pipeline.make_pipeline является публичным, в то время как sklearn.pipeline._name_estimators является приватным. sklearn.ensemble._gb.BaseEnsemble также является приватным, потому что весь _gb модуль является приватным.

До версии 0.22 некоторые инструменты были де-факто публичными (без ведущего подчёркивания), хотя они должны были быть приватными изначально. В версии 0.22 эти инструменты стали правильно приватными, и публичное API было очищено. Кроме того, импорт из большинства подмодулей теперь устарел: вы должны, например, использовать from sklearn.cluster import Birch вместо from sklearn.cluster.birch import Birch (на практике, birch.py был перемещен в _birch.py).

Примечание

Все инструменты в публичном API должны быть задокументированы в Справочник API. Если вы найдёте публичный инструмент (без ведущего подчёркивания), которого нет в справочнике API, это означает, что он должен быть либо приватным, либо задокументированным. Пожалуйста, сообщите нам, открыв issue!

Эта работа отслеживалась в issue 9250 и issue 12927.

Устаревания: использование `FutureWarning` отныне#

При устаревании функции предыдущие версии scikit-learn обычно вызывали DeprecationWarning. Поскольку DeprecationWarnings не отображаются по умолчанию в Python, scikit-learn пришлось прибегнуть к пользовательскому фильтру предупреждений, чтобы всегда показывать предупреждения. Этот фильтр иногда мог конфликтовать с пользовательскими фильтрами предупреждений.

Начиная с версии 0.22, scikit-learn будет показывать FutureWarnings для устареваний, как рекомендуется документацией Python. FutureWarnings всегда отображаются по умолчанию в Python, поэтому пользовательский фильтр был удалён, и scikit-learn больше не мешает пользовательским фильтрам. #15080 by Nicolas Hug.

Измененные модели#

Следующие оценщики и функции, при обучении на тех же данных и параметрах, могут создавать модели, отличные от предыдущей версии. Это часто происходит из-за изменений в логике моделирования (исправления ошибок или улучшения) или в процедурах случайной выборки.

cluster.KMeans когда n_jobs=1. Исправление
decomposition.SparseCoder, decomposition.DictionaryLearning, и decomposition.MiniBatchDictionaryLearning Исправление
decomposition.SparseCoder с algorithm='lasso_lars' Исправление
decomposition.SparsePCA где normalize_components не имеет эффекта из-за устаревания.
ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor Исправление , Функция , Улучшение .
impute.IterativeImputer когда X имеет признаки без пропущенных значений. Функция
linear_model.Ridge когда X является разреженной. Исправление
model_selection.StratifiedKFold и любое использование cv=int с классификатором. Исправление
cross_decomposition.CCA при использовании scipy >= 1.3 Исправление

Подробности перечислены в журнале изменений ниже.

(Хотя мы стараемся лучше информировать пользователей, предоставляя эту информацию, мы не можем гарантировать, что этот список полный.)

Журнал изменений#

`sklearn.base`#

Изменение API Начиная с версии 0.24 base.BaseEstimator.get_params вызовет AttributeError, а не вернет None для параметров, которые находятся в конструкторе оценщика, но не хранятся как атрибуты экземпляра. #14464 by Joel Nothman.

`sklearn.calibration`#

Исправление Исправлена ошибка, из-за которой calibration.CalibratedClassifierCV не удается при заданном sample_weight параметр типа list (в случае, когда sample_weights не поддерживаются обёрнутым оценщиком). #13575 by William de Vazelhes.

`sklearn.cluster`#

Функция cluster.SpectralClustering теперь принимает предварительно вычисленный разреженный граф соседей в качестве входных данных. #10482 by Tom Dupre la Tour и Kumar Ashutosh.
Улучшение cluster.SpectralClustering теперь принимает n_components параметр. Этот параметр расширяет SpectralClustering функциональность класса для соответствия cluster.spectral_clustering. #13726 by Shuzhe Xiao.
Исправление Исправлена ошибка, где cluster.KMeans давал противоречивые результаты между n_jobs=1 и n_jobs>1 из-за обработки случайного состояния. #9288 by Bryan Yang.
Исправление Исправлена ошибка, где elkan алгоритм в cluster.KMeans вызывал ошибку сегментации на больших массивах из-за переполнения целочисленного индекса. #15057 by Владимир Королёв.
Исправление MeanShift теперь принимает max_iter со значением по умолчанию 300 вместо постоянного использования значения по умолчанию 300. Теперь также предоставляет n_iter_ указывает максимальное количество итераций, выполненных для каждого начального значения. #15120 by Адрин Джалали.
Исправление cluster.AgglomerativeClustering и cluster.FeatureAgglomeration теперь вызывает ошибку, если affinity='cosine' и X имеет выборки, которые полностью состоят из нулей. #7943 by @mthorrell.

`sklearn.compose`#

Функция Добавляет compose.make_column_selector который используется с compose.ColumnTransformer для выбора столбцов DataFrame на основе имени и типа данных. #12303 by Томас Фан.
Исправление Исправлена ошибка в compose.ColumnTransformer который не смог выбрать правильные столбцы при использовании логического списка с NumPy старше 1.12. #14510 by Guillaume Lemaitre.
Исправление Исправлена ошибка в compose.TransformedTargetRegressor который не прошел **fit_params к базовому регрессору. #14890 by Мигель Кабрера.
Исправление The compose.ColumnTransformer теперь требует, чтобы количество признаков было согласовано между fit и transform. A FutureWarning вызывается сейчас, и это вызовет ошибку в 0.24. Если количество признаков не согласовано и используется отрицательная индексация, возникает ошибка. #14544 by Адрин Джалали.

`sklearn.cross_decomposition`#

Функция cross_decomposition.PLSCanonical и cross_decomposition.PLSRegression имеет новую функцию inverse_transform для преобразования данных в исходное пространство. #15304 by Jaime Ferrando Huertas.
Улучшение decomposition.KernelPCA теперь корректно проверяет собственные значения, найденные решателем, на наличие численных или обусловленных проблем. Это обеспечивает согласованность результатов между решателями (разные выборы для eigen_solver), включая приближенные решатели, такие как 'randomized' и 'lobpcg' (см. #12068). #12145 by Sylvain Marié
Исправление Исправлена ошибка, где cross_decomposition.PLSCanonical и cross_decomposition.PLSRegression вызывали ошибку при обучении с целевой матрицей Y в котором первый столбец был постоянным. #13609 by Камила Уильямсон.
Исправление cross_decomposition.CCA теперь даёт те же результаты с scipy 1.3 и предыдущими версиями scipy. #15661 by Томас Фан.

`sklearn.datasets`#

Функция datasets.fetch_openml теперь поддерживает гетерогенные данные с использованием pandas, установив as_frame=True. #13902 by Томас Фан.
Функция datasets.fetch_openml теперь включает target_names в возвращаемом объекте Bunch. #15160 by Томас Фан.
Улучшение Параметр return_X_y был добавлен в datasets.fetch_20newsgroups и datasets.fetch_olivetti_faces . #14259 by Сурав Сингх.
Улучшение datasets.make_classification теперь принимает array-like weights параметра, т.е. list или numpy.array, вместо только list. #14764 by Cat Chenal.
Улучшение Параметр normalize был добавлен в
datasets.fetch_20newsgroups_vectorized. #14740 by Стефан Тулкенс
Исправление Исправлена ошибка в datasets.fetch_openml, который не смог загрузить набор данных OpenML, содержащий игнорируемый признак. #14623 by Сарра Хабиши.

`sklearn.decomposition`#

Эффективность decomposition.NMF с solver="mu" обученный на разреженных входных матрицах теперь использует пакетную обработку, чтобы избежать кратковременного выделения массива размером (#ненулевых элементов, n_components). #15257 by Mart Willocx.
Улучшение decomposition.dict_learning и decomposition.dict_learning_online теперь принимают method_max_iter и передать его в decomposition.sparse_encode. #12650 by Адрин Джалали.
Улучшение decomposition.SparseCoder, decomposition.DictionaryLearning, и decomposition.MiniBatchDictionaryLearning теперь принимает transform_max_iter параметр и передают его либо decomposition.dict_learning или decomposition.sparse_encode. #12650 by Адрин Джалали.
Улучшение decomposition.IncrementalPCA теперь принимает разреженные матрицы в качестве входных данных, преобразуя их в плотные пакетами, тем самым избегая необходимости хранить всю плотную матрицу целиком. #13960 by Скотт Гиганте.
Исправление decomposition.sparse_encode теперь передает max_iter к базовому linear_model.LassoLars когда algorithm='lasso_lars'. #12650 by Адрин Джалали.

`sklearn.dummy`#

Исправление dummy.DummyClassifier теперь обрабатывает проверку существования предоставленной константы в случаях с несколькими выходами. #14908 by Martina G. Vilas.
Изменение API Значение по умолчанию для strategy параметр в dummy.DummyClassifier изменится с 'stratified' в версии 0.22 до 'prior' в 0.24. FutureWarning выдается при использовании значения по умолчанию. #15382 by Томас Фан.
Изменение API The outputs_2d_ атрибут устарел в dummy.DummyClassifier и dummy.DummyRegressor. Это эквивалентно n_outputs > 1. #14933 by Nicolas Hug

`sklearn.ensemble`#

Основная функция Добавлен ensemble.StackingClassifier и ensemble.StackingRegressor для стекинга предикторов с использованием финального классификатора или регрессора. #11047 by Guillaume Lemaitre и Каиу Оливейра и #15138 by Джон Кьюзик..
Основная функция Было внесено множество улучшений в ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor:
- Функция Оценщики теперь нативно поддерживают плотные данные с пропущенными значениями как для обучения, так и для предсказания. Они также поддерживают бесконечные значения. #13911 и #14406 by Nicolas Hug, Адрин Джалали и Оливье Гризель.
- Функция Оценщики теперь имеют дополнительный warm_start параметр, который включает теплый старт. #14012 by Johann Faouzi.
- Функция inspection.partial_dependence и inspection.plot_partial_dependence теперь поддерживают быстрый метод 'recursion' для обоих оценщиков. #13769 by Nicolas Hug.
- Улучшение для ensemble.HistGradientBoostingClassifier обучающая потеря или оценка теперь отслеживается на стратифицированной по классам подвыборке для сохранения баланса классов исходного обучающего набора. #14194 by Johann Faouzi.
- Улучшение ensemble.HistGradientBoostingRegressor теперь поддерживает функцию потерь 'least_absolute_deviation'. #13896 by Nicolas Hug.
- Исправление Оценщики теперь разделяют обучающие и валидационные данные, чтобы избежать утечки данных. #13933 by Nicolas Hug.
- Исправление Ядро k(X, Y) #14710 by Guillaume Lemaitre.
- Исправление ensemble.HistGradientBoostingClassifier теперь вызывает ошибку если categorical_crossentropy потери приведены для задачи бинарной классификации. #14869 by Адрин Джалали.
Обратите внимание, что pickle из версии 0.21 не будут работать в 0.22.
Улучшение Добавление max_samples аргумент позволяет ограничить размер бутстрап-выборок меньше размера набора данных. Добавлен в ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier, ensemble.ExtraTreesRegressor. #14682 by Matt Hancock и #5963 by Пабло Дубуэ.
Исправление ensemble.VotingClassifier.predict_proba больше не будет присутствовать, когда voting='hard'. #14287 by Томас Фан.
Исправление The named_estimators_ атрибут в ensemble.VotingClassifier и ensemble.VotingRegressor теперь корректно сопоставляется с удалёнными оценщиками. Ранее named_estimators_ отображение было некорректным, когда один из оценщиков был удален. #15375 by Томас Фан.
Исправление Запускается по умолчанию utils.estimator_checks.check_estimator на обоих ensemble.VotingClassifier и ensemble.VotingRegressor. Это приводит к решению проблем, связанных с согласованностью формы во время predict который не работал, когда базовые оценщики не выдавали согласованные размеры массивов. Обратите внимание, что в будущем его следует заменить рефакторингом общих тестов. #14305 by Guillaume Lemaitre.
Исправление ensemble.AdaBoostClassifier вычисляет вероятности на основе функции принятия решений, как в литературе. Таким образом, predict и predict_proba дают согласованные результаты. #14114 by Guillaume Lemaitre.
Исправление Оценщики Stacking и Voting теперь гарантируют, что их базовые оценщики либо все классификаторы, либо все регрессоры. ensemble.StackingClassifier, ensemble.StackingRegressor, и ensemble.VotingClassifier и ensemble.VotingRegressor теперь выдают согласованные сообщения об ошибках. #15084 by Guillaume Lemaitre.
Исправление ensemble.AdaBoostRegressor где потери должны быть нормализованы по максимуму выборок только с ненулевыми весами. #14294 by Guillaume Lemaitre.
Изменение API presort теперь устарел в ensemble.GradientBoostingClassifier и ensemble.GradientBoostingRegressor, и параметр не имеет эффекта. Пользователям рекомендуется использовать ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor вместо этого. #14907 by Адрин Джалали.

`sklearn.feature_extraction`#

Улучшение Теперь будет выдано предупреждение, если выбор параметра означает, что другой параметр не будет использоваться при вызове метода fit() для feature_extraction.text.HashingVectorizer, feature_extraction.text.CountVectorizer и feature_extraction.text.TfidfVectorizer. #14602 by Gaurav Chawla.
Исправление Функции, созданные build_preprocessor и build_analyzer of feature_extraction.text.VectorizerMixin теперь можно сериализовать (pickle). #14430 by Dillon Niederhut.
Исправление feature_extraction.text.strip_accents_unicode теперь правильно удаляет акценты из строк, находящихся в нормализованной форме NFKD. #15100 by Daniel Grady.
Исправление Исправлена ошибка, которая вызывала feature_extraction.DictVectorizer вызвать OverflowError в течение transform операция при создании scipy.sparse матрицу на больших входных данных. #15463 by Norvan Sahiner.
Изменение API Устаревший неиспользуемый copy параметр для feature_extraction.text.TfidfVectorizer.transform он будет удален в v0.24. #14520 by Гильем Г. Субиес.

`sklearn.feature_selection`#

Улучшение Обновлены следующие sklearn.feature_selection оценщикам разрешать значения NaN/Inf в transform и fit: feature_selection.RFE, feature_selection.RFECV, feature_selection.SelectFromModel, и feature_selection.VarianceThreshold. Обратите внимание, что если базовый оценщик селектора признаков не допускает NaN/Inf, то он всё равно выдаст ошибку, но сами селекторы признаков больше не накладывают это ограничение без необходимости. #11635 by Alec Peters.
Исправление Исправлена ошибка, где feature_selection.VarianceThreshold с threshold=0 не удалось удалить постоянные признаки из-за численной нестабильности, используя диапазон вместо дисперсии в данном случае. #13704 by Родди МакСуин.

`sklearn.gaussian_process`#

Функция Гауссовские процессные модели на структурированных данных: gaussian_process.GaussianProcessRegressor и gaussian_process.GaussianProcessClassifier теперь может принимать список общих объектов (например, строки, деревья, графы и т.д.) в качестве X аргумент для их методов обучения/предсказания. Пользовательское ядро должно быть предоставлено для вычисления матрицы ядра среди общих объектов и должно наследоваться от gaussian_process.kernels.GenericKernelMixin чтобы уведомить модель GPR/GPC, что она обрабатывает невекторные образцы. #15557 by Yu-Hang Tang.
Эффективность gaussian_process.GaussianProcessClassifier.log_marginal_likelihood и gaussian_process.GaussianProcessRegressor.log_marginal_likelihood теперь принимает clone_kernel=True аргумент ключевого слова. Когда установлено в False, атрибут ядра изменен, но может привести к улучшению производительности. #14378 by Masashi Shibata.
Изменение API Начиная с версии 0.24 gaussian_process.kernels.Kernel.get_params вызовет AttributeError вместо возврата None для параметров, которые находятся в конструкторе оценщика, но не хранятся как атрибуты экземпляра. #14464 by Joel Nothman.

`sklearn.impute`#

Основная функция Добавлен impute.KNNImputer, для заполнения пропущенных значений с использованием k-ближайших соседей. #12852 by Ашим Бхаттарай и Томас Фан и #15010 by Guillaume Lemaitre.
Функция impute.IterativeImputer имеет новые skip_compute флаг, который по умолчанию False, и при значении True пропускает вычисления для признаков, не имеющих пропущенных значений на этапе обучения. #13773 by Сергей Фельдман.
Эффективность impute.MissingIndicator.fit_transform избегать повторного вычисления маскированной матрицы. #14356 by Harsh Soni.
Исправление impute.IterativeImputer теперь работает, когда есть только один признак. Благодаря Сергей Фельдман.
Исправление Исправлена ошибка в impute.IterativeImputer где признаки были заполнены в обратном желаемом порядке с imputation_order либо "ascending" или "descending". #15393 by Venkatachalam N.

`sklearn.inspection`#

Основная функция inspection.permutation_importance был добавлен для измерения важности каждого признака в произвольной обученной модели относительно заданной функции оценки. #13146 by Томас Фан.
Функция inspection.partial_dependence и inspection.plot_partial_dependence теперь поддерживает быстрый метод 'recursion' для ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor. #13769 by Nicolas Hug.
Улучшение inspection.plot_partial_dependence был расширен для поддержки нового API визуализации, описанного в Руководство пользователя. #14646 by Томас Фан.
Улучшение inspection.partial_dependence принимает pandas DataFrame и pipeline.Pipeline содержащий compose.ColumnTransformer. Кроме того inspection.plot_partial_dependence будет использовать имена столбцов по умолчанию при передаче датафрейма. #14028 и #15429 by Guillaume Lemaitre.

`sklearn.kernel_approximation`#

Исправление Исправлена ошибка, где kernel_approximation.Nystroem вызывал KeyError при использовании kernel="precomputed". #14706 by Venkatachalam N.

`sklearn.linear_model`#

Эффективность Решатель логистической регрессии ‘liblinear’ теперь работает быстрее и требует меньше памяти. #14108, #14170, #14296 by Алекс Хенри.
Улучшение linear_model.BayesianRidge теперь принимает гиперпараметры alpha_init и lambda_init который может использоваться для установки начального значения процедуры максимизации в fit. #13618 by Yoshihiro Uchida.
Исправление linear_model.Ridge теперь правильно подгоняет пересечение, когда X является разреженным, solver="auto" и fit_intercept=True, потому что решатель по умолчанию в этой конфигурации изменился на sparse_cg, который может подогнать свободный член с разреженными данными. #13995 by Жером Докес.
Исправление linear_model.Ridge с solver='sag' теперь принимает F-ordered и несмежные массивы и выполняет преобразование вместо ошибки. #14458 by Guillaume Lemaitre.
Исправление linear_model.LassoCV больше не принуждает precompute=False при обучении финальной модели. #14591 by Андреас Мюллер.
Исправление linear_model.RidgeCV и linear_model.RidgeClassifierCV теперь правильно оценивает, когда cv=None. #14864 by Venkatachalam N.
Исправление Исправлена ошибка в linear_model.LogisticRegressionCV где scores_, n_iter_ и coefs_paths_ атрибут будет иметь неправильный порядок с penalty='elastic-net'. #15044 by Nicolas Hug
Исправление linear_model.MultiTaskLassoCV и linear_model.MultiTaskElasticNetCV с X типа int и fit_intercept=True. #15086 by Алекс Грамфор.
Исправление Решатель liblinear теперь поддерживает sample_weight. #15038 by Guillaume Lemaitre.

`sklearn.manifold`#

Функция manifold.Isomap, manifold.TSNE, и manifold.SpectralEmbedding теперь принимают предварительно вычисленный разреженный граф соседей в качестве входных данных. #10482 by Tom Dupre la Tour и Kumar Ashutosh.
Функция Предоставлен доступ к n_jobs параметр в manifold.TSNE для многопроцессорного расчета графа соседей. Этот параметр не влияет, когда metric="precomputed" или (metric="euclidean" и method="exact"). #15082 by Roman Yurchak.
Эффективность Улучшенная эффективность manifold.TSNE когда method="barnes-hut" путем вычисления градиента параллельно. #13213 by Томас Море
Исправление Исправлена ошибка, где manifold.spectral_embedding (и, следовательно, manifold.SpectralEmbedding и cluster.SpectralClustering) вычислял неправильные собственные значения с eigen_solver='amg' когда n_samples < 5 * n_components. #14647 by Андреас Мюллер.
Исправление Исправлена ошибка в manifold.spectral_embedding используется в manifold.SpectralEmbedding и cluster.SpectralClustering где eigen_solver="amg" иногда приводило к ошибке LinAlgError. #13393 by Andrew Knyazev #13707 by Scott White
Изменение API Устарело training_data_ неиспользуемый атрибут в manifold.Isomap. #10482 by Tom Dupre la Tour.

`sklearn.metrics`#

Основная функция metrics.plot_roc_curve была добавлена для построения ROC-кривых. Эта функция представляет API визуализации, описанный в Руководство пользователя. #14357 by Томас Фан.
Функция Добавлен новый параметр zero_division к нескольким классификационным метрикам: metrics.precision_score, metrics.recall_score, metrics.f1_score, metrics.fbeta_score, metrics.precision_recall_fscore_support, metrics.classification_report. Это позволяет установить возвращаемое значение для некорректно определённых метрик. #14900 by Marc Torrellas Socastro.
Функция Добавлен metrics.pairwise.nan_euclidean_distances метрика, которая вычисляет евклидовы расстояния при наличии пропущенных значений. #12852 by Ашим Бхаттарай и Томас Фан.
Функция Новые метрики ранжирования metrics.ndcg_score и metrics.dcg_score были добавлены для вычисления дисконтированного кумулятивного выигрыша и нормализованного дисконтированного кумулятивного выигрыша. #9951 by Jérôme Dockès.
Функция metrics.plot_precision_recall_curve был добавлен для построения кривых точности-полноты. #14936 by Томас Фан.
Функция metrics.plot_confusion_matrix был добавлен для построения матриц ошибок. #15083 by Томас Фан.
Функция Добавлена поддержка многоклассовой классификации в metrics.roc_auc_score с соответствующими скорерами 'roc_auc_ovr', 'roc_auc_ovo', 'roc_auc_ovr_weighted', и 'roc_auc_ovo_weighted'. #12789 и #15274 by Kathy Chen, Mohamed Maskani, и Томас Фан.
Функция Добавить metrics.mean_tweedie_deviance измерение девианса Твиди для заданного power параметр. Также добавьте среднее отклонение Пуассона metrics.mean_poisson_deviance и среднее отклонение Гаммы metrics.mean_gamma_deviance которые являются частными случаями отклонения Твиди для power=1 и power=2 соответственно. #13938 by Christian Lorentzen и Roman Yurchak.
Эффективность Улучшена производительность metrics.pairwise.manhattan_distances в случае разреженных матриц. #15049 by Paolo Toccaceli .
Улучшение Параметр beta в metrics.fbeta_score обновлен для принятия нуля и float('+inf') значение. #13231 by Dong-hee Na.
Улучшение Добавлен параметр squared в metrics.mean_squared_error для возврата среднеквадратичной ошибки. #13467 by Урванг Пател.
Улучшение Разрешить вычисление усредненных метрик в случае отсутствия истинных положительных результатов. #14595 by Андреас Мюллер.
Улучшение Многометочные метрики теперь поддерживают список списков в качестве входных данных. #14865 Srivatsan Ramesh, Herilalaina Rakotoarison, Léonard Binet.
Улучшение metrics.median_absolute_error теперь поддерживает multioutput параметр. #14732 by Агамемнон Красулис.
Улучшение 'roc_auc_ovr_weighted' и 'roc_auc_ovo_weighted' теперь могут использоваться как оценка параметр инструментов выбора модели. #14417 by Томас Фан.
Улучшение metrics.confusion_matrix принимает параметры normalize позволяя нормализовать матрицу ошибок по столбцам, строкам или в целом. #15625 by Guillaume Lemaitre .
Исправление Вызвать ValueError в metrics.silhouette_score когда предвычисленная матрица расстояний содержит ненулевые диагональные элементы. #12258 by Stephen Tierney.
Изменение API scoring="neg_brier_score" следует использовать вместо scoring="brier_score_loss" который теперь устарел. #14898 by Штефан Матковичи.

`sklearn.model_selection`#

Эффективность Улучшена производительность многометрической оценки в model_selection.cross_validate, model_selection.GridSearchCV, и model_selection.RandomizedSearchCV. #14593 by Томас Фан.
Улучшение model_selection.learning_curve теперь принимает параметр return_times который может использоваться для получения времени вычислений, чтобы построить масштабируемость модели (см. пример learning_curve). #13938 by Hadrien Reboul.
Улучшение model_selection.RandomizedSearchCV теперь принимает списки распределений параметров. #14549 by Андреас Мюллер.
Исправление Перереализован model_selection.StratifiedKFold для исправления проблемы, где один тестовый набор мог быть n_classes больше другого. Тестовые наборы должны теперь быть примерно одинакового размера. #14704 by Joel Nothman.
Исправление The cv_results_ атрибут model_selection.GridSearchCV и model_selection.RandomizedSearchCV теперь содержит только необученные оценщики. Это потенциально экономит много памяти, поскольку состояние оценщиков не сохраняется. ##15096 by Андреас Мюллер.
Изменение API model_selection.KFold и model_selection.StratifiedKFold теперь выдает предупреждение, если random_state установлен, но shuffle равно False. Это вызовет ошибку в версии 0.24.

`sklearn.multioutput`#

Исправление multioutput.MultiOutputClassifier теперь имеет атрибут classes_. #14629 by Агамемнон Красулис.
Исправление multioutput.MultiOutputClassifier теперь имеет predict_proba как свойство и может быть проверено с помощью hasattr. #15488 #15490 by Ребекка Ким

`sklearn.naive_bayes`#

Основная функция Добавлен naive_bayes.CategoricalNB который реализует классификатор Categorical Naive Bayes. #12569 by Тим Бикер и Florian Wilhelm.

`sklearn.neighbors`#

Основная функция Добавлен neighbors.KNeighborsTransformer и neighbors.RadiusNeighborsTransformer, которые преобразуют входной набор данных в разреженный граф соседей. Они обеспечивают более тонкий контроль над вычислениями ближайших соседей и позволяют легко кэшировать конвейер для многократного использования. #10482 by Tom Dupre la Tour.
Функция neighbors.KNeighborsClassifier, neighbors.KNeighborsRegressor, neighbors.RadiusNeighborsClassifier, neighbors.RadiusNeighborsRegressor, и neighbors.LocalOutlierFactor теперь принимают предварительно вычисленный разреженный граф соседей в качестве входных данных. #10482 by Tom Dupre la Tour и Kumar Ashutosh.
Функция neighbors.RadiusNeighborsClassifier теперь поддерживает предсказание вероятностей с использованием predict_proba и поддерживает больше вариантов outlier_label: ‘most_frequent’ или разные outlier_labels для многомерных выходов. #9597 by Вэньбо Чжао.
Эффективность Улучшения эффективности для neighbors.RadiusNeighborsClassifier.predict. #9597 by Вэньбо Чжао.
Исправление neighbors.KNeighborsRegressor теперь выдает ошибку, когда metric='precomputed' и обучение на неквадратных данных. #14336 by Грегори Декстер.

`sklearn.neural_network`#

Функция Добавить max_fun параметр в neural_network.BaseMultilayerPerceptron, neural_network.MLPRegressor, и neural_network.MLPClassifier чтобы обеспечить контроль над максимальным количеством оценок функции, чтобы не соответствовать tol улучшение. #9274 by Daniel Perry.

`sklearn.pipeline`#

Улучшение pipeline.Pipeline теперь поддерживает score_samples если финальный оценщик делает это. #13806 by Анаэль Божон.
Исправление The fit в FeatureUnion теперь принимает fit_params для передачи базовым преобразователям. #15119 by Адрин Джалали.
Изменение API None как трансформер теперь устарел в pipeline.FeatureUnion. Пожалуйста, используйте 'drop' вместо этого. #15053 by Томас Фан.

`sklearn.preprocessing`#

Эффективность preprocessing.PolynomialFeatures теперь работает быстрее, когда входные данные плотные. #13290 by Xavier Dupré.
Улучшение Избегать ненужного копирования данных при обучении препроцессоров preprocessing.StandardScaler, preprocessing.MinMaxScaler, preprocessing.MaxAbsScaler, preprocessing.RobustScaler и preprocessing.QuantileTransformer что приводит к небольшому улучшению производительности. #13987 by Roman Yurchak.
Исправление KernelCenterer теперь выдает ошибку при обучении на неквадратной preprocessing.KernelCenterer #14336 by Грегори Декстер.

`sklearn.model_selection`#

Исправление model_selection.GridSearchCV и model_selection.RandomizedSearchCV теперь поддерживает _pairwise свойство, которое предотвращает ошибку при перекрестной проверке для оценщиков с попарными входами (такими как neighbors.KNeighborsClassifier когда метрика установлено в 'precomputed'). #13925 by Isaac S. Robson и #15524 by Сюнь Тан.

`sklearn.svm`#

Улучшение svm.SVC и svm.NuSVC теперь принимает break_ties параметр. Этот параметр приводит к predict разрешая ничьи в соответствии со значениями уверенности decision_function, если decision_function_shape='ovr', и количество целевых классов > 2. #12557 by Адрин Джалали.
Улучшение Оценщики SVM теперь выбрасывают более конкретную ошибку, когда kernel='precomputed' и обучение на неквадратных данных. #14336 by Грегори Декстер.
Исправление svm.SVC, svm.SVR, svm.NuSVR и svm.OneClassSVM при получении отрицательных или нулевых значений для параметра sample_weight в методе fit(), сгенерировал недопустимую модель. Это поведение происходило только в некоторых пограничных сценариях. Теперь в этих случаях fit() завершится с исключением. #14286 by Алекс Шакед.
Исправление The n_support_ атрибут svm.SVR и svm.OneClassSVM ранее не инициализировался и имел размер 2. Теперь он имеет размер 1 с правильным значением. #15099 by Nicolas Hug.
Исправление исправлена ошибка в BaseLibSVM._sparse_fit где n_SV=0 вызывал ZeroDivisionError. #14894 by Danna Naser.
Исправление Решатель liblinear теперь поддерживает sample_weight. #15038 by Guillaume Lemaitre.

`sklearn.tree`#

Функция Добавляет минимальную обрезку по сложности стоимости, контролируемую ccp_alpha, в tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier, tree.ExtraTreeRegressor, ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier, ensemble.ExtraTreesRegressor, ensemble.GradientBoostingClassifier, и ensemble.GradientBoostingRegressor. #12887 by Томас Фан.
Изменение API presort теперь устарел в tree.DecisionTreeClassifier и tree.DecisionTreeRegressor, и параметр не имеет эффекта. #14907 by Адрин Джалали.
Изменение API The classes_ и n_classes_ атрибуты tree.DecisionTreeRegressor теперь устарели. #15028 by Mei Guan, Nicolas Hug, и Адрин Джалали.

`sklearn.utils`#

Функция check_estimator теперь может генерировать проверки, установив generate_only=True. Ранее выполнение check_estimator остановится при первой неудачной проверке. С generate_only=True, все проверки могут выполняться независимо и сообщать о тех, которые не прошли. Подробнее в Создание собственного оценщика. #14381 by Томас Фан.
Функция Добавлен специфичный для pytest декоратор, parametrize_with_checks, для параметризации проверок оценщика для списка оценщиков. #14381 by Томас Фан.
Функция Новая случайная величина, utils.fixes.loguniform реализует лог-равномерную случайную величину (например, для использования в RandomizedSearchCV). Например, исходы 1, 10 и 100 все равновероятны для loguniform(1, 100). См. #11232 by Скотт Сиверт и Nathaniel Saul, и SciPy PR 10815.
Улучшение utils.safe_indexing (теперь устаревший) принимает axis параметр для индексации массивоподобных объектов по строкам и столбцам. Индексация столбцов может выполняться для массивов NumPy, разреженных матриц SciPy и DataFrame Pandas. Была проведена дополнительная рефакторизация. #14035 и #14475 by Guillaume Lemaitre.
Улучшение utils.extmath.safe_sparse_dot работает между 3D+ ndarray и разреженной матрицей. #14538 by Жереми дю Буаберранже.
Исправление utils.check_array теперь вызывает ошибку вместо приведения NaN к целому числу. #14872 by Roman Yurchak.
Исправление utils.check_array теперь будет правильно определять числовые типы данных в pandas dataframes, исправляя ошибку, где float32 был приведен к более высокому типу данных до float64 без необходимости. #15094 by Андреас Мюллер.
Изменение API Следующие утилиты устарели и теперь являются приватными:
- choose_check_classifiers_labels
- enforce_estimator_tags_y
- mocking.MockDataFrame
- mocking.CheckingClassifier
- optimize.newton_cg
- random.random_choice_csc
- utils.choose_check_classifiers_labels
- utils.enforce_estimator_tags_y
- utils.optimize.newton_cg
- utils.random.random_choice_csc
- utils.safe_indexing
- utils.mocking
- utils.fast_dict
- utils.seq_dataset
- utils.weight_vector
- utils.fixes.parallel_helper (удалено)
- Все из utils.testing за исключением all_estimators который теперь находится в utils.

`sklearn.isotonic`#

Исправление Исправлена ошибка, где isotonic.IsotonicRegression.fit вызванная ошибка когда X.dtype == 'float32' и X.dtype != y.dtype. #14902 by Lucas.

Разное#

Исправление Порт lobpcg из SciPy, которые реализуют некоторые исправления ошибок, но доступны только в версии 1.3+. #13609 и #14971 by Guillaume Lemaitre.
Изменение API Scikit-learn теперь преобразует любую структуру входных данных, реализующую утиный массив, в массив numpy (используя __array__Как итерируемый объект строковых метрик: __array_function__ (см. NEP 18). #14702 by Андреас Мюллер.
Изменение API Заменить ручные проверки на check_is_fitted. Ошибки, возникающие при использовании необученных оценщиков, теперь более единообразны. #13013 by Агамемнон Красулис.

Изменения в проверках оценщика#

Эти изменения в основном затрагивают разработчиков библиотек.

Теперь ожидается, что оценщики будут вызывать NotFittedError if predict или transform вызывается перед fit; ранее AttributeError или ValueError было приемлемо. #13013 от Агамемнон Красулис.
Бинарные классификаторы теперь поддерживаются в проверках оценщиков. Такие классификаторы должны иметь binary_only=True тег оценщика. #13875 by Тревор Стивенс.
Ожидается, что оценщики преобразуют входные данные (X, y, sample_weights) в numpy.ndarray и никогда не вызывать __array_function__ на исходном типе данных, который передается (см. NEP 18). #14702 by Андреас Мюллер.
requires_positive_X тег estimator (для моделей, требующих неотрицательности X) теперь используется utils.estimator_checks.check_estimator чтобы убедиться, что выводится правильное сообщение об ошибке, если X содержит отрицательные значения. #14680 by Алекс Грамфор.
Добавлена проверка, что парные оценки выдают ошибку на неквадратных данных #14336 by Грегори Декстер.
Добавлены два общих теста для многовариантных оценщиков utils.estimator_checks.check_classifier_multioutput и utils.estimator_checks.check_regressor_multioutput. #13392 by Rok Mihevc.
Исправление Добавлен check_transformer_data_not_an_array для проверки, где отсутствуют
Исправление Разрешение тегов оценщиков теперь следует обычному MRO. Раньше их можно было переопределять только один раз. #14884 by Андреас Мюллер.

Участники кода и документации

Благодарим всех, кто внес вклад в поддержку и улучшение проекта с версии 0.21, включая:

Aaron Alphonsus, Abbie Popa, Abdur-Rahmaan Janhangeer, abenbihi, Abhinav Sagar, Abhishek Jana, Abraham K. Lagat, Adam J. Stewart, Aditya Vyas, Adrin Jalali, Agamemnon Krasoulis, Alec Peters, Alessandro Surace, Alexandre de Siqueira, Alexandre Gramfort, alexgoryainov, Alex Henrie, Alex Itkes, alexshacked, Allen Akinkunle, Anaël Beaugnon, Anders Kaseorg, Andrea Maldonado, Andrea Navarrete, Andreas Mueller, Andreas Schuderer, Andrew Nystrom, Angela Ambroz, Anisha Keshavan, Ankit Jha, Antonio Gutierrez, Anuja Kelkar, Archana Alva, arnaudstiegler, arpanchowdhry, ashimb9, Ayomide Bamidele, Baran Buluttekin, barrycg, Bharat Raghunathan, Bill Mill, Biswadip Mandal, blackd0t, Brian G. Barkley, Brian Wignall, Bryan Yang, c56pony, camilaagw, cartman_nabana, catajara, Cat Chenal, Cathy, cgsavard, Charles Vesteghem, Chiara Marmo, Chris Gregory, Christian Lorentzen, Christos Aridas, Dakota Grusak, Daniel Grady, Daniel Perry, Danna Naser, DatenBergwerk, David Dormagen, deeplook, Dillon Niederhut, Dong-hee Na, Dougal J. Sutherland, DrGFreeman, Dylan Cashman, edvardlindelof, Eric Larson, Eric Ndirangu, Eunseop Jeong, Fanny, federicopisanu, Felix Divo, flaviomorelli, FranciDona, Franco M. Luque, Frank Hoang, Frederic Haase, g0g0gadget, Gabriel Altay, Gabriel do Vale Rios, Gael Varoquaux, ganevgv, gdex1, getgaurav2, Gideon Sonoiya, Gordon Chen, gpapadok, Greg Mogavero, Grzegorz Szpak, Guillaume Lemaitre, Guillem García Subies, H4dr1en, hadshirt, Hailey Nguyen, Hanmin Qin, Hannah Bruce Macdonald, Harsh Mahajan, Harsh Soni, Honglu Zhang, Hossein Pourbozorg, Ian Sanders, Ingrid Spielman, J-A16, jaehong park, Jaime Ferrando Huertas, James Hill, James Myatt, Jay, jeremiedbb, Jérémie du Boisberranger, jeromedockes, Jesper Dramsch, Joan Massich, Joanna Zhang, Joel Nothman, Johann Faouzi, Jonathan Rahn, Jon Cusick, Jose Ortiz, Kanika Sabharwal, Katarina Slama, kellycarmody, Kennedy Kang’ethe, Kensuke Arai, Kesshi Jordan, Kevad, Kevin Loftis, Kevin Winata, Kevin Yu-Sheng Li, Kirill Dolmatov, Kirthi Shankar Sivamani, krishna katyal, Lakshmi Krishnan, Lakshya KD, LalliAcqua, lbfin, Leland McInnes, Léonard Binet, Loic Esteve, loopyme, lostcoaster, Louis Huynh, lrjball, Luca Ionescu, Lutz Roeder, MaggieChege, Maithreyi Venkatesh, Maltimore, Maocx, Marc Torrellas, Marie Douriez, Markus, Markus Frey, Martina G. Vilas, Martin Oywa, Martin Thoma, Masashi SHIBATA, Maxwell Aladago, mbillingr, m-clare, Meghann Agarwal, m.fab, Micah Smith, miguelbarao, Miguel Cabrera, Mina Naghshhnejad, Ming Li, motmoti, mschaffenroth, mthorrell, Natasha Borders, nezar-a, Nicolas Hug, Nidhin Pattaniyil, Nikita Titov, Nishan Singh Mann, Nitya Mandyam, norvan, notmatthancock, novaya, nxorable, Oleg Stikhin, Oleksandr Pavlyk, Olivier Grisel, Omar Saleem, Owen Flanagan, panpiort8, Paolo, Paolo Toccaceli, Paresh Mathur, Paula, Peng Yu, Peter Marko, pierretallotte, poorna-kumar, pspachtholz, qdeffense, Rajat Garg, Raphaël Bournhonesque, Ray, Ray Bell, Rebekah Kim, Reza Gharibi, Richard Payne, Richard W, rlms, Robert Juergens, Rok Mihevc, Roman Feldbauer, Roman Yurchak, R Sanjabi, RuchitaGarde, Ruth Waithera, Sackey, Sam Dixon, Samesh Lakhotia, Samuel Taylor, Sarra Habchi, Scott Gigante, Scott Sievert, Scott White, Sebastian Pölsterl, Sergey Feldman, SeWook Oh, she-dares, Shreya V, Shubham Mehta, Shuzhe Xiao, SimonCW, smarie, smujjiga, Sönke Behrends, Soumirai, Sourav Singh, stefan-matcovici, steinfurt, Stéphane Couvreur, Stephan Tulkens, Stephen Cowley, Stephen Tierney, SylvainLan, th0rwas, theoptips, theotheo, Thierno Ibrahima DIOP, Thomas Edwards, Thomas J Fan, Thomas Moreau, Thomas Schmitt, Tilen Kusterle, Tim Bicker, Timsaur, Tim Staley, Tirth Patel, Tola A, Tom Augspurger, Tom Dupré la Tour, topisan, Trevor Stephens, ttang131, Urvang Patel, Vathsala Achar, veerlosar, Venkatachalam N, Victor Luzgin, Vincent Jeanselme, Vincent Lostanlen, Vladimir Korolev, vnherdeiro, Wenbo Zhao, Wendy Hu, willdarnell, William de Vazelhes, wolframalpha, xavier dupré, xcjason, x-martian, xsat, xun-tang, Yinglr, yokasre, Yu-Hang “Maxin” Tang, Yulia Zamriy, Zhao Feng

Версия 0.22#

Версия 0.22.2.post1#

Журнал изменений#

Версия 0.22.1#

Журнал изменений#

Версия 0.22.0#

Обновление веб-сайта#

Четкое определение публичного API#

Устаревания: использование FutureWarning отныне#

Измененные модели#

Журнал изменений#

Разное#

Изменения в проверках оценщика#

Эта страница

Устаревания: использование `FutureWarning` отныне#