Версия 0.24#

Для краткого описания основных особенностей выпуска, пожалуйста, обратитесь к Основные нововведения scikit-learn 0.24.

Легенда для списков изменений

Основная функция что-то большое, что вы не могли сделать раньше.
Функция что-то, что вы не могли делать раньше.
Эффективность существующий признак теперь может не требовать столько вычислений или памяти.
Улучшение различные мелкие улучшения.
Исправление то, что ранее не работало, как задокументировано – или согласно разумным ожиданиям – теперь должно работать.
Изменение API вам потребуется изменить свой код, чтобы добиться того же эффекта в будущем; или функция будет удалена в будущем.

Версия 0.24.2#

Апрель 2021

Журнал изменений#

`sklearn.compose`#

Исправление compose.ColumnTransformer.get_feature_names не вызывает get_feature_names на трансформерах с пустым выбором столбцов. #19579 by Томас Фан.

`sklearn.cross_decomposition`#

Исправление Исправлена регрессия в cross_decomposition.CCA. #19646 by Томас Фан.
Исправление cross_decomposition.PLSRegression выдаёт предупреждение для постоянных остатков y вместо StopIteration ошибка. #19922 by Томас Фан.

`sklearn.decomposition`#

Исправление Исправлена ошибка в decomposition.KernelPCA’s inverse_transform. #19732 by Kei Ishikawa.

`sklearn.ensemble`#

Исправление Исправлена ошибка в ensemble.HistGradientBoostingRegressor fit с sample_weight параметр и least_absolute_deviation функция потерь. #19407 by Vadim Ushtanit.

`sklearn.feature_extraction`#

Исправление Исправлена ошибка для поддержки нескольких строк для категории, когда sparse=False в feature_extraction.DictVectorizer. #19982 by Guillaume Lemaitre.

`sklearn.gaussian_process`#

Исправление Избегайте явного формирования обратной ковариационной матрицы в gaussian_process.GaussianProcessRegressor когда установлен на вывод стандартного отклонения. С определёнными ковариационными матрицами это обратное значение нестабильно для явного вычисления. Вызов решателя Холецкого смягчает эту проблему в вычислениях. #19939 by Ian Halvic.
Исправление Избегайте деления на ноль при масштабировании постоянной цели в gaussian_process.GaussianProcessRegressor. Это было связано с нулевым стандартным отклонением. Теперь такой случай обнаруживается, и стандартное отклонение устанавливается равным 1, избегая деления на ноль и, следовательно, появления значений NaN в нормализованной целевой переменной. #19703 by @sobkevich, Boris Villazón-Terrazas и Александр Фонари.

`sklearn.linear_model`#

Исправление : Исправлена ошибка в linear_model.LogisticRegression: объект sample_weight больше не изменяется. #19182 by Yosuke KOBAYASHI.

`sklearn.metrics`#

Исправление metrics.top_k_accuracy_score теперь поддерживает многоклассовые задачи, где только два класса появляются в y_true и все классы указаны в labels. #19721 by Joris Clement.

`sklearn.model_selection`#

Исправление model_selection.RandomizedSearchCV и model_selection.GridSearchCV теперь правильно показывают оценку для одиночных метрик и verbose > 2. #19659 by Томас Фан.
Исправление Некоторые значения в cv_results_ атрибут model_selection.HalvingRandomSearchCV и model_selection.HalvingGridSearchCV не были правильно преобразованы в массивы numpy. #19211 by Nicolas Hug.
Исправление The fit метод последовательного сокращения параметров поиска (model_selection.HalvingGridSearchCV, и model_selection.HalvingRandomSearchCV) теперь корректно обрабатывает groups параметр. #19847 by Xiaoyu Chai.

`sklearn.multioutput`#

Исправление multioutput.MultiOutputRegressor теперь работает с оценщиками, которые динамически определяют predict во время обучения, такие как ensemble.StackingRegressor. #19308 by Томас Фан.

`sklearn.preprocessing`#

Исправление Проверьте параметр конструктора handle_unknown в preprocessing.OrdinalEncoder чтобы разрешить только 'error' и 'use_encoded_value' стратегии. #19234 by Guillaume Lemaitre .
Исправление Исправлены категории кодировщика, имеющие dtype=’S’ preprocessing.OneHotEncoder и preprocessing.OrdinalEncoder. #19727 by Andrew Delong.
Исправление preprocessing.OrdinalEncoder.transform корректно обрабатывает неизвестные значения для строковых типов данных. get_metadata_routing by Томас Фан.
Исправление preprocessing.OneHotEncoder.fit больше не изменяет drop параметр. #19924 by Томас Фан.

`sklearn.semi_supervised`#

Исправление Избегать NaN при распространении меток в LabelPropagation. #19271 by Чжаовэй Ван.

`sklearn.tree`#

Исправление Исправлена ошибка в fit of tree.BaseDecisionTree который вызывал ошибки сегментации при определенных условиях. fit теперь выполняет глубокое копирование Criterion объект для предотвращения совместных параллельных доступов. #19580 by Samuel Brice и Alex Adamson и Wil Yegelwel.

`sklearn.utils`#

Исправление Better содержит CSS, предоставленный utils.estimator_html_repr путем присвоения CSS-идентификаторов HTML-представлению. #19417 by Томас Фан.

Версия 0.24.1#

Январь 2021

Упаковка#

Версия 0.24.0 scikit-learn wheels не работала с MacOS <1.15 из-за libomp. Версия libomp , использованная для сборки колес, была слишком новой для старых версий macOS. Эта проблема была исправлена для колес scikit-learn 0.24.1. Колеса scikit-learn, опубликованные на PyPI.org, теперь официально поддерживают macOS 10.13 и новее.

Журнал изменений#

`sklearn.metrics`#

Исправление Исправлена ошибка численной стабильности, которая могла возникать в metrics.adjusted_mutual_info_score и metrics.mutual_info_score с NumPy 1.20+. #19179 by Томас Фан.

`sklearn.semi_supervised`#

Исправление semi_supervised.SelfTrainingClassifier теперь принимает мета-оценщик (например, ensemble.StackingClassifier). Проверка этого оценщика выполняется на обученном оценщике, как только мы знаем о существовании метода predict_proba. #19126 by Guillaume Lemaitre.

Версия 0.24.0#

Декабрь 2020

Измененные модели#

Следующие оценщики и функции, при обучении на тех же данных и параметрах, могут создавать модели, отличные от предыдущей версии. Это часто происходит из-за изменений в логике моделирования (исправления ошибок или улучшения) или в процедурах случайной выборки.

Исправление decomposition.KernelPCA поведение теперь более согласовано между 32-битными и 64-битными данными, когда ядро имеет малые положительные собственные значения.
Исправление decomposition.TruncatedSVD становится детерминированным, предоставляя random_state параметр.
Исправление linear_model.Perceptron когда penalty='elasticnet'.
Исправление Изменение в процедурах случайной выборки для инициализации центров cluster.KMeans.

Подробности перечислены в журнале изменений ниже.

(Хотя мы стараемся лучше информировать пользователей, предоставляя эту информацию, мы не можем гарантировать, что этот список полный.)

Журнал изменений#

`sklearn.base`#

Исправление base.BaseEstimator.get_params теперь будет вызывать AttributeError если параметр не может быть получен как атрибут экземпляра. Ранее он возвращал None. #17448 by Juan Carlos Alfaro Jiménez.

`sklearn.calibration`#

Эффективность calibration.CalibratedClassifierCV.fit теперь поддерживает параллелизацию через joblib.Parallel используя аргумент n_jobs. #17107 by Julien Jerphanion.
Улучшение Разрешить calibration.CalibratedClassifierCV использовать с prefit pipeline.Pipeline где данные не X не является массивоподобным, разреженной матрицей или датафреймом в начале. #17546 by Lucy Liu.
Улучшение Добавить ensemble параметр для calibration.CalibratedClassifierCV, что позволяет реализовать калибровку через ансамбль калибраторов (текущий метод) или только один калибратор, используя все данные (аналогично встроенной функции sklearn.svm оцениватели с probabilities=True параметр). #17856 by Lucy Liu и Andrea Esuli.

`sklearn.cluster`#

Улучшение cluster.AgglomerativeClustering имеет новый параметр compute_distances. Когда установлено в True, расстояния между кластерами вычисляются и сохраняются в distances_ атрибут, даже когда параметр distance_threshold не используется. Этот новый параметр полезен для создания визуализаций дендрограмм, но вносит вычислительные и ресурсные накладные расходы. #17984 by Michael Riedmann, Emilie Delattre, и Francesco Casalegno.
Улучшение cluster.SpectralClustering и cluster.spectral_clustering имеют новый аргумент ключевого слова verbose. При установке в True, будут отображаться дополнительные сообщения, которые могут помочь в отладке. #18052 by Шон О. Столли.
Улучшение Добавлен cluster.kmeans_plusplus как публичную функцию. Инициализация с помощью KMeans++ теперь может вызываться отдельно для генерации начальных центроидов кластеров. #17937 by @g-walsh
Изменение API cluster.MiniBatchKMeans атрибуты, counts_ и init_size_, устарели и будут удалены в версии 1.1 (переименование версии 0.26). #17864 by Жереми дю Буаберранже.

`sklearn.compose`#

Исправление compose.ColumnTransformer пропустит преобразователи, если селектор столбцов представляет собой список логических значений False. #17616 by Томас Фан.
Исправление compose.ColumnTransformer теперь отображает остаток в диаграмме. #18167 by Томас Фан.
Исправление compose.ColumnTransformer обеспечивает строгий подсчет и порядок имен столбцов между fit и transform путём вызова ошибки вместо предупреждения, следуя циклу устаревания. #18256 by Мадхура Джайратне.

`sklearn.covariance`#

Изменение API Устаревает cv_alphas_ в пользу cv_results_['alphas'] и grid_scores_ в пользу оценок разделения в cv_results_ в covariance.GraphicalLassoCV. cv_alphas_ и grid_scores_ будет удален в версии 1.1 (переименование 0.26). #16392 by Томас Фан.

`sklearn.cross_decomposition`#

Исправление Исправлена ошибка в cross_decomposition.PLSSVD который иногда возвращает компоненты в обратном порядке важности. #17095 by Nicolas Hug.
Исправление Исправлена ошибка в cross_decomposition.PLSSVD, cross_decomposition.CCA, и cross_decomposition.PLSCanonical, что привело бы к неверным предсказаниям для est.transform(Y) когда обучающие данные являются одноцелевыми. #17095 by Nicolas Hug.
Исправление Повышает стабильность cross_decomposition.CCA #18746 by Томас Фан.
Изменение API Границы n_components параметр теперь ограничен:
- в [1, min(n_samples, n_features, n_targets)], для cross_decomposition.PLSSVD, cross_decomposition.CCA, и cross_decomposition.PLSCanonical.
- в [1, n_features] или cross_decomposition.PLSRegression.
Будет вызвана ошибка в версии 1.1 (переименование версии 0.26). #17095 by Nicolas Hug.
Изменение API Для cross_decomposition.PLSSVD, cross_decomposition.CCA, и cross_decomposition.PLSCanonical, x_scores_ и y_scores_ атрибуты были устаревшими и будут удалены в версии 1.1 (переименование версии 0.26). Их можно получить, вызвав transform на обучающих данных. norm_y_weights атрибут также будет удалён. #17095 by Nicolas Hug.
Изменение API Для cross_decomposition.PLSRegression, cross_decomposition.PLSCanonical, cross_decomposition.CCA, и cross_decomposition.PLSSVD, x_mean_, y_mean_, x_std_, и y_std_ атрибуты были объявлены устаревшими и будут удалены в версии 1.1 (переименование версии 0.26). #18768 by Марен Вестерманн.
Исправление decomposition.TruncatedSVD становится детерминированным с использованием random_state. Он управляет инициализацией весов базового решателя ARPACK. :pr:` #18302` от Гаурав Десаи и Иван Панико.

`sklearn.datasets`#

Функция datasets.fetch_openml теперь проверяет контрольную сумму md5 файлов arff, загруженных или кэшированных, для обеспечения целостности данных. #14800 by Shashank Singh и Joel Nothman.
Улучшение datasets.fetch_openml теперь позволяет аргумент as_frame будет 'auto', что пытается преобразовать возвращённые данные в pandas DataFrame, если данные не разрежены. #17396 by Jiaxiang.
Улучшение datasets.fetch_covtype теперь поддерживает необязательный аргумент as_frame; когда установлено в True, возвращаемый объект Bunch data и frame элементы являются pandas DataFrames, и target член является pandas Series. #17491 by Alex Liang.
Улучшение datasets.fetch_kddcup99 теперь поддерживает необязательный аргумент as_frame; когда установлено в True, возвращаемый объект Bunch data и frame элементы являются pandas DataFrames, и target член является pandas Series. #18280 by Alex Liang и Guillaume Lemaitre.
Улучшение datasets.fetch_20newsgroups_vectorized теперь поддерживает загрузку как pandas DataFrame установкой as_frame=True. #17499 by Бригитта Сипёч и Guillaume Lemaitre.
Изменение API Значение по умолчанию для as_frame в datasets.fetch_openml изменяется с False на ‘auto’. #17610 by Jiaxiang.

`sklearn.decomposition`#

Изменение API Для decomposition.NMF, init значение, когда 'init=None' и n_components <= min(n_samples, n_features) будет изменено с 'nndsvd' to 'nndsvda' в 1.1 (переименование 0.26). #18525 by Кьяра Мармо.
Улучшение decomposition.FactorAnalysis теперь поддерживает необязательный аргумент rotation, который может принимать значение None, 'varimax' или 'quartimax'. #11064 by Jona Sassenhagen.
Улучшение decomposition.NMF теперь поддерживает необязательный параметр regularization, которые могут принимать значения None, 'components', 'transformation' или 'both', в соответствии с decomposition.NMF.non_negative_factorization. #17414 by Bharat Raghunathan.
Исправление decomposition.KernelPCA поведение теперь более согласовано между 32-битными и 64-битными входными данными, когда ядро имеет малые положительные собственные значения. Малые положительные собственные значения не корректно отбрасывались для 32-битных данных. #18149 by Sylvain Marié.
Исправление Исправление decomposition.SparseCoder так, чтобы он соответствовал API scikit-learn и поддерживал клонирование. Атрибут components_ устарел в версии 0.24 и будет удален в версии 1.1 (переименование версии 0.26). Этот атрибут был избыточным с dictionary атрибут и параметр конструктора. #17679 by Xavier Dupré.
Исправление decomposition.TruncatedSVD.fit_transform последовательно возвращает то же самое, что и decomposition.TruncatedSVD.fit с последующим decomposition.TruncatedSVD.transform. #18528 by Albert Villanova del Moral и Ruifeng Zheng.

`sklearn.discriminant_analysis`#

Улучшение discriminant_analysis.LinearDiscriminantAnalysis теперь может использовать пользовательскую оценку ковариации, установив covariance_estimator параметр. #14446 by Хьюго Ричард.

`sklearn.ensemble`#

Основная функция ensemble.HistGradientBoostingRegressor и ensemble.HistGradientBoostingClassifier теперь имеют встроенную поддержку категориальных признаков с categorical_features параметр. #18394 by Nicolas Hug и Томас Фан.
Функция ensemble.HistGradientBoostingRegressor и ensemble.HistGradientBoostingClassifier теперь поддерживают метод staged_predict, который позволяет отслеживать каждый этап. #16985 by Hao Chun Chang.
Эффективность разорвать циклические ссылки в узлах дерева, используемых внутри ensemble.HistGradientBoostingRegressor и ensemble.HistGradientBoostingClassifier для своевременного сбора мусора больших промежуточных структур данных и улучшения использования памяти в fit. #18334 by Оливье Гризель Nicolas Hug, Thomas Fan и Андреас Мюллер.
Эффективность Инициализация гистограммы теперь выполняется параллельно в ensemble.HistGradientBoostingRegressor и ensemble.HistGradientBoostingClassifier что приводит к ускорению для задач, которые строят много узлов на многопроцессорных машинах. #18341 by Оливье Гризель, Nicolas Hug, Томас Фан, и Егор Смирнов.
Исправление Исправлена ошибка в ensemble.HistGradientBoostingRegressor и ensemble.HistGradientBoostingClassifier который теперь может принимать данные с uint8 dtype в predict. #18410 by Nicolas Hug.
Изменение API Параметр n_classes_ теперь устарел в ensemble.GradientBoostingRegressor и возвращает 1. #17702 by Simona Maggio.
Изменение API Средняя абсолютная ошибка ('mae') теперь устарела для параметра criterion в ensemble.GradientBoostingRegressor и ensemble.GradientBoostingClassifier. #18326 by Madhura Jayaratne.

`sklearn.exceptions`#

Изменение API exceptions.ChangedBehaviorWarning и exceptions.NonBLASDotWarning устарели и будут удалены в версии 1.1 (переименование 0.26). #17804 by Адрин Джалали.

`sklearn.feature_extraction`#

Улучшение feature_extraction.DictVectorizer принимает несколько значений для одной категориальной характеристики. #17367 by Peng Yu и Кьяра Мармо.
Исправление feature_extraction.text.CountVectorizer вызывает проблему, если предоставлен пользовательский шаблон токена, который захватывает более одной группы. #15427 by Гангеш Гудмалвар и Эрин Р. Хоффман.

`sklearn.feature_selection`#

Функция Добавлен feature_selection.SequentialFeatureSelector который реализует прямой и обратный последовательный отбор признаков. #6545 by Sebastian Raschka и #17159 by Nicolas Hug.
Функция Новый параметр importance_getter был добавлен в feature_selection.RFE, feature_selection.RFECV и feature_selection.SelectFromModel, позволяя пользователю указать имя атрибута/путь или callable для извлечения важности признаков из оценщика. #15361 by Venkatachalam N.
Эффективность Уменьшить объем памяти в feature_selection.mutual_info_classif и feature_selection.mutual_info_regression путем вызова neighbors.KDTree для подсчета ближайших соседей. #17878 by Noel Rogers.
Улучшение feature_selection.RFE поддерживает опцию для количества n_features_to_select должно быть задано как число с плавающей точкой, представляющее процент признаков для выбора. #17090 by Лиза Шветлик и Многомерные целевые переменные, предсказанные с помощью нескольких предикторов. Примечание: отдельные модели генерируются для каждого предиктора..

`sklearn.gaussian_process`#

Улучшение Новый метод gaussian_process.kernel._check_bounds_params вызывается после подгонки гауссовского процесса и вызывает ConvergenceWarning если границы гиперпараметров слишком узки. #12638 by Sylvain Lannuzel.

`sklearn.impute`#

Функция impute.SimpleImputer теперь поддерживает список строк, когда strategy='most_frequent' или strategy='constant'. #17526 by Аяко ЯГИ и Juan Carlos Alfaro Jiménez.
Функция Добавлен метод impute.SimpleImputer.inverse_transform для возврата импутированных данных к исходным при инициализации с add_indicator=True. #17612 by Srimukh Sripada.
Исправление заменить значения по умолчанию в impute.IterativeImputer of min_value и max_value параметры для -np.inf и np.inf, соответственно, вместо None. Однако поведение класса не меняется, поскольку None уже использовал эти значения по умолчанию. #16493 by Darshan N.
Исправление impute.IterativeImputer не будет пытаться установить оценщика random_state атрибут, позволяющий использовать его с большим количеством внешних классов. #15636 by David Cortes.
Эффективность impute.SimpleImputer теперь работает быстрее с object массив типа dtype. когда strategy='most_frequent' в SimpleImputer. #18987 by Дэвид Кац.

`sklearn.inspection`#

Функция inspection.partial_dependence и inspection.plot_partial_dependence теперь поддерживают вычисление и построение кривых индивидуального условного ожидания (ICE), управляемых kind параметр. #16619 by Мадхура Джайратне.
Функция Добавить sample_weight параметр для inspection.permutation_importance. #16906 by Рои Кахни.
Изменение API Позиционные аргументы устарели в inspection.PartialDependenceDisplay.plot и выдаст ошибку в версии 1.1 (переименование версии 0.26). #18293 by Томас Фан.

`sklearn.isotonic`#

Функция Предоставление обученных атрибутов X_thresholds_ и y_thresholds_ которые содержат дедуплицированные пороги интерполяции isotonic.IsotonicRegression экземпляр для целей инспекции модели. #16289 by Masashi Kishimoto и Оливье Гризель.
Улучшение isotonic.IsotonicRegression теперь принимает 2d массив с 1 признаком в качестве входного массива. #17379 by Jiaxiang.
Исправление Добавить допуск при определении дублирующихся значений X, чтобы предотвратить предсказание inf значений с помощью isotonic.IsotonicRegression. #18639 by Lucy Liu.

`sklearn.kernel_approximation`#

Функция Добавлен класс kernel_approximation.PolynomialCountSketch который реализует алгоритм Tensor Sketch для аппроксимации признакового отображения полиномиального ядра. #13003 by Daniel López Sánchez.
Эффективность kernel_approximation.Nystroem теперь поддерживает параллелизацию через joblib.Parallel используя аргумент n_jobs. #18545 by Laurenz Reitsam.

`sklearn.linear_model`#

Функция linear_model.LinearRegression теперь заставляет коэффициенты быть всеми положительными, когда positive установлено в True. #17578 by устарел в пользу более согласованного, Нель Варокво и Кьяра Мармо.
Улучшение linear_model.RidgeCV теперь поддерживает поиск оптимального значения регуляризации alpha для каждой цели отдельно, установив alpha_per_target=True. Это поддерживается только при использовании стандартной эффективной схемы перекрестной проверки с исключением по одному cv=None. #6624 by Marijn van Vliet.
Исправление Исправлена ошибка в linear_model.TheilSenRegressor где predict и score завершалось ошибкой, когда fit_intercept=False и была одна фича во время обучения. #18121 by Томас Фан.
Исправление Исправлена ошибка в linear_model.ARDRegression где predict вызывал ошибку, когда normalize=True и return_std=True потому что X_offset_ и X_scale_ были неопределены. #18607 by fhaselbeck.
Исправление Добавлен недостающий l1_ratio параметр в linear_model.Perceptron, для использования, когда penalty='elasticnet'. Это изменяет значение по умолчанию с 0 на 0.15. #18622 by Хесун Парк.

`sklearn.manifold`#

Эффективность Исправлено #10493. Улучшенный метод локального линейного вложения (LLE), который вызвал MemoryError исключение при использовании с большими входными данными. #17997 by Bertrand Maisonneuve.
Улучшение Добавить square_distances параметр для manifold.TSNE, что обеспечивает обратную совместимость во время устаревания устаревшего поведения возведения в квадрат. Расстояния будут возводиться в квадрат по умолчанию в версии 1.1 (переименование 0.26), и этот параметр будет удален в версии 1.3. #17662 by Joshua Newton.
Исправление manifold.MDS теперь правильно устанавливает свой _pairwise атрибут. #18278 by Томас Фан.

`sklearn.metrics`#

Функция Добавлен metrics.cluster.pair_confusion_matrix реализующий матрицу ошибок, возникающую из пар элементов двух кластеризаций. #17412 by Уве Ф. Майер.
Функция новая метрика metrics.top_k_accuracy_score. Это обобщение metrics.top_k_accuracy_score, разница заключается в том, что предсказание считается правильным, если истинная метка связана с одним из k наивысшие предсказанные оценки. metrics.accuracy_score является частным случаем k = 1. #16625 by Джеффри Болмье.
Функция Добавлен metrics.det_curve для вычисления кривой классификационной метрики компромисса между ошибками обнаружения. #10591 by Джереми Карновски и Даниэль Монс.
Функция Добавлен metrics.plot_det_curve и metrics.DetCurveDisplay для упрощения построения кривых DET. #18176 by Guillaume Lemaitre.
Функция Добавлен metrics.mean_absolute_percentage_error метрика и связанный с ней скорер для задач регрессии. #10708 исправлено с помощью PR #15007 by Ashutosh Hathidara. Метрика оценки и некоторые практические тестовые случаи были взяты из PR #10711 by Mohamed Ali Jamaoui.
Функция Добавлен metrics.rand_score реализующий (нескорректированный) индекс Рэнда. #17412 by Уве Ф. Майер.
Функция metrics.plot_confusion_matrix теперь поддерживает возможность сделать цветовую шкалу необязательной в графике matplotlib, установив colorbar=False. #17192 by Ави Гупта
Улучшение Добавить sample_weight параметр для metrics.median_absolute_error. #17225 by Lucy Liu.
Улучшение Добавить pos_label параметр в metrics.plot_precision_recall_curve чтобы указать положительный класс, который будет использоваться при вычислении статистики точности и полноты. #17569 by Guillaume Lemaitre.
Улучшение Добавить pos_label параметр в metrics.plot_roc_curve чтобы указать положительный класс, используемый при вычислении статистики roc auc. #17651 by Clara Matos.
Исправление Исправлена ошибка в metrics.classification_report который вызывал AttributeError при вызове с output_dict=True для значений нулевой длины. #17777 by Shubhanshu Mishra.
Исправление Исправлена ошибка в metrics.classification_report который вызывал AttributeError при вызове с output_dict=True для значений нулевой длины. #17777 by Shubhanshu Mishra.
Исправление Исправлена ошибка в metrics.jaccard_score который рекомендовал zero_division параметр при вызове без истинных или предсказанных образцов. #17826 by Ричард Декал и Joseph Willard
Исправление ошибка в metrics.hinge_loss где ошибка возникает, когда y_true отсутствуют некоторые метки, которые явно указаны в labels параметр. #17935 by Кэри Голтерманн.
Исправление Исправляет скореры, которые принимают параметр pos_label и вычисляют их метрики из значений, возвращаемых decision_function или predict_proba. Ранее они возвращали ошибочные значения, когда pos_label не соответствовал classifier.classes_[1]. Это особенно важно при обучении классификаторов непосредственно с целевыми классами, помеченными строками. #18114 by Guillaume Lemaitre.
Исправление Исправлена ошибка в metrics.plot_confusion_matrix где ошибка возникает когда y_true содержит метки, которые ранее не встречались классификатору, в то время как labels и display_labels параметры установлены в None. #18405 by Thomas J. Fan и Яков Пчелинцев.

`sklearn.model_selection`#

Основная функция Добавлены (экспериментальные) оценщики поиска параметров model_selection.HalvingRandomSearchCV и model_selection.HalvingGridSearchCV которые реализуют Последовательное Уполовинивание и могут использоваться как прямая замена для model_selection.RandomizedSearchCV и model_selection.GridSearchCV. #13900 by Nicolas Hug, Joel Nothman и Андреас Мюллер.
Функция model_selection.RandomizedSearchCV и model_selection.GridSearchCV теперь имеют метод score_samples #17478 by Teon Brooks и Mohamed Maskani.
Улучшение model_selection.TimeSeriesSplit имеет два новых ключевых аргумента test_size и gap. test_size позволяет фиксировать длину временного ряда вне выборки для всех фолдов. gap удаляет фиксированное количество образцов между обучающей и тестовой выборками на каждой итерации. #13204 by Kyle Kosic.
Улучшение model_selection.permutation_test_score и model_selection.validation_curve теперь принимают fit_params для передачи дополнительных параметров оценщика. #18527 by Гаурав Дхингра, Julien Jerphanion и Аманда Д'Суза.
Улучшение model_selection.cross_val_score, model_selection.cross_validate, model_selection.GridSearchCV, и model_selection.RandomizedSearchCV позволяет оценщику не проходить оценку и заменять оценку на error_score. Если error_score="raise", ошибка будет вызвана. #18343 by Guillaume Lemaitre и Деви Сандип.
Улучшение model_selection.learning_curve теперь принимают fit_params для передачи дополнительных параметров оценщика. #18595 by Аманда Д'Суза.
Исправление Исправлен len of model_selection.ParameterSampler когда все распределения являются списками и n_iter больше, чем количество уникальных комбинаций параметров. #18222 by Nicolas Hug.
Исправление Исправление для выдачи предупреждения, когда одно или несколько разделений CV model_selection.GridSearchCV и model_selection.RandomizedSearchCV приводит к неконечным оценкам. #18266 by Subrat Sahu, Nirvan и Arthur Book.
Улучшение model_selection.GridSearchCV, model_selection.RandomizedSearchCV и model_selection.cross_validate поддержка scoring являющийся вызываемым объектом, возвращающим словарь ассоциаций нескольких имен/значений метрик. #15126 by Томас Фан.

`sklearn.multiclass`#

Улучшение multiclass.OneVsOneClassifier теперь принимает входные данные с пропущенными значениями. Следовательно, оценщики, которые могут обрабатывать пропущенные значения (может быть конвейер с этапом импутации), могут использоваться как оценщик для многоклассовых обёрток. #17987 by Venkatachalam N.
Исправление Исправление, чтобы разрешить multiclass.OutputCodeClassifier для приема разреженных входных данных в своем fit и predict методы. Проверка валидности входных данных теперь делегирована базовому оценщику. #17233 by Золиса Блеки.

`sklearn.multioutput`#

Улучшение multioutput.MultiOutputClassifier и multioutput.MultiOutputRegressor теперь принимает входные данные с пропущенными значениями. Следовательно, оценщики, которые могут обрабатывать пропущенные значения (может быть конвейер с шагом импутации, HistGradientBoosting оценщики) могут использоваться как оценщик для многоклассовых обёрток. #17987 by Venkatachalam N.
Исправление Исправление для принятия кортежей в order параметр в multioutput.ClassifierChain. #18124 by Gus Brocchini и Аманда Д'Суза.

`sklearn.naive_bayes`#

Улучшение Добавляет параметр min_categories to naive_bayes.CategoricalNB которая позволяет указать минимальное количество категорий для каждого признака. Это позволяет учитывать категории, не встречавшиеся во время обучения. #16326 by George Armstrong.
Изменение API Атрибуты coef_ и intercept_ теперь устарели в naive_bayes.MultinomialNB, naive_bayes.ComplementNB, naive_bayes.BernoulliNB и naive_bayes.CategoricalNB, и будет удалено в v1.1 (переименование 0.26). #17427 by Juan Carlos Alfaro Jiménez.

`sklearn.neighbors`#

Эффективность Ускорение seuclidean, wminkowski, mahalanobis и haversine метрики в neighbors.DistanceMetric избегая неожиданного захвата GIL в Cython при установке n_jobs>1 в neighbors.KNeighborsClassifier, neighbors.KNeighborsRegressor, neighbors.RadiusNeighborsClassifier, neighbors.RadiusNeighborsRegressor, metrics.pairwise_distances и путем валидации данных вне циклов. #17038 by Вэньбо Чжао.
Эффективность neighbors.NeighborsBase преимущества улучшенного algorithm = 'auto' эвристика. В дополнение к предыдущему набору правил, теперь, когда количество признаков превышает 15, brute выбран, предполагая, что внутренняя размерность данных слишком высока для методов на основе деревьев. #17148 by Джеффри Болмье.
Исправление neighbors.BinaryTree вызовет ValueError при обучении на массиве данных, содержащем точки с разными размерностями. #18691 by Кьяра Мармо.
Исправление neighbors.NearestCentroid с числовым shrink_threshold вызовет ValueError при обучении на данных со всеми постоянными признаками. #18370 by Trevor Waite.
Исправление В методах radius_neighbors и radius_neighbors_graph of neighbors.NearestNeighbors, neighbors.RadiusNeighborsClassifier, neighbors.RadiusNeighborsRegressor, и neighbors.RadiusNeighborsTransformer, используя sort_results=True теперь правильно сортирует результаты даже при обучении с алгоритмом “brute”. #18612 by Tom Dupre la Tour.

`sklearn.neural_network`#

Эффективность Обучение и предсказание нейронной сети теперь немного быстрее. #17603, #17604, #17606, #17608, #17609, #17633, #17661, #17932 by Алекс Хенри.
Улучшение Избегайте преобразования входных данных float32 в float64 в neural_network.BernoulliRBM. #16352 by Arthur Imbert.
Улучшение Поддержка 32-битных вычислений в neural_network.MLPClassifier и neural_network.MLPRegressor. #17759 by Srimukh Sripada.
Исправление Метод исправления neural_network.MLPClassifier.fit не итерируя до max_iter если используется тёплый старт. #18269 by Норберт Прейнинг и Guillaume Lemaitre.

`sklearn.pipeline`#

Улучшение Ссылки на трансформеры, переданные через transformer_weights to pipeline.FeatureUnion которые отсутствуют в transformer_list вызовет ValueError. #17876 by Кэри Голтерманн.
Исправление Срез pipeline.Pipeline теперь наследует параметры исходного конвейера (memory и verbose). #18429 by Albert Villanova del Moral и Paweł Biernat.

`sklearn.preprocessing`#

Функция preprocessing.OneHotEncoder теперь поддерживает пропущенные значения, рассматривая их как категорию. #17317 by Томас Фан.
Функция Добавить новый handle_unknown параметр с use_encoded_value опция, вместе с новой unknown_value параметр, в preprocessing.OrdinalEncoder чтобы разрешить неизвестные категории во время преобразования и установить закодированное значение неизвестных категорий. #17406 by Felix Wick и #18406 by Nicolas Hug.
Функция Добавить clip параметр для preprocessing.MinMaxScalerкоторый обрезает преобразованные значения тестовых данных до feature_range. #17833 by Yashika Sharma.
Функция Добавить sample_weight параметр для preprocessing.StandardScaler. Позволяет устанавливать индивидуальные веса для каждой выборки. #18510 и #18447 и #16066 и #18682 by Мария Теленчук и 2.5.5. Факторный анализ и @panpiort8 и Алекс Грамфор.
Улучшение Подробный вывод model_selection.GridSearchCV был улучшен для удобочитаемости. #16935 by Raghav Rajagopalan и Кьяра Мармо.
Улучшение Добавить unit_variance to preprocessing.RobustScaler, которая масштабирует выходные данные так, что нормально распределенные признаки имеют дисперсию 1. #17193 by Lucy Liu и Mabel Villalba.
Улучшение Добавить dtype параметр для preprocessing.KBinsDiscretizer. #16335 by Arthur Imbert.
Исправление Вызвать ошибку при sklearn.preprocessing.OneHotEncoder.inverse_transform когда handle_unknown='error' и drop=None для образцов, закодированных как все нули. #14982 by Кевин Вината.

`sklearn.semi_supervised`#

Основная функция Добавлен semi_supervised.SelfTrainingClassifier, мета-классификатор, который позволяет любому контролируемому классификатору функционировать как полуконтролируемый классификатор, способный обучаться на немаркированных данных. #11682 by Оливер Рауш и Patrice Becker.
Исправление Исправлена некорректная кодировка при использовании строковых dtypes с юникодом в preprocessing.OneHotEncoder и preprocessing.OrdinalEncoder. #15763 by Томас Фан.

`sklearn.svm`#

Улучшение вызвать API SciPy BLAS для функции ядра SVM в fit, predict и связанные методы svm.SVC, svm.NuSVC, svm.SVR, svm.NuSVR, svm.OneClassSVM. #16530 by Shuhua Fan.

`sklearn.tree`#

Функция tree.DecisionTreeRegressor теперь поддерживает новый критерий разделения 'poisson' полезен для моделирования счетных данных. #17386 by Christian Lorentzen.
Улучшение tree.plot_tree теперь использует цвета из настроек конфигурации matplotlib. #17187 by Андреас Мюллер.
Изменение API Параметр X_idx_sorted теперь устарел в tree.DecisionTreeClassifier.fit и tree.DecisionTreeRegressor.fit, и не имеет эффекта. #17614 by Juan Carlos Alfaro Jiménez.

`sklearn.utils`#

Улучшение Добавить check_methods_sample_order_invariance to check_estimator, который проверяет, что методы оценщика инвариантны при применении к одному и тому же набору данных с разным порядком выборок #17598 by Джейсон Нго.
Улучшение Добавить поддержку весов в utils.sparse_func.incr_mean_variance_axis. Путем Мария Теленчук и Алекс Грамфор.
Исправление Вызвать ValueError с понятным сообщением об ошибке в utils.check_array для разреженных DataFrame со смешанными типами. #17992 by Thomas J. Fan и Алекс Шакед.
Исправление Позволяет десериализовать древовидные модели на машине с другой порядком байтов. #17644 by Ци Чжан.
Исправление Проверяем, что возникает правильная ошибка, когда axis=1 и размерности не совпадают в utils.sparse_func.incr_mean_variance_axis. Путем Алекс Грамфор.

Разное#

Улучшение Вызовы repr теперь работают быстрее, когда print_changed_only=True, особенно с мета-оценщиками. #18508 by Натан К..

Участники кода и документации

Благодарим всех, кто внес вклад в поддержку и улучшение проекта с версии 0.23, включая:

Abo7atm, Adam Spannbauer, Adrin Jalali, adrinjalali, Agamemnon Krasoulis, Akshay Deodhar, Albert Villanova del Moral, Alessandro Gentile, Alex Henrie, Alex Itkes, Alex Liang, Alexander Lenail, alexandracraciun, Alexandre Gramfort, alexshacked, Allan D Butler, Amanda Dsouza, amy12xx, Anand Tiwari, Anderson Nelson, Andreas Mueller, Ankit Choraria, Archana Subramaniyan, Arthur Imbert, Ashutosh Hathidara, Ashutosh Kushwaha, Atsushi Nukariya, Aura Munoz, AutoViz и Auto_ViML, Avi Gupta, Avinash Anakal, Ayako YAGI, barankarakus, barberogaston, beatrizsmg, Ben Mainye, Benjamin Bossan, Benjamin Pedigo, Bharat Raghunathan, Bhavika Devnani, Biprateep Dey, bmaisonn, Bo Chang, Boris Villazón-Terrazas, brigi, Brigitta Sipőcz, Bruno Charron, Byron Smith, Cary Goltermann, Cat Chenal, CeeThinwa, chaitanyamogal, Charles Patel, Chiara Marmo, Christian Kastner, Christian Lorentzen, Christoph Deil, Christos Aridas, Clara Matos, clmbst, Coelhudo, crispinlogan, Cristina Mulas, Daniel López, Daniel Mohns, darioka, Darshan N, david-cortes, Declan O’Neill, Deeksha Madan, Elizabeth DuPre, Eric Fiegel, Eric Larson, Erich Schubert, Erin Khoo, Erin R Hoffman, eschibli, Felix Wick, fhaselbeck, Forrest Koch, Francesco Casalegno, Frans Larsson, Gael Varoquaux, Gaurav Desai, Gaurav Sheni, genvalen, Geoffrey Bolmier, George Armstrong, George Kiragu, Gesa Stupperich, Ghislain Antony Vaillant, Gim Seng, Gordon Walsh, Gregory R. Lee, Guillaume Chevalier, Guillaume Lemaitre, Haesun Park, Hannah Bohle, Hao Chun Chang, Harry Scholes, Harsh Soni, Henry, Hirofumi Suzuki, Hitesh Somani, Hoda1394, Hugo Le Moine, hugorichard, indecisiveuser, Isuru Fernando, Ivan Wiryadi, j0rd1smit, Jaehyun Ahn, Jake Tae, James Hoctor, Jan Vesely, Jeevan Anand Anne, JeroenPeterBos, JHayes, Jiaxiang, Jie Zheng, Jigna Panchal, jim0421, Jin Li, Joaquin Vanschoren, Joel Nothman, Jona Sassenhagen, Jonathan, Jorge Gorbe Moya, Joseph Lucas, Joshua Newton, Juan Carlos Alfaro Jiménez, Julien Jerphanion, Justin Huber, Jérémie du Boisberranger, Kartik Chugh, Katarina Slama, kaylani2, Kendrick Cetina, Kenny Huynh, Kevin Markham, Kevin Winata, Kiril Isakov, kishimoto, Koki Nishihara, Krum Arnaudov, Kyle Kosic, Lauren Oldja, Laurenz Reitsam, Lisa Schwetlick, Louis Douge, Louis Guitton, Lucy Liu, Madhura Jayaratne, maikia, Manimaran, Manuel López-Ibáñez, Maren Westermann, Maria Telenczuk, Mariam-ke, Marijn van Vliet, Markus Löning, Martin Scheubrein, Martina G. Vilas, Martina Megasari, Mateusz Górski, mathschy, mathurinm, Matthias Bussonnier, Max Del Giudice, Michael, Milan Straka, Muoki Caleb, N. Haiat, Nadia Tahiri, Ph. D, Naoki Hamada, Neil Botelho, Nicolas Hug, Nils Werner, noelano, Norbert Preining, oj_lappi, Oleh Kozynets, Olivier Grisel, Pankaj Jindal, Pardeep Singh, Parthiv Chigurupati, Patrice Becker, Pete Green, pgithubs, Poorna Kumar, Prabakaran Kumaresshan, Probinette4, pspachtholz, pwalchessen, Qi Zhang, rachel fischoff, Rachit Toshniwal, Rafey Iqbal Rahman, Rahul Jakhar, Ram Rachum, RamyaNP, rauwuckl, Ravi Kiran Boggavarapu, Ray Bell, Reshama Shaikh, Richard Decal, Rishi Advani, Rithvik Rao, Rob Romijnders, roei, Romain Tavenard, Roman Yurchak, Ruby Werman, Ryotaro Tsukada, sadak, Saket Khandelwal, Sam, Sam Ezebunandu, Sam Kimbinyi, Sarah Brown, Saurabh Jain, Sean O. Stalley, Sergio, Shail Shah, Shane Keller, Shao Yang Hong, Shashank Singh, Shooter23, Shubhanshu Mishra, simonamaggio, Soledad Galli, Srimukh Sripada, Stephan Steinfurt, subrat93, Sunitha Selvan, Swier, Sylvain Marié, SylvainLan, t-kusanagi2, Teon L Brooks, Terence Honles, Thijs van den Berg, Thomas J Fan, Thomas J. Fan, Thomas S Benjamin, Thomas9292, Thorben Jensen, tijanajovanovic, Timo Kaufmann, tnwei, Tom Dupré la Tour, Trevor Waite, ufmayer, Umberto Lupo, Venkatachalam N, Vikas Pandey, Vinicius Rios Fuck, Violeta, watchtheblur, Wenbo Zhao, willpeppo, xavier dupré, Xethan, Xue Qianming, xun-tang, yagi-3, Yakov Pchelintsev, Yashika Sharma, Yi-Yan Ge, Yue Wu, Yutaro Ikeda, Zaccharie Ramzi, zoj613, Zhao Feng.

Версия 0.24#

Версия 0.24.2#

Журнал изменений#

Версия 0.24.1#

Упаковка#

Журнал изменений#

Версия 0.24.0#

Измененные модели#

Журнал изменений#

Разное#

Эта страница