Версия 1.4#

Для краткого описания основных особенностей выпуска, пожалуйста, обратитесь к Основные нововведения выпуска scikit-learn 1.4.

Легенда для списков изменений

Основная функция что-то большое, что вы не могли сделать раньше.
Функция что-то, что вы не могли делать раньше.
Эффективность существующий признак теперь может не требовать столько вычислений или памяти.
Улучшение различные мелкие улучшения.
Исправление то, что ранее не работало, как задокументировано – или согласно разумным ожиданиям – теперь должно работать.
Изменение API вам потребуется изменить свой код, чтобы добиться того же эффекта в будущем; или функция будет удалена в будущем.

Версия 1.4.2#

апрель 2024

Этот выпуск включает поддержку только numpy 2.

Версия 1.4.1#

Февраль 2024

Измененные модели#

Изменение API The tree_.value атрибут в tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier и tree.ExtraTreeRegressor изменен с взвешенного абсолютного количества образцов на взвешенную долю от общего числа образцов. #27639 by Самуэль Ронсен.

Маршрутизация метаданных#

Исправление Исправление проблемы маршрутизации с ColumnTransformer при использовании внутри другого мета-оценщика. #28188 by Адрин Джалали.
Исправление Ошибка не возникает, когда метаданные не передаются метаоценщику, который включает суб-оценщик, не поддерживающий маршрутизацию метаданных. #28256 by Адрин Джалали.
Исправление Исправление multioutput.MultiOutputRegressor и multioutput.MultiOutputClassifier для работы с оценщиками, которые не используют метаданные при включенной маршрутизации метаданных. #28240 by Адрин Джалали.

Поддержка DataFrame#

Улучшение Исправление Фреймворки Pandas и Polars проверяются напрямую без проверок утиной типизации. #28195 by Томас Фан.

Изменения, затрагивающие многие модули#

Эффективность Исправление Частичный откат #28191 чтобы избежать регрессии производительности для оценщиков, полагающихся на евклидовы попарные вычисления с разреженными матрицами. Затронутые оценщики:
#28235 by Julien Jerphanion.
Исправление Исправляет ошибку для всех преобразователей scikit-learn при использовании set_output с transform установлено в pandas или polars. Ошибка могла привести к неправильному именованию столбцов возвращаемого датафрейма. #28262 by Guillaume Lemaitre.
Исправление Когда пользователи пытаются использовать метод в StackingClassifier, StackingClassifier, StackingClassifier, SelectFromModel, RFE, SelfTrainingClassifier, OneVsOneClassifier, OutputCodeClassifier или OneVsRestClassifier что их подоценщики не реализуют, AttributeError теперь повторно вызывает в трассировке. #28167 by Stefanie Senger.

Журнал изменений#

`sklearn.calibration`#

Исправление calibration.CalibratedClassifierCV поддерживает predict_proba с выходом float32 из внутреннего оценщика. #28247 by Томас Фан.

`sklearn.cluster`#

Исправление cluster.AffinityPropagation теперь избегает назначения нескольких разных кластеров для одинаковых точек. #28121 by Pietro Peterlongo и Yao Xiao.
Исправление Избежать бесконечного цикла в cluster.KMeans когда количество кластеров больше количества уникальных образцов. #28165 by Жереми дю Буаберранже.

`sklearn.compose`#

Исправление compose.ColumnTransformer теперь преобразуется в polars dataframe, когда verbose_feature_names_out=True и преобразователи, внутренне использовавшие одни и те же столбцы несколько раз. Ранее это вызывало ошибку из-за дублирования имен столбцов. #28262 by Guillaume Lemaitre.

`sklearn.ensemble`#

Исправление HistGradientBoostingClassifier и HistGradientBoostingRegressor при обучении на pandas DataFrame с расширенными типами данных, например pd.Int64Dtype #28385 by Loïc Estève.
Исправление Исправляет сообщение об ошибке, вызванное ensemble.VotingClassifier когда цель является многометочной или многоклассовой-многозначной в формате DataFrame. #27702 by Guillaume Lemaitre.

`sklearn.impute`#

Исправление : impute.SimpleImputer теперь вызывает ошибку в .fit и .transform if fill_value не может быть приведён к типу входного значения с casting='same_kind'. #28365 by Leo Grinsztajn.

`sklearn.inspection`#

Исправление inspection.permutation_importance теперь корректно обрабатывает sample_weight вместе с субдискретизацией (т.е. max_features < 1.0). #28184 by Michael Mayer.

`sklearn.linear_model`#

Исправление linear_model.ARDRegression теперь обрабатывает типы входных данных pandas для predict(X, return_std=True). #28377 by Эдди Бергман.

`sklearn.preprocessing`#

Исправление make preprocessing.FunctionTransformer более снисходительный и перезаписывает имена выходных столбцов с помощью get_feature_names_out в следующих случаях: (i) имена входных и выходных столбцов остаются одинаковыми (происходит при использовании NumPy ufunc); (ii) имена входных столбцов являются числами; (iii) вывод будет установлен в фрейм данных Pandas или Polars. #28241 by Guillaume Lemaitre.
Исправление preprocessing.FunctionTransformer теперь также предупреждает, когда set_output вызывается с transform="polars" и func не возвращает фрейм данных Polars или feature_names_out не указано. #28263 by Guillaume Lemaitre.
Исправление preprocessing.TargetEncoder больше не завершается ошибкой, когда target_type="continuous" и входные данные доступны только для чтения. В частности, теперь он работает с включенным режимом copy-on-write в pandas. #28233 by John Hopfensperger.

`sklearn.tree`#

Исправление tree.DecisionTreeClassifier и tree.DecisionTreeRegressor правильно обрабатывают пропущенные значения. Внутренний критерий не инициализировался, когда в данных не было пропущенных значений, что приводило к потенциально неверным значениям критерия. #28295 by Guillaume Lemaitre и #28327 by Adam Li.

`sklearn.utils`#

Улучшение Исправление utils.metaestimators.available_if теперь повторно вызывает ошибку из check функция как причина AttributeError. #28198 by Томас Фан.
Исправление utils._safe_indexing теперь вызывает ValueError когда X является списком Python и axis=1, как указано в документации. #28222 by Guillaume Lemaitre.

Версия 1.4.0#

Январь 2024

Измененные модели#

Следующие оценщики и функции, при обучении на тех же данных и параметрах, могут создавать модели, отличные от предыдущей версии. Это часто происходит из-за изменений в логике моделирования (исправления ошибок или улучшения) или в процедурах случайной выборки.

Эффективность linear_model.LogisticRegression и linear_model.LogisticRegressionCV теперь имеют гораздо лучшую сходимость для решателей "lbfgs" и "newton-cg". Оба решателя теперь могут достигать гораздо более высокой точности для коэффициентов в зависимости от указанного tol. Кроме того, lbfgs может более эффективно использовать tol, т.е., остановиться раньше или достичь более высокой точности. Примечание: lbfgs является решателем по умолчанию, поэтому это изменение может повлиять на многие модели. Это изменение также означает, что с этой новой версией scikit-learn, результирующие коэффициенты coef_ и intercept_ ваших моделей изменятся для этих двух решателей (при повторном обучении на тех же данных). Величина изменения зависит от указанного tol, для малых значений вы получите более точные результаты. #26721 by Christian Lorentzen.
Исправление исправляет утечку памяти, наблюдаемую в PyPy для оценщиков, использующих функции потерь на Cython. #27670 by Guillaume Lemaitre.

Изменения, затрагивающие все модули#

Основная функция Трансформеры теперь поддерживают вывод в polars с set_output(transform="polars"). #27315 by Томас Фан.
Улучшение Все оценщики теперь распознают имена столбцов из любого датафрейма, который использует DataFrame Interchange Protocol. Dataframes, которые возвращают корректное представление через np.asarray(df) ожидается работа с нашими оценщиками и функциями. #26464 by Томас Фан.
Улучшение HTML-представление оценщиков теперь включает ссылку на документацию и раскрашено для обозначения, является ли оценщик обученным или нет (необученные оценщики оранжевые, обученные — синие). #26616 by Риккардо Каппуццо, Инес Ибнухсеин, Гаэль Варокво, Joel Nothman и Lilian Boulard.
Исправление Исправлена ошибка в большинстве оценщиков и функций, где установка параметра на большое целое число вызывала TypeError. #26648 by Naoise Holohan.

Маршрутизация метаданных#

Следующие модели теперь поддерживают маршрутизацию метаданных в одном или нескольких своих методах. См. Руководство по маршрутизации метаданных для более подробной информации.

Функция LarsCV и LassoLarsCV теперь поддерживают маршрутизацию метаданных в своих fit метод и направлять метаданные к разделителю перекрестной проверки. #27538 by Omar Salman.
Функция multiclass.OneVsRestClassifier, multiclass.OneVsOneClassifier и multiclass.OutputCodeClassifier теперь поддерживают маршрутизацию метаданных в своих fit и partial_fit, и направлять метаданные в fit и partial_fit. #27308 by Stefanie Senger.
Функция pipeline.Pipeline теперь поддерживает маршрутизацию метаданных в соответствии с руководство по маршрутизации метаданных. #26789 by Адрин Джалали.
Функция cross_validate, cross_val_score, и cross_val_predict теперь поддерживают маршрутизацию метаданных. Метаданные направляются в fit, оценщик, и разделителя CV splitМетаданные принимаются через новый params параметр. fit_params устарел и будет удален в версии 1.6. groups параметр также не принимается как отдельный аргумент, когда маршрутизация метаданных включена, и должен передаваться через params параметр. #26896 by Адрин Джалали.
Функция GridSearchCV, RandomizedSearchCV, HalvingGridSearchCV, и HalvingRandomSearchCV теперь поддерживают маршрутизацию метаданных в своих fit и score, и направлять метаданные в fit, разделитель CV и оценщик. #27058 by Адрин Джалали.
Функция ColumnTransformer теперь поддерживает маршрутизацию метаданных в соответствии с руководство по маршрутизации метаданных. #27005 by Адрин Джалали.
Функция linear_model.LogisticRegressionCV теперь поддерживает маршрутизацию метаданных. linear_model.LogisticRegressionCV.fit теперь принимает **params которые передаются в базовый разделитель и оценщик. linear_model.LogisticRegressionCV.score теперь принимает **score_params которые передаются в базовый скорер. #26525 by Omar Salman.
Функция feature_selection.SelectFromModel теперь поддерживает маршрутизацию метаданных в fit и partial_fit. #27490 by Stefanie Senger.
Функция linear_model.OrthogonalMatchingPursuitCV теперь поддерживает маршрутизацию метаданных. Его fit теперь принимает **fit_params, которые передаются в базовый разделитель. #27500 by Stefanie Senger.
Функция ElasticNetCV, LassoCV, MultiTaskElasticNetCV и MultiTaskLassoCV теперь поддерживают маршрутизацию метаданных и направляют метаданные к разделителю CV. #27478 by Omar Salman.
Исправление Все мета-оценщики, для которых маршрутизация метаданных еще не реализована, теперь вызывают NotImplementedError на get_metadata_routing и на fit если маршрутизация метаданных включена и любые метаданные передаются им. #27389 by Адрин Джалали.

Поддержка разреженных массивов SciPy#

Несколько оценщиков теперь поддерживают разреженные массивы SciPy. Затронуты следующие функции и классы:

Функции:

Классы:

cluster.HDBSCAN в #27250 by Yao Xiao;
cluster.KMeans в #27179 by Нурсит Камчиев;
cluster.MiniBatchKMeans в #27179 by Нурсит Камчиев;
cluster.OPTICS в #27104 by Марен Вестерманн и в #27250 by Yao Xiao;
cluster.SpectralClustering в #27161 by Bharat Raghunathan;
decomposition.MiniBatchNMF в #27100 by Isaac Virshup;
decomposition.NMF в #27100 by Isaac Virshup;
feature_extraction.text.TfidfTransformer в #27219 by Yao Xiao;
manifold.Isomap в #27250 by Yao Xiao;
manifold.SpectralEmbedding в #27240 by Yao Xiao;
manifold.TSNE в #27250 by Yao Xiao;
impute.SimpleImputer в #27277 by Yao Xiao;
impute.IterativeImputer в #27277 by Yao Xiao;
impute.KNNImputer в #27277 by Yao Xiao;
kernel_approximation.PolynomialCountSketch в #27301 by Lohit SundaramahaLingam;
neural_network.BernoulliRBM в #27252 by Yao Xiao;
preprocessing.PolynomialFeatures в #27166 by Mohit Joshi;
random_projection.GaussianRandomProjection в #27314 by Stefanie Senger;
random_projection.SparseRandomProjection в #27314 by Stefanie Senger.

Поддержка Array API#

Несколько оценщиков и функций поддерживают Array API. Такие изменения позволяют использовать оценщики и функции с другими библиотеками, такими как JAX, CuPy и PyTorch. Это, таким образом, обеспечивает некоторые вычисления с ускорением на GPU.

См. Поддержка Array API (экспериментальная) для получения дополнительной информации.

Функции:

Классы:

decomposition.PCA для full и randomized солверы (с QR степенными итерациями) в #26315, #27098 и #27431 by Mateusz Sokół, Оливье Гризель и Эдоардо Абати;
preprocessing.KernelCenterer в #27556 by Эдоардо Абати;
preprocessing.MaxAbsScaler в #27110 by Эдоардо Абати;
preprocessing.MinMaxScaler в #26243 by Tim Head;
preprocessing.Normalizer в #27558 by Эдоардо Абати.

Модуль приватной функции потерь#

Исправление Вычисление градиента биномиальной логарифмической потери теперь численно более стабильно для очень больших, по абсолютному значению, входных данных (сырых предсказаний). Раньше это могло приводить к np.nan. Среди моделей, которые выигрывают от этого изменения, ensemble.GradientBoostingClassifier, ensemble.HistGradientBoostingClassifier и linear_model.LogisticRegression. #28048 by Christian Lorentzen.

Журнал изменений#

`sklearn.base`#

Улучшение base.ClusterMixin.fit_predict и base.OutlierMixin.fit_predict теперь принимают **kwargs которые передаются в fit метод оценщика. #26506 by Адрин Джалали.
Улучшение base.TransformerMixin.fit_transform и base.OutlierMixin.fit_predict теперь выдает предупреждение, если transform / predict потребляют метаданные, но не пользовательские fit_transform / fit_predict определён в классе, наследующем от них соответственно. #26831 by Адрин Джалали.
Улучшение base.clone теперь поддерживает dict как вход и создаёт копию. #26786 by Адрин Джалали.
Изменение API process_routing теперь имеет другую сигнатуру. Первые два (объект и метод) являются только позиционными, а все метаданные передаются как именованные аргументы. #26909 by Адрин Джалали.

`sklearn.calibration`#

Улучшение Внутренняя цель и градиент sigmoid метод из calibration.CalibratedClassifierCV были заменены приватным модулем потерь. #27185 by Omar Salman.

`sklearn.cluster`#

Исправление The degree параметр в cluster.SpectralClustering конструктор теперь принимает действительные значения вместо только целочисленных значений в соответствии с degree параметр sklearn.metrics.pairwise.polynomial_kernel. #27668 by Нолан МакМахон.
Исправление Исправлена ошибка в cluster.OPTICS где коррекция кластера на основе предшественника не использовала правильную индексацию. Это приводило к несовместимым результатам в зависимости от порядка данных. #26459 by Хаоин Чжан и Guillaume Lemaitre.
Исправление Улучшено сообщение об ошибке при проверке количества связных компонентов в fit метод cluster.HDBSCAN. #27678 by Ganesh Tata.
Исправление Создание копии предварительно вычисленной разреженной матрицы внутри fit метод cluster.DBSCAN чтобы избежать модификации на месте разреженной матрицы. #27651 by Ganesh Tata.
Исправление Вызывает правильное ValueError когда metric="precomputed" и запросили сохранение центров через параметр store_centers. #27898 by Guillaume Lemaitre.
Изменение API kdtree и balltree значения теперь устарели и переименованы как kd_tree и ball_tree соответственно для algorithm параметр cluster.HDBSCAN обеспечение согласованности в соглашении об именовании. kdtree и balltree значения будут удалены в версии 1.6. #26744 by Shreesha Kumar Bhat.
Изменение API Опция metric=None в cluster.AgglomerativeClustering и cluster.FeatureAgglomeration устарел в версии 1.4 и будет удален в версии 1.6. Используйте значение по умолчанию вместо этого. #27828 by Guillaume Lemaitre.

`sklearn.compose`#

Основная функция Добавляет polars поддержка ввода для compose.ColumnTransformer через DataFrame Interchange Protocol. Минимальная поддерживаемая версия для polars — 0.19.12. #26683 by Томас Фан.
Исправление cluster.spectral_clustering и cluster.SpectralClustering теперь выдают явное сообщение об ошибке, указывающее, что разреженные матрицы и массивы с np.int64 индексы не поддерживаются. #27240 by Yao Xiao.
Изменение API выходные данные, использующие типы данных расширения pandas и содержащие pd.NA в ColumnTransformer теперь приводят к FutureWarning и вызовет ValueError в версии 1.6, если контейнер вывода не был настроен как "pandas" с set_output(transform="pandas"). Раньше такие выходы приводили к массивам numpy с типом данных object содержащий pd.NA которые не могли быть преобразованы в numpy floats и вызывали ошибки при передаче другим оценщикам scikit-learn. #27734 by Жером Докес.

`sklearn.covariance`#

Улучшение Разрешить covariance.shrunk_covariance для обработки нескольких ковариационных матриц одновременно, работая с nd-массивами. #25275 by Квентин Бартелеми.
Изменение API Исправление ColumnTransformer теперь заменяет "passthrough" с соответствующим FunctionTransformer в обученной transformers_ атрибут. #27204 by Адрин Джалали.

`sklearn.datasets`#

Улучшение datasets.make_sparse_spd_matrix теперь использует более эффективную по памяти разреженную структуру. Он также принимает новый ключевой параметр sparse_format который позволяет указывать формат вывода разреженной матрицы. По умолчанию sparse_format=None, который возвращает плотный numpy ndarray, как и раньше. #27438 by Yao Xiao.
Исправление datasets.dump_svmlight_file теперь не вызывает исключения ValueError когда X доступен только для чтения, например, numpy.memmap экземпляр. #28111 by Yao Xiao.
Изменение API datasets.make_sparse_spd_matrix Алгоритм LARS, сделанный более численно устойчивым с помощью эвристик для отбрасывания слишком коррелированных регрессоров, а также для остановки пути, когда числовой шум становится преобладающим, путем dim в пользу n_dim. dim будет удален в версии 1.6. #27718 by Adam Li.

`sklearn.decomposition`#

Функция decomposition.PCA теперь поддерживает scipy.sparse.sparray и scipy.sparse.spmatrix входные данные при использовании arpack решатель. При использовании на разреженных данных, таких как datasets.fetch_20newsgroups_vectorized это может привести к ускорению в 100 раз (однопоточное) и снижению использования памяти в 70 раз. Основано на Александр Тарашанскийреализация в scanpy. #18689 by Isaac Virshup и Andrey Portnoy.
Улучшение Был добавлен параметр "auto" в n_components параметр decomposition.non_negative_factorization, decomposition.NMF и decomposition.MiniBatchNMF автоматически определять количество компонентов из форм W или H при использовании пользовательской инициализации. Значение по умолчанию этого параметра изменится с None to auto в версии 1.6. #26634 by Александр Ландо и Alexandre Vigny.
Исправление decomposition.dict_learning_online больше не игнорирует параметр max_iter. #27834 by Guillaume Lemaitre.
Исправление The degree параметр в decomposition.KernelPCA конструктор теперь принимает действительные значения вместо только целочисленных значений в соответствии с degree параметр sklearn.metrics.pairwise.polynomial_kernel. #27668 by Нолан МакМахон.
Изменение API Опция max_iter=None в decomposition.MiniBatchDictionaryLearning, decomposition.MiniBatchSparsePCA, и decomposition.dict_learning_online устарел и будет удалён в версии 1.6. Используйте значение по умолчанию. #27834 by Guillaume Lemaitre.

`sklearn.ensemble`#

Основная функция ensemble.RandomForestClassifier и ensemble.RandomForestRegressor поддерживает пропущенные значения, когда критерий gini, entropy, или log_loss, для классификации или squared_error, friedman_mse, или poisson для регрессии. #26391 by Томас Фан.
Основная функция ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor поддержка categorical_features="from_dtype", который обрабатывает столбцы с типом Pandas или Polars Categorical как категории в алгоритме. categorical_features="from_dtype" станет значением по умолчанию в v1.6. Категориальные признаки больше не нужно кодировать числами. Когда категориальные признаки являются числами, максимальное значение больше не должно быть меньше чем max_bins; только количество (уникальных) категорий должно быть меньше max_bins. #26411 by Томас Фан и #27835 by Жером Докес.
Основная функция ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor получил новый параметр max_features чтобы указать долю случайно выбранных признаков, рассматриваемых в каждом разбиении. #27139 by Christian Lorentzen.
Функция ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier и ensemble.ExtraTreesRegressor теперь поддерживают монотонные ограничения, полезные, когда признаки предположительно оказывают положительное/отрицательное влияние на цель. Пропущенные значения в обучающих данных и многомерные цели не поддерживаются. #13649 by Самуэль Ронсен, инициировано Patrick O’Reilly.
Эффективность ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor теперь немного быстрее за счёт повторного использования гистограммы родительского узла как гистограммы дочернего узла в трюке вычитания. В результате требуется меньше выделения и освобождения памяти. #27865 by Christian Lorentzen.
Эффективность ensemble.GradientBoostingClassifier работает быстрее для бинарных и особенно для многоклассовых задач благодаря модулю приватной функции потерь. #26278 и #28095 by Christian Lorentzen.
Эффективность Улучшает время выполнения и использование памяти для ensemble.GradientBoostingClassifier и ensemble.GradientBoostingRegressor при обучении на разреженных данных. #26957 by Томас Фан.
Эффективность ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor теперь работает быстрее, когда scoring является предопределенной метрикой, перечисленной в metrics.get_scorer_names и ранняя остановка включена. #26163 by Томас Фан.
Улучшение Настроенное свойство, estimators_samples_, был добавлен ко всем методам Forest, включая ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier и ensemble.ExtraTreesRegressor, что позволяет получить индексы обучающих выборок, использованных для каждого дерева-оценщика. #26736 by Adam Li.
Исправление Исправления ensemble.IsolationForest когда входные данные являются разреженной матрицей и contamination установлен в значение с плавающей точкой. #27645 by Guillaume Lemaitre.
Исправление Вызывает ValueError в ensemble.RandomForestRegressor и ensemble.ExtraTreesRegressor при запросе OOB оценки с многомерной моделью для целей, которые все округлены до целого числа. Это было распознано как многоклассовая задача. #27817 by Daniele Ongari
Исправление Изменяет теги оценщика, чтобы признать, что ensemble.VotingClassifier, ensemble.VotingRegressor, ensemble.StackingClassifier, ensemble.StackingRegressor, поддерживают пропущенные значения, если все estimators Поддерживает пропущенные значения. #27710 by Guillaume Lemaitre.
Исправление Поддержка загрузки пиклов ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor когда pickle был сгенерирован на платформе с другой разрядностью. Типичный пример — обучение и сохранение модели на 64-битной машине и загрузка модели на 32- битной машине для предсказания. #28074 by Christian Lorentzen и Loïc Estève.
Изменение API В ensemble.AdaBoostClassifier, algorithm аргумент SAMME.R был устаревшим и будет удален в 1.6. #26830 by Stefanie Senger.

`sklearn.feature_extraction`#

Изменение API Изменен тип ошибки с AttributeError to exceptions.NotFittedError в неподогнанных экземплярах feature_extraction.DictVectorizer для следующих методов: feature_extraction.DictVectorizer.inverse_transform, feature_extraction.DictVectorizer.restrict, feature_extraction.DictVectorizer.transform. #24838 by Lorenz Hertel.

`sklearn.feature_selection`#

Улучшение feature_selection.SelectKBest, feature_selection.SelectPercentile, и feature_selection.GenericUnivariateSelect теперь поддерживают неконтролируемый отбор признаков, предоставляя score_func занимает X и y=None. #27721 by Guillaume Lemaitre.
Улучшение feature_selection.SelectKBest и feature_selection.GenericUnivariateSelect с mode='k_best' теперь показывает предупреждение, когда k больше, чем количество признаков. #27841 by Томас Фан.
Исправление feature_selection.RFE и feature_selection.RFECV не проверяют наличие nan во время проверки входных данных. #21807 by Томас Фан.

`sklearn.inspection`#

Улучшение inspection.DecisionBoundaryDisplay теперь принимает параметр class_of_interest для выбора интересующего класса при построении отклика, предоставленного response_method="predict_proba" или response_method="decision_function". Это позволяет построить границу решения как для бинарных, так и для многоклассовых классификаторов. #27291 by Guillaume Lemaitre.
Исправление inspection.DecisionBoundaryDisplay.from_estimator и inspection.PartialDependenceDisplay.from_estimator теперь возвращают правильный тип для подклассов. #27675 by Джон Кант.
Изменение API inspection.DecisionBoundaryDisplay вызывает AttributeError вместо ValueError когда оценщик не реализует запрошенный метод ответа. #27291 by Guillaume Lemaitre.

`sklearn.kernel_ridge`#

Исправление The degree параметр в kernel_ridge.KernelRidge конструктор теперь принимает действительные значения вместо только целочисленных значений в соответствии с degree параметр sklearn.metrics.pairwise.polynomial_kernel. #27668 by Нолан МакМахон.

`sklearn.linear_model`#

Эффективность linear_model.LogisticRegression и linear_model.LogisticRegressionCV теперь имеют гораздо лучшую сходимость для решателей "lbfgs" и "newton-cg". Оба решателя теперь могут достигать гораздо более высокой точности для коэффициентов в зависимости от указанного tol. Кроме того, lbfgs может более эффективно использовать tol, т.е. остановиться раньше или достичь более высокой точности. Это достигается за счет лучшего масштабирования целевой функции, т.е. использования средних потерь на выборку вместо суммы потерь на выборку. #26721 by Christian Lorentzen.
Эффективность linear_model.LogisticRegression и linear_model.LogisticRegressionCV с решателем "newton-cg" теперь может быть значительно быстрее для некоторых данных и настроек параметров. Это достигается за счёт улучшенной проверки сходимости линейного поиска для незначительных улучшений потерь, которая учитывает информацию о градиенте. #26721 by Christian Lorentzen.
Эффективность Решатель "newton-cg" в linear_model.LogisticRegression и linear_model.LogisticRegressionCV использует немного меньше памяти. Эффект пропорционален количеству коэффициентов (n_features * n_classes). #27417 by Christian Lorentzen.
Исправление Убедитесь, что sigma_ атрибут linear_model.ARDRegression и linear_model.BayesianRidge всегда имеет float32 dtype при обучении на float32 создает многоклассовый набор данных, распределяя каждый класс по одному нормально распределенному кластеру точек. Он предоставляет контроль над центрами и стандартными отклонениями каждого кластера. Этот набор данных используется для демонстрации кластеризации. #27899 by Оливье Гризель.
Изменение API Атрибут loss_function_ of linear_model.SGDClassifier и linear_model.SGDOneClassSVM устарел и будет удален в версии 1.6. #27979 by Christian Lorentzen.

`sklearn.metrics`#

Эффективность Вычисление попарных расстояний через metrics.DistanceMetric для CSR x CSR, Dense x CSR и CSR x Dense наборов данных теперь в 1.5 раза быстрее. #26765 by Meekail Zain.
Эффективность Вычисление расстояний через metrics.DistanceMetric для CSR x CSR, Dense x CSR и CSR x Dense теперь использует ~50% меньше памяти, и выводит расстояния в том же типе данных, что и предоставленные данные. #27006 by Meekail Zain.
Улучшение Улучшить отображение графика, полученного с помощью metrics.PrecisionRecallDisplay и metrics.RocCurveDisplay классов. Пределы по осям x и y установлены на [0, 1], а соотношение сторон между обеими осями установлено равным 1 для получения квадратного графика. #26366 by Mojdeh Rastgoo.
Улучшение Добавлен neg_root_mean_squared_log_error_scorer в качестве скорера #26734 by Алехандро Мартин Хиль.
Улучшение metrics.confusion_matrix теперь предупреждает, когда только одна метка была найдена в y_true и y_pred. #27650 by Lucy Liu.
Исправление вычисление попарных расстояний с metrics.pairwise.euclidean_distances больше не вызывает исключение, когда X предоставляется как float64 массив и X_norm_squared в качестве float32 массив. #27624 by Жером Докес.
Исправление f1_score теперь предоставляет корректные значения при обработке различных случаев, когда происходит деление на ноль, используя формулировку, не зависящую от значений точности и полноты. #27577 by Omar Salman и Guillaume Lemaitre.
Исправление metrics.make_scorer теперь вызывает ошибку при использовании регрессора на оценщике, требующем не пороговой функции принятия решения (из decision_function или predict_proba). Такие метрики специфичны для классификации. #26840 by Guillaume Lemaitre.
Исправление metrics.DetCurveDisplay.from_predictions, metrics.PrecisionRecallDisplay.from_predictions, metrics.PredictionErrorDisplay.from_predictions, и metrics.RocCurveDisplay.from_predictions теперь возвращает правильный тип для подклассов. #27675 by Джон Кант.
Изменение API Устаревший needs_threshold и needs_proba из metrics.make_scorer. Эти параметры будут удалены в версии 1.6. Вместо них используйте response_method который принимает "predict", "predict_proba" или "decision_function" или список таких значений. needs_proba=True эквивалентно response_method="predict_proba" и needs_threshold=True эквивалентно response_method=("decision_function", "predict_proba"). #26840 by Guillaume Lemaitre.
Изменение API The squared параметр metrics.mean_squared_error и metrics.mean_squared_log_error устарела и будет удалена в версии 1.6. Используйте новые функции metrics.root_mean_squared_error и metrics.root_mean_squared_log_error вместо этого. #26734 by Алехандро Мартин Хиль.

`sklearn.model_selection`#

Улучшение model_selection.learning_curve выдает предупреждение, когда каждая складка перекрестной проверки завершается неудачей. #26299 by Rahil Parikh.
Исправление model_selection.GridSearchCV, model_selection.RandomizedSearchCV, и model_selection.HalvingGridSearchCV теперь не изменяет заданный объект в сетке параметров, если это оценщик. #26786 by Адрин Джалали.

`sklearn.multioutput`#

Улучшение Добавить метод predict_log_proba to multioutput.ClassifierChain. #27720 by Guillaume Lemaitre.

`sklearn.neighbors`#

Эффективность sklearn.neighbors.KNeighborsRegressor.predict и sklearn.neighbors.KNeighborsClassifier.predict_proba теперь эффективно поддерживают пары плотных и разреженных наборов данных. #27018 by Julien Jerphanion.
Эффективность Производительность neighbors.RadiusNeighborsClassifier.predict и из neighbors.RadiusNeighborsClassifier.predict_proba был улучшен когда radius велик и algorithm="brute" с неевклидовыми метриками. #26828 by Omar Salman.
Исправление Улучшить сообщение об ошибке для neighbors.LocalOutlierFactor когда он вызывается с n_samples=n_neighbors. #23317 by Bharat Raghunathan.
Исправление neighbors.KNeighborsClassifier.predict и neighbors.KNeighborsClassifier.predict_proba теперь вызывает ошибку, когда веса всех соседей некоторого образца равны нулю. Это может произойти, когда weights (поддерживает только метрики "cosine", "euclidean", "manhattan" и "l2") #26410 by Yao Xiao.
Изменение API neighbors.KNeighborsRegressor теперь принимает metrics.DistanceMetric объекты напрямую через metric аргумент ключевого слова, позволяющий использовать ускоренные сторонние metrics.DistanceMetric объекты. #26267 by Meekail Zain.

`sklearn.preprocessing`#

Эффективность preprocessing.OrdinalEncoder избегает вычисления пропущенных индексов дважды для повышения эффективности. #27017 by Xuefeng Xu.
Эффективность Повышает эффективность в preprocessing.OneHotEncoder и preprocessing.OrdinalEncoder при проверке nan. #27760 by Xuefeng Xu.
Улучшение Улучшает предупреждения в preprocessing.FunctionTransformer когда func возвращает pandas dataframe, и вывод настроен на pandas. #26944 by Томас Фан.
Улучшение preprocessing.TargetEncoder теперь поддерживает target_type 'multiclass'. #26674 by Lucy Liu.
Исправление preprocessing.OneHotEncoder и preprocessing.OrdinalEncoder вызвать исключение, когда nan является категорией и не последней в предоставленных пользователем категориях. #27309 by Xuefeng Xu.
Исправление preprocessing.OneHotEncoder и preprocessing.OrdinalEncoder вызвать исключение, если предоставленные пользователем категории содержат дубликаты. #27328 by Xuefeng Xu.
Исправление preprocessing.FunctionTransformer вызывает ошибку в transform если вывод get_feature_names_out не согласуется с именами столбцов выходного контейнера, если они определены. #27801 by Guillaume Lemaitre.
Исправление Вызвать NotFittedError в preprocessing.OrdinalEncoder при вызове transform без вызова fit с categories всегда требует проверки. #27821 by Guillaume Lemaitre.

`sklearn.tree`#

Функция tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier и tree.ExtraTreeRegressor теперь поддерживает монотонные ограничения, полезные когда признаки должны оказывать положительное/отрицательное влияние на целевую переменную. Пропущенные значения в обучающих данных и многомерные целевые переменные не поддерживаются. #13649 by Самуэль Ронсен, инициированный Patrick O’Reilly.

`sklearn.utils`#

Улучшение sklearn.utils.estimator_html_repr динамически адаптирует цвета диаграмм на основе prefers-color-scheme, обеспечивая улучшенную адаптируемость к темным темам окружения. #26862 by Эндрю Гох Ишенг, Томас Фан, Адрин Джалали.
Улучшение MetadataRequest и MetadataRouter теперь имеют consumes метод, который можно использовать для проверки, будет ли использован заданный набор параметров. #26831 by Адрин Джалали.
Улучшение Сделать sklearn.utils.check_array попытка вывести int32-индексированные CSR и COO массивы при конвертации из DIA массивов, если количество ненулевых элементов достаточно мало. Это гарантирует, что оценщики, реализованные на Cython и которые не принимают int64-индексированная разреженная структура данных теперь последовательно принимает те же форматы разреженного ввода для разреженных матриц и массивов SciPy. #27372 by Guillaume Lemaitre.
Исправление sklearn.utils.check_array должен принимать как матрицы, так и массивы из разреженного модуля SciPy. Предыдущая реализация завершалась ошибкой, если copy=True путем вызова конкретных функций NumPy np.may_share_memory который не работает с разреженными массивами SciPy и не возвращает правильный результат для разреженных матриц SciPy. #27336 by Guillaume Lemaitre.
Исправление check_estimators_pickle с readonly_memmap=True теперь полагается на собственную возможность joblib выделять выровненные массивы, отображённые в память, при загрузке сериализованного оценщика, вместо вызова выделенной приватной функции, которая могла бы завершиться сбоем, когда OpenBLAS неправильно определяет архитектуру процессора. #27614 by Оливье Гризель.
Исправление Сообщение об ошибке в check_array когда передавалась разреженная матрица, но accept_sparse является False теперь предлагает использовать .toarray() и не X.toarray(). #27757 by Lucy Liu.
Исправление Исправить функцию check_array для вывода правильного сообщения об ошибке когда входные данные являются Series вместо DataFrame. #28090 by Stan Furrer и Yao Xiao.
Изменение API sklearn.utils.extmath.log_logistic устарел и будет удалён в версии 1.6. Используйте -np.logaddexp(0, -x) вместо этого. #27544 by Christian Lorentzen.

Участники кода и документации

Благодарим всех, кто внес вклад в поддержку и улучшение проекта с версии 1.3, включая:

101AlexMartin, Abhishek Singh Kushwah, Adam Li, Adarsh Wase, Adrin Jalali, Advik Sinha, Alex, Alexander Al-Feghali, Alexis IMBERT, AlexL, Alex Molas, Anam Fatima, Andrew Goh, andyscanzio, Aniket Patil, Artem Kislovskiy, Arturo Amor, ashah002, avm19, Ben Holmes, Ben Mares, Benoit Chevallier-Mames, Bharat Raghunathan, Binesh Bannerjee, Brendan Lu, Brevin Kunde, Camille Troillard, Carlo Lemos, Chad Parmet, Christian Clauss, Christian Lorentzen, Christian Veenhuis, Christos Aridas, Cindy Liang, Claudio Salvatore Arcidiacono, Connor Boyle, cynthias13w, DaminK, Daniele Ongari, Daniel Schmitz, Daniel Tinoco, David Brochart, Deborah L. Haar, DevanshKyada27, Dimitri Papadopoulos Orfanos, Dmitry Nesterov, DUONG, Edoardo Abati, Eitan Hemed, Elabonga Atuo, Elisabeth Günther, Emma Carballal, Emmanuel Ferdman, epimorphic, Erwan Le Floch, Fabian Egli, Filip Karlo Došilović, Florian Idelberger, Franck Charras, Gael Varoquaux, Ganesh Tata, Hleb Levitski, Guillaume Lemaitre, Haoying Zhang, Harmanan Kohli, Ily, ioangatop, IsaacTrost, Isaac Virshup, Iwona Zdzieblo, Jakub Kaczmarzyk, James McDermott, Jarrod Millman, JB Mountford, Jérémie du Boisberranger, Jérôme Dockès, Jiawei Zhang, Joel Nothman, John Cant, John Hopfensperger, Jona Sassenhagen, Jon Nordby, Julien Jerphanion, Kennedy Waweru, kevin moore, Kian Eliasi, Kishan Ved, Konstantinos Pitas, Koustav Ghosh, Kushan Sharma, ldwy4, Linus, Lohit SundaramahaLingam, Loic Esteve, Lorenz, Louis Fouquet, Lucy Liu, Luis Silvestrin, Lukáš Folwarczný, Lukas Geiger, Malte Londschien, Marcus Fraaß, Marek Hanuš, Maren Westermann, Mark Elliot, Martin Larralde, Mateusz Sokół, mathurinm, mecopur, Meekail Zain, Michael Higgins, Miki Watanabe, Milton Gomez, MN193, Mohammed Hamdy, Mohit Joshi, mrastgoo, Naman Dhingra, Naoise Holohan, Narendra Singh dangi, Noa Malem-Shinitski, Nolan, Nurseit Kamchyev, Oleksii Kachaiev, Olivier Grisel, Omar Salman, partev, Peter Hull, Peter Steinbach, Pierre de Fréminville, Pooja Subramaniam, Puneeth K, qmarcou, Quentin Barthélemy, Rahil Parikh, Rahul Mahajan, Raj Pulapakura, Raphael, Ricardo Peres, Riccardo Cappuzzo, Roman Lutz, Salim Dohri, Samuel O. Ronsin, Sandip Dutta, Sayed Qaiser Ali, scaja, scikit-learn-bot, Sebastian Berg, Shreesha Kumar Bhat, Shubhal Gupta, Søren Fuglede Jørgensen, Stefanie Senger, Tamara, Tanjina Afroj, THARAK HEGDE, thebabush, Thomas J. Fan, Thomas Roehr, Tialo, Tim Head, tongyu, Venkatachalam N, Vijeth Moudgalya, Vincent M, Vivek Reddy P, Vladimir Fokow, Xiao Yuan, Xuefeng Xu, Yang Tao, Yao Xiao, Yuchen Zhou, Yuusuke Hiramatsu

Версия 1.4#

Версия 1.4.2#

Версия 1.4.1#

Измененные модели#

Маршрутизация метаданных#

Поддержка DataFrame#

Изменения, затрагивающие многие модули#

Журнал изменений#

Версия 1.4.0#

Измененные модели#

Изменения, затрагивающие все модули#

Маршрутизация метаданных#

Поддержка разреженных массивов SciPy#

Поддержка Array API#

Модуль приватной функции потерь#

Журнал изменений#

Эта страница