Версия 1.2#

Для краткого описания основных особенностей выпуска, пожалуйста, обратитесь к Основные новости выпуска scikit-learn 1.2.

Легенда для списков изменений

Основная функция что-то большое, что вы не могли сделать раньше.
Функция что-то, что вы не могли делать раньше.
Эффективность существующий признак теперь может не требовать столько вычислений или памяти.
Улучшение различные мелкие улучшения.
Исправление то, что ранее не работало, как задокументировано – или согласно разумным ожиданиям – теперь должно работать.
Изменение API вам потребуется изменить свой код, чтобы добиться того же эффекта в будущем; или функция будет удалена в будущем.

Версия 1.2.2#

Март 2023

Журнал изменений#

`sklearn.base`#

Исправление Когда set_output(transform="pandas"), base.TransformerMixin сохраняет индекс, если преобразовать выход уже является DataFrame. #25747 by Томас Фан.

`sklearn.calibration`#

Исправление Предупреждение об устаревании выводится при использовании base_estimator__ префикс для установки параметров оценщика, используемого в calibration.CalibratedClassifierCV. #25477 by Tim Head.

`sklearn.cluster`#

Исправление Исправлена ошибка в cluster.BisectingKMeans, предотвращая fit от случайного сбоя из-за перестановки меток при запуске нескольких инициализаций. #25563 by Жереми дю Буаберранже.

`sklearn.compose`#

Исправление Исправлена ошибка в compose.ColumnTransformer который теперь поддерживает пустой выбор столбцов, когда set_output(transform="pandas"). #25570 by Томас Фан.

`sklearn.ensemble`#

Исправление Предупреждение об устаревании выводится при использовании base_estimator__ префикс для установки параметров оценщика, используемого в ensemble.AdaBoostClassifier, ensemble.AdaBoostRegressor, ensemble.BaggingClassifier, и ensemble.BaggingRegressor. #25477 by Tim Head.

`sklearn.feature_selection`#

Исправление Исправлена регрессия, где отрицательное tol больше не будет приниматься feature_selection.SequentialFeatureSelector. #25664 by Жереми дю Буаберранже.

`sklearn.inspection`#

Исправление Выдать более информативное сообщение об ошибке в inspection.partial_dependence при работе со смешанными типами категорий, которые не могут быть отсортированы по numpy.uniqueЭта проблема обычно возникает, когда категории str и присутствуют пропущенные значения, используя np.nan. #25774 by Guillaume Lemaitre.

`sklearn.isotonic`#

Исправление Исправлена ошибка в isotonic.IsotonicRegression где isotonic.IsotonicRegression.predict вернет pandas DataFrame когда глобальная конфигурация устанавливает transform_output="pandas". #25500 by Guillaume Lemaitre.

`sklearn.preprocessing`#

Исправление preprocessing.OneHotEncoder.drop_idx_ теперь правильно ссылается на удаленную категорию в categories_ атрибут когда есть редкие категории. #25589 by Томас Фан.
Исправление preprocessing.OrdinalEncoder теперь корректно поддерживает encoded_missing_value или unknown_value устанавливается в мощность категорий при наличии пропущенных значений в обучающих данных. #25704 by Томас Фан.

`sklearn.tree`#

Исправление Исправлена регрессия в tree.DecisionTreeClassifier, tree.DecisionTreeRegressor, tree.ExtraTreeClassifier и tree.ExtraTreeRegressor где ошибка больше не возникала в версии 1.2, когда min_sample_split=1. #25744 by Жереми дю Буаберранже.

`sklearn.utils`#

Исправление Исправлена ошибка в utils.check_array который теперь корректно выполняет проверку на неконечные значения в соответствии со спецификацией Array API. #25619 by Томас Фан.
Исправление utils.multiclass.type_of_target может идентифицировать pandas нулевые типы данных как цели классификации. #25638 by Томас Фан.

Версия 1.2.1#

Январь 2023

Измененные модели#

Следующие оценщики и функции, при обучении на тех же данных и параметрах, могут создавать модели, отличные от предыдущей версии. Это часто происходит из-за изменений в логике моделирования (исправления ошибок или улучшения) или в процедурах случайной выборки.

Исправление Обученные компоненты в decomposition.MiniBatchDictionaryLearning может отличаться. Онлайн обновления достаточных статистик теперь правильно учитывают размеры пакетов. #25354 by Жереми дю Буаберранже.
Исправление The categories_ атрибут preprocessing.OneHotEncoder теперь всегда содержит массив object`s when using predefined categories that are strings. Predefined categories encoded as bytes will no longer work with `X закодированные как строки. #25174 by Tim Head.

Изменения, затрагивающие все модули#

Исправление Поддержка pandas.Int64 типизированный y для классификаторов и регрессоров. #25089 by Tim Head.
Исправление Устранение ложных предупреждений для оценщиков, внутренне использующих методы поиска соседей. #25129 by Julien Jerphanion.
Исправление Исправлена ошибка, при которой текущая конфигурация игнорировалась в оценщиках, использующих n_jobs > 1. Эта ошибка была вызвана задачами, отправленными вспомогательным потоком joblib как sklearn.get_config используется для доступа к пустой потоковой локальной конфигурации вместо конфигурации, видимой из потока, где joblib.Parallel был впервые вызван. #25363 by Guillaume Lemaitre.

Журнал изменений#

`sklearn.base`#

Исправление Исправлена регрессия в BaseEstimator.__getstate__ который мог бы помешать некоторым оценщикам быть сериализованными при использовании Python 3.11. #25188 by Бенджамин Боссан.
Исправление Наследование от base.TransformerMixin будет оборачивать только transform метод, если класс определяет transform самого себя. #25295 by Томас Фан.

`sklearn.datasets`#

Исправление Исправляет несоответствие в datasets.fetch_openml между liac-arff и парсером pandas, когда вводится начальный пробел после разделителя. Спецификации ARFF требуют игнорировать начальный пробел. #25312 by Guillaume Lemaitre.
Исправление Исправлена ошибка в datasets.fetch_openml при использовании parser="pandas" где одиночные кавычки и escape-символы обратной косой черты обрабатывались неправильно. #25511 by Guillaume Lemaitre.

`sklearn.decomposition`#

Исправление Исправлена ошибка в decomposition.MiniBatchDictionaryLearning где онлайн-обновления достаточных статистик были некорректными при вызове partial_fit на пакетах разного размера. #25354 by Жереми дю Буаберранже.
Исправление decomposition.DictionaryLearning лучше поддерживает массивы NumPy только для чтения. В частности, он лучше поддерживает большие наборы данных, которые отображаются в память, когда используется с алгоритмами координатного спуска (т.е. когда fit_algorithm='cd'). #25172 by Julien Jerphanion.

`sklearn.ensemble`#

Исправление ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier и ensemble.ExtraTreesRegressor теперь поддерживают разреженные наборы данных только для чтения. #25341 by Julien Jerphanion

`sklearn.feature_extraction`#

Исправление feature_extraction.FeatureHasher вызывает информативную ошибку когда входные данные представляют собой список строк. #25094 by Томас Фан.

`sklearn.linear_model`#

Исправление Исправлена регрессия в linear_model.SGDClassifier и linear_model.SGDRegressor что делает их непригодными для использования с verbose параметр установлен в значение больше 0. #25250 by Jérémie Du Boisberranger.

`sklearn.manifold`#

Исправление manifold.TSNE теперь работает корректно, когда тип вывода установлен в pandas #25370 by Tim Head.

`sklearn.model_selection`#

Исправление model_selection.cross_validate при многометрической оценке в случае некоторых неудачных оценщиков теперь неудачные оценщики возвращают правильные оценки вместо error_score значения. #23101 by András Simon и Томас Фан.

`sklearn.neural_network`#

Исправление neural_network.MLPClassifier и neural_network.MLPRegressor больше не выдает предупреждения при обучении данных с именами признаков. #24873 by Tim Head.
Исправление Улучшает сообщение об ошибке в neural_network.MLPClassifier и neural_network.MLPRegressor, когда early_stopping=True и partial_fit вызывается. #25694 by Томас Фан.

`sklearn.preprocessing`#

Исправление preprocessing.FunctionTransformer.inverse_transform корректно поддерживает DataFrame, которые полностью числовые, когда check_inverse=True. #25274 by Томас Фан.
Исправление preprocessing.SplineTransformer.get_feature_names_out корректно возвращает имена признаков, когда extrapolations="periodic". #25296 by Томас Фан.

`sklearn.tree`#

Исправление tree.DecisionTreeClassifier, tree.DecisionTreeRegressor tree.ExtraTreeClassifier и tree.ExtraTreeRegressor теперь поддерживают разреженные наборы данных только для чтения. #25341 by Julien Jerphanion

`sklearn.utils`#

Исправление Восстановить utils.check_arrayповедение для pandas Series типа boolean. Тип сохраняется, вместо преобразования в float64. #25147 by Tim Head.
Изменение API utils.fixes.delayed устарел в версии 1.2.1 и будет удалён в версии 1.5. Вместо этого импортируйте utils.parallel.delayed и используем его вместе с недавно представленным utils.parallel.Parallel чтобы обеспечить правильное распространение конфигурации scikit-learn на рабочих. #25363 by Guillaume Lemaitre.

Версия 1.2.0#

Декабрь 2022

Измененные модели#

Следующие оценщики и функции, при обучении на тех же данных и параметрах, могут создавать модели, отличные от предыдущей версии. Это часто происходит из-за изменений в логике моделирования (исправления ошибок или улучшения) или в процедурах случайной выборки.

Улучшение По умолчанию eigen_tol для cluster.SpectralClustering, manifold.SpectralEmbedding, cluster.spectral_clustering, и manifold.spectral_embedding теперь None при использовании 'amg' или 'lobpcg' солверы. Это изменение улучшает численную стабильность солвера, но может привести к другой модели.
Улучшение linear_model.GammaRegressor, linear_model.PoissonRegressor и linear_model.TweedieRegressor может достичь более высокой точности с решателем lbfgs, особенно когда tol установлен в очень маленькое значение. Более того, verbose теперь корректно передается в L-BFGS-B. #23619 by Christian Lorentzen.
Улучшение Значение по умолчанию для eps metrics.log_loss изменился с 1e-15 to "auto". "auto" наборы eps to np.finfo(y_pred.dtype).eps. #24354 by Сафиуддин Хаджа и gsiisg.
Исправление Установите знак components_ детерминирован в decomposition.SparsePCA. #23935 by Guillaume Lemaitre.
Исправление The components_ знаки в decomposition.FastICA может отличаться. Теперь он согласован и детерминирован со всеми решателями SVD. #22527 by Meekail Zain и Томас Фан.
Исправление Условие для ранней остановки теперь изменено в linear_model._sgd_fast._plain_sgd который используется linear_model.SGDRegressor и linear_model.SGDClassifier. Старое условие не различало обучающий и валидационный наборы и имело эффект чрезмерного масштабирования допуска ошибки. Это исправлено в #23798 by Harsh Agrawal.
Исправление Для model_selection.GridSearchCV и model_selection.RandomizedSearchCV ранги, соответствующие nan-оценкам, будут установлены на максимально возможный ранг. #24543 by Guillaume Lemaitre.
Изменение API Значение по умолчанию для tol было изменено с 1e-3 to 1e-4 для linear_model.ridge_regression, linear_model.Ridge и linear_model.RidgeClassifier. #24465 by Christian Lorentzen.

Изменения, затрагивающие все модули#

Основная функция The set_output API был принят всеми трансформерами. Мета-оценщики, которые содержат трансформеры, такие как pipeline.Pipeline или compose.ColumnTransformer также определяет set_output. Подробности см. в SLEP018. #23734 и #24699 by Томас Фан.
Эффективность Низкоуровневые процедуры для редукций на попарных расстояниях для плотных наборов данных float32 были переработаны. Следующие функции и оценщики теперь получают улучшенную производительность с точки зрения аппаратной масштабируемости и ускорения:
Например sklearn.neighbors.NearestNeighbors.kneighbors и sklearn.neighbors.NearestNeighbors.radius_neighbors могут быть соответственно до ×20 и ×5 быстрее, чем ранее, на ноутбуке.

Более того, реализации этих двух алгоритмов теперь подходят для машин со многими ядрами, что делает их пригодными для наборов данных, состоящих из миллионов образцов.

#23865 by Julien Jerphanion.
Улучшение Проверки конечности (обнаружение значений NaN и бесконечности) во всех оценщиках теперь значительно эффективнее для данных float32 благодаря использованию SIMD-оптимизированных примитивов NumPy. #23446 by Meekail Zain
Улучшение Проверки конечности (обнаружение значений NaN и бесконечности) во всех оценщиках теперь выполняются быстрее благодаря использованию более эффективного алгоритма остановки при первом обнаружении во втором проходе. #23197 by Meekail Zain
Улучшение Поддержка комбинаций плотных и разреженных наборов данных для всех метрик расстояния и для наборов данных float32 и float64 была добавлена или её производительность улучшена для следующих оценщиков:
#23604 и #23585 by Julien Jerphanion, Оливье Гризель, и Томас Фан, #24556 by Vincent Maladière.
Исправление Систематически проверять хэш-дайджест sha256 архивов наборов данных, используемых в примерах кода в документации. #24617 by Оливье Гризель и Томас Фан. Благодаря Sim4n6 Размерность по оси y.

Журнал изменений#

`sklearn.base`#

Улучшение Вводит base.ClassNamePrefixFeaturesOutMixin и base.ClassNamePrefixFeaturesOutMixin миксины, которые определяют get_feature_names_out для распространенных случаев использования трансформеров. #24688 by Томас Фан.

`sklearn.calibration`#

Изменение API Переименовать base_estimator to estimator в calibration.CalibratedClassifierCV для улучшения читаемости и согласованности. Параметр base_estimator устарело и будет удалено в версии 1.4. #22054 by Кевин Ройс.

`sklearn.cluster`#

Эффективность cluster.KMeans с algorithm="lloyd" теперь работает быстрее и использует меньше памяти. Построение ROC-кривой по истинным и предсказанным значениям. by Венсан Маладиер.
Улучшение The predict и fit_predict методы cluster.OPTICS теперь принимает разреженный тип данных для входных данных. #14736 by Хант Жан, #20802 by Brandon Pokorny, и #22965 by Meekail Zain.
Улучшение cluster.Birch теперь сохраняет dtype для numpy.float32 входных данных. #22968 by Meekail Zain .
Улучшение cluster.KMeans и cluster.MiniBatchKMeans теперь принимают новый 'auto' опция для n_init что изменяет количество случайных инициализаций на одну при использовании init='k-means++' для эффективности. Это начинает устаревание для значений по умолчанию n_init в двух классах, и оба будут иметь свои значения по умолчанию, изменённые на n_init='auto' в 1.4. #23038 by Meekail Zain.
Улучшение cluster.SpectralClustering и cluster.spectral_clustering теперь распространите eigen_tol параметр для всех вариантов eigen_solver. Включает новую опцию eigen_tol="auto" и начинает устаревание, чтобы изменить значение по умолчанию с eigen_tol=0 to eigen_tol="auto" в версии 1.3. #23210 by Meekail Zain.
Исправление cluster.KMeans теперь поддерживает атрибуты только для чтения при предсказании. #24258 by Томас Фан
Изменение API The affinity атрибут теперь устарел для cluster.AgglomerativeClustering и будет переименован в metric в v1.4. #23470 by Meekail Zain.

`sklearn.datasets`#

Улучшение Введите новый параметр parser в datasets.fetch_openml. parser="pandas" позволяет использовать очень эффективные по CPU и памяти pandas.read_csv парсер для загрузки плотных ARFF форматированных файлов наборов данных. Можно передать parser="liac-arff" использовать старый парсер LIAC. Когда parser="auto", плотные наборы данных загружаются с помощью "pandas", а разреженные наборы данных загружаются с помощью "liac-arff". В настоящее время, parser="liac-arff" по умолчанию и изменится на parser="auto" в версии 1.4 #21938 by Guillaume Lemaitre.
Улучшение datasets.dump_svmlight_file теперь ускорен с помощью реализации на Cython, обеспечивая ускорение в 2-4 раза. #23127 by Meekail Zain
Улучшение Объекты, подобные путям, такие как созданные с помощью pathlib, теперь разрешены в качестве путей в datasets.load_svmlight_file и datasets.load_svmlight_files. #19075 by Карлос Рамос Карреньо.
Исправление Убедитесь, что datasets.fetch_lfw_people и datasets.fetch_lfw_pairs внутренне обрезать изображения на основе slice_ параметр. #24951 by Guillaume Lemaitre.

`sklearn.decomposition`#

Эффективность decomposition.FastICA.fit был оптимизирован с точки зрения его занимаемой памяти и времени выполнения. #22268 by MohamedBsh.
Улучшение decomposition.SparsePCA и decomposition.MiniBatchSparsePCA теперь реализует inverse_transform функция. #23905 by Guillaume Lemaitre.
Улучшение decomposition.FastICA теперь позволяет пользователю выбирать способ выполнения отбеливания через новый whiten_solver параметр, который поддерживает svd и eigh. whiten_solver по умолчанию svd хотя eigh может быть быстрее и эффективнее по памяти в случаях, когда num_features > num_samples. #11860 by Пьер Аблин, #22527 by Meekail Zain и Томас Фан.
Улучшение decomposition.LatentDirichletAllocation теперь сохраняет dtype для numpy.float32 ввод. #24528 by Takeshi Oura и Жереми дю Буаберранже.
Исправление Установите знак components_ детерминирован в decomposition.SparsePCA. #23935 by Guillaume Lemaitre.
Изменение API The n_iter параметр decomposition.MiniBatchSparsePCA устарел и заменен параметрами max_iter, tol, и max_no_improvement для согласованности с decomposition.MiniBatchDictionaryLearning. n_iter будет удален в версии 1.3. #23726 by Guillaume Lemaitre.
Изменение API The n_features_ атрибут decomposition.PCA устарел в пользу n_features_in_ и будет удален в версии 1.4. #24421 by Кшитидж Матур.

`sklearn.discriminant_analysis`#

Основная функция discriminant_analysis.LinearDiscriminantAnalysis теперь поддерживает Array API для solver="svd". Поддержка Array API считается экспериментальной и может развиваться без применения нашей обычной политики цикла постепенного устаревания. См. Поддержка Array API (экспериментальная) для получения дополнительной информации. #22554 by Томас Фан.
Исправление Проверять параметры только в fit и не в __init__ для discriminant_analysis.QuadraticDiscriminantAnalysis. #24218 by Stefanie Molin.

`sklearn.ensemble`#

Основная функция ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor теперь поддерживают ограничения взаимодействия через аргумент interaction_cst их конструкторов. #21020 by Christian Lorentzen. Использование ограничений взаимодействия также ускоряет подгонку. #24856 by Christian Lorentzen.
Функция Добавляет class_weight to ensemble.HistGradientBoostingClassifier. #22014 by Томас Фан.
Эффективность Улучшена производительность времени выполнения ensemble.IsolationForest избегая копирования данных. #23252 by Zhehao Liu.
Улучшение ensemble.StackingClassifier теперь принимает любой базовый оценщик. #24538 by Guillem G Subies.
Улучшение Сделать возможным передачу categorical_features оценок. ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor в качестве имён признаков. #24889 by Оливье Гризель.
Улучшение ensemble.StackingClassifier теперь поддерживает многометочные целевые переменные #24146 by Николя Перетти, Нестор Наварро, Nati Tomattis, и Венсан Маладиер.
Улучшение ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor теперь принимают свои monotonic_cst Этот вариант более эффективен для агломеративной кластеризации, если количество кластеров мало по сравнению с количеством точек данных. -1, 0, 1 как значение для указания ограничений монотонности для каждого признака. #24855 by Оливье Гризель.
Улучшение Ограничения взаимодействия для ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor теперь могут быть указаны как строки для двух распространённых случаев: "no_interactions" и "pairwise" взаимодействия. #24849 by Tim Head.
Исправление Исправлена проблема, когда ensemble.AdaBoostClassifier выводит NaN в важности признаков при обучении с очень малым весом выборки. #20415 by Zhehao Liu.
Исправление ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor больше не вызывает ошибку при предсказании на категориях, закодированных как отрицательные значения, и вместо этого считает их членами "пропущенной категории". #24283 by Томас Фан.
Исправление ensemble.HistGradientBoostingClassifier и ensemble.HistGradientBoostingRegressor, с verbose>=1, выводить подробную информацию о времени вычисления гистограмм и поиска лучших разбиений. Время, затраченное в корневом узле, ранее отсутствовало и теперь включено в выводимую информацию. #24894 by Christian Lorentzen.
Изменение API Переименовать параметр конструктора base_estimator to estimator в следующих классах: ensemble.BaggingClassifier, ensemble.BaggingRegressor, ensemble.AdaBoostClassifier, ensemble.AdaBoostRegressor. base_estimator устарел в 1.2 и будет удалён в 1.4. #23819 by Adrian Trujillo и Эдоардо Абати.
Изменение API Переименовать обученный атрибут base_estimator_ to estimator_ в следующих классах: ensemble.BaggingClassifier, ensemble.BaggingRegressor, ensemble.AdaBoostClassifier, ensemble.AdaBoostRegressor, ensemble.RandomForestClassifier, ensemble.RandomForestRegressor, ensemble.ExtraTreesClassifier, ensemble.ExtraTreesRegressor, ensemble.RandomTreesEmbedding, ensemble.IsolationForest. base_estimator_ устарел в 1.2 и будет удалён в 1.4. #23819 by Adrian Trujillo и Эдоардо Абати.

`sklearn.feature_selection`#

Исправление Исправлена ошибка в feature_selection.mutual_info_regression и feature_selection.mutual_info_classif, где непрерывные признаки в X должен быть масштабирован до единичной дисперсии независимо, если целевая y является непрерывным или дискретным. #24747 by Guillaume Lemaitre

`sklearn.gaussian_process`#

Исправление Исправление gaussian_process.kernels.Matern поддержка nu=0.5 для PyPy (и, возможно, других интерпретаторов, отличных от CPython). #24245 by Loïc Estève.
Исправление The fit метод gaussian_process.GaussianProcessRegressor не будет изменять входной X в случае использования пользовательского ядра, с diag метод, который возвращает часть входных данных X. #24405 by Omar Salman.

`sklearn.impute`#

Улучшение Добавлен keep_empty_features параметр для impute.SimpleImputer, impute.KNNImputer и impute.IterativeImputer, предотвращая удаление признаков, содержащих только пропущенные значения при преобразовании. #16695 by Витор Санта Роза.

`sklearn.inspection`#

Основная функция Расширенный inspection.partial_dependence и inspection.PartialDependenceDisplay для обработки категориальных признаков. #18298 by Madhura Jayaratne и Guillaume Lemaitre.
Исправление inspection.DecisionBoundaryDisplay теперь вызывает ошибку, если входные данные не двумерные. #25077 by Arturo Amor.

`sklearn.kernel_approximation`#

Улучшение kernel_approximation.RBFSampler теперь сохраняет dtype для numpy.float32 входных данных. #24317 by Tim Head .
Улучшение kernel_approximation.SkewedChi2Sampler теперь сохраняет dtype для numpy.float32 входных данных. #24350 by Rahil Parikh.
Улучшение kernel_approximation.RBFSampler теперь принимает 'scale' опция для параметра gamma. #24755 by Hleb Levitski.

`sklearn.linear_model`#

Улучшение linear_model.LogisticRegression, linear_model.LogisticRegressionCV, linear_model.GammaRegressor, linear_model.PoissonRegressor и linear_model.TweedieRegressor получил новый решатель solver="newton-cholesky". Это оптимизационная процедура 2-го порядка (Ньютона), использующая разложение Холецкого матрицы Гессе. Когда n_samples >> n_features, "newton-cholesky" решатель был замечен сходящимся как быстрее, так и к решению с более высокой точностью, чем "lbfgs" решатель для задач с one-hot кодированными категориальными переменными с некоторыми редкими категориальными уровнями. #24637 и #24767 by Christian Lorentzen.
Улучшение linear_model.GammaRegressor, linear_model.PoissonRegressor и linear_model.TweedieRegressor может достичь более высокой точности с решателем lbfgs, особенно когда tol установлен в очень маленькое значение. Более того, verbose теперь корректно передается в L-BFGS-B. #23619 by Christian Lorentzen.
Исправление linear_model.SGDClassifier и linear_model.SGDRegressor выдаст ошибку, когда все валидационные выборки имеют нулевой вес. #23275 by Zhehao Liu .
Исправление linear_model.SGDOneClassSVM больше не выполняет проверку параметров в конструкторе. Вся проверка теперь обрабатывается в fit() и partial_fit(). #24433 by Yogendrasingh, Ариса Я. и Tim Head.
Исправление Исправление расчета средних потерь при включенном раннем остановке в linear_model.SGDRegressor и linear_model.SGDClassifier. Также обновлено условие для ранней остановки соответственно. #23798 by Harsh Agrawal.
Изменение API Значение по умолчанию для solver параметр в linear_model.QuantileRegressor изменится с "interior-point" to "highs" в версии 1.4. #23637 by Guillaume Lemaitre.
Изменение API Строковая опция "none" устарел для penalty аргумент в linear_model.LogisticRegression, и будет удален в версии 1.4. Используйте None вместо этого. #23877 by Zhehao Liu.
Изменение API Значение по умолчанию для tol было изменено с 1e-3 to 1e-4 для linear_model.ridge_regression, linear_model.Ridge и linear_model.RidgeClassifier. #24465 by Christian Lorentzen.

`sklearn.manifold`#

Функция Добавлена опция использования нормализованного напряжения в manifold.MDS. Это активируется установкой нового normalize параметр для True. #10168 by Łukasz Borchmann, #12285 by Маттиас Мильтенбергер, #13042 by Маттьё Паризи, #18094 by Roth E Conrad и #22562 by Meekail Zain.
Улучшение Добавляет eigen_tol параметр для manifold.SpectralEmbedding. Оба manifold.spectral_embedding и manifold.SpectralEmbedding теперь распространяют eigen_tol для всех вариантов eigen_solver. Включает новую опцию eigen_tol="auto" и начинает устаревание, чтобы изменить значение по умолчанию с eigen_tol=0 to eigen_tol="auto" в версии 1.3. #23210 by Meekail Zain.
Улучшение manifold.Isomap теперь сохраняет dtype для np.float32 входных данных. #24714 by Rahil Parikh.
Изменение API Добавлен "auto" опция для normalized_stress аргумент в manifold.MDS и manifold.smacof. Обратите внимание, что normalized_stress действительна только для неметрического MDS, поэтому "auto" опция включает normalized_stress когда metric=False и отключает его, когда metric=True. "auto" станет значением по умолчанию для normalized_stress в версии 1.4. #23834 by Meekail Zain

`sklearn.metrics`#

Функция metrics.ConfusionMatrixDisplay.from_estimator, metrics.ConfusionMatrixDisplay.from_predictions, и metrics.ConfusionMatrixDisplay.plot принимает text_kw параметр, который передается в matplotlib text функция. #24051 by Томас Фан.
Функция metrics.class_likelihood_ratios добавлен для вычисления положительного и отрицательного отношений правдоподобия, полученных из матрицы ошибок бинарной задачи классификации. #22518 by Arturo Amor.
Функция Добавить metrics.PredictionErrorDisplay для построения графиков остатков против предсказанных и фактических против предсказанных, чтобы качественно оценить поведение регрессора. Дисплей может быть создан с помощью методов класса metrics.PredictionErrorDisplay.from_estimator и metrics.PredictionErrorDisplay.from_predictions. #18020 by Guillaume Lemaitre.
Функция metrics.roc_auc_score теперь поддерживает микро-усреднение (average="micro") для многоклассового случая One-vs-Rest (multi_class="ovr"). #24338 by Arturo Amor.
Улучшение Добавляет "auto" опция для eps в metrics.log_loss. Эта опция автоматически установит eps значение в зависимости от типа данных y_pred. Кроме того, значение по умолчанию для eps изменен с 1e-15 к новому "auto" опция. #24354 by Сафиуддин Хаджа и gsiisg.
Исправление Позволяет csr_matrix в качестве входных данных для параметра: y_true из metrics.label_ranking_average_precision_score метрика. #23442 by Шон Атукорала
Исправление metrics.ndcg_score теперь будет вызывать предупреждение, когда y_true значение содержит отрицательное значение. Пользователи всё ещё могут использовать отрицательные значения, но результат может не находиться в диапазоне от 0 до 1. Начиная с версии 1.4, передача отрицательных значений для y_true вызовет ошибку. #22710 by Конрой Трин и #23461 by Meekail Zain.
Исправление metrics.log_loss с eps=0 теперь возвращает корректное значение 0 или np.inf вместо nan для предсказаний на границах (0 или 1). Также принимает целочисленный ввод. #24365 by Christian Lorentzen.
Изменение API Параметр sum_over_features of metrics.pairwise.manhattan_distances устарело и будет удалено в версии 1.4. #24630 by Рушил Десаи.

`sklearn.model_selection`#

Функция Добавлен класс model_selection.LearningCurveDisplay которая позволяет легко строить графики кривых обучения, полученных функцией model_selection.learning_curve. #24084 by Guillaume Lemaitre.
Исправление Для всех SearchCV классов и scipy >= 1.10, ранг, соответствующий nan-оценке, правильно устанавливается на максимально возможный ранг, а не np.iinfo(np.int32).min. #24141 by Loïc Estève.
Исправление В обоих model_selection.HalvingGridSearchCV и model_selection.HalvingRandomSearchCV комбинации параметров с оценкой NaN теперь имеют одинаковый низший ранг. #24539 by Tim Head.
Исправление Для model_selection.GridSearchCV и model_selection.RandomizedSearchCV ранги, соответствующие nan-оценкам, будут установлены на максимально возможный ранг. #24543 by Guillaume Lemaitre.

`sklearn.multioutput`#

Функция Добавлен булевый verbose флаг для классов: multioutput.ClassifierChain и multioutput.RegressorChain. #23977 by Eric Fiegel, Кьяра Мармо, Lucy Liu, и Guillaume Lemaitre.

`sklearn.naive_bayes`#

Функция Добавить методы predict_joint_log_proba для всех наивных байесовских классификаторов. #23683 by Andrey Melnik.
Улучшение Новый параметр force_alpha был добавлен в naive_bayes.BernoulliNB, naive_bayes.ComplementNB, naive_bayes.CategoricalNB, и naive_bayes.MultinomialNB, позволяя пользователю установить параметр альфа в очень маленькое число, большее или равное 0, которое ранее автоматически изменялось на 1e-10 вместо этого. #16747 by @arka204, #18805 by @hongshaoyang, #22269 by Meekail Zain.

`sklearn.neighbors`#

Функция Добавляет новую функцию neighbors.sort_graph_by_row_values чтобы отсортировать разреженный граф CSR так, чтобы каждая строка хранилась с возрастающими значениями. Это полезно для повышения эффективности при использовании предвычисленных разреженных матриц расстояний в различных оценщиках и избежания EfficiencyWarning. #23139 by Tom Dupre la Tour.
Эффективность neighbors.NearestCentroid быстрее и требует меньше памяти, так как лучше использует кэши ЦП для вычисления предсказаний. #24645 by Оливье Гризель.
Улучшение neighbors.KernelDensity параметр bandwidth теперь принимает определение с использованием методов оценки Скотта и Сильвермана. #10468 by Рубен и #22993 by Йован Стоянович.
Улучшение neighbors.NeighborsBase теперь принимает полуметрику Минковского (т.е. когда \(0 < p < 1\) для metric="minkowski") для algorithm="auto" или algorithm="brute". #24750 by Рудреш Виркхаре
Исправление neighbors.NearestCentroid теперь выдает информативное сообщение об ошибке во время обучения вместо того чтобы завершаться с низкоуровневым сообщением об ошибке во время предсказания. #23874 by Juan Gomez.
Исправление Установить n_jobs=None по умолчанию (вместо 1) для neighbors.KNeighborsTransformer и neighbors.RadiusNeighborsTransformer. #24075 by Валентин Лоран.
Улучшение neighbors.LocalOutlierFactor теперь сохраняет dtype для numpy.float32 входных данных. #22665 by Julien Jerphanion.

`sklearn.neural_network`#

Исправление neural_network.MLPClassifier и neural_network.MLPRegressor всегда раскрывает параметры best_loss_, validation_scores_, и best_validation_score_. best_loss_ установлено в None когда early_stopping=True, в то время как validation_scores_ и best_validation_score_ установлены в None когда early_stopping=False. #24683 by Guillaume Lemaitre.

`sklearn.pipeline`#

Улучшение pipeline.FeatureUnion.get_feature_names_out теперь может использоваться, когда один из преобразователей в pipeline.FeatureUnion является "passthrough". #24058 by Diederik Perdok
Улучшение The pipeline.FeatureUnion класс теперь имеет named_transformers атрибут для доступа к трансформерам по имени. #20331 by Christopher Flynn.

`sklearn.preprocessing`#

Улучшение preprocessing.FunctionTransformer всегда будет пытаться установить n_features_in_ и feature_names_in_ независимо от validate параметр. #23993 by Томас Фан.
Исправление preprocessing.LabelEncoder правильно кодирует NaN в transform. #22629 by Томас Фан.
Изменение API The sparse параметр preprocessing.OneHotEncoder теперь устарел и будет удалён в версии 1.4. Используйте sparse_output вместо этого. #24412 by Рушил Десаи.

`sklearn.svm`#

Изменение API The class_weight_ атрибут теперь устарел для svm.NuSVR, svm.SVR, svm.OneClassSVM. #22898 by Meekail Zain.

`sklearn.tree`#

Улучшение tree.plot_tree, tree.export_graphviz теперь использует строчную букву x[i] для представления признака i. #23480 by Томас Фан.

`sklearn.utils`#

Функция Новый модуль предоставляет инструменты разработки для обнаружения оценщиков (т.е. utils.discovery.all_estimators), отображает (т.е. utils.discovery.all_displays) и функции (т.е. utils.discovery.all_functions) в scikit-learn. #21469 by Guillaume Lemaitre.
Улучшение utils.extmath.randomized_svd теперь принимает аргумент, lapack_svd_driver, чтобы указать драйвер lapack, используемый во внутреннем детерминированном SVD, используемом рандомизированным алгоритмом SVD. #20617 by Сринат Кайласа
Улучшение utils.validation.column_or_1d теперь принимает dtype параметр для конкретного yтип данных. #22629 by Томас Фан.
Улучшение utils.extmath.cartesian теперь принимает массивы с разными dtype и приведет вывод к наиболее разрешающему dtype. #25067 by Guillaume Lemaitre.
Исправление utils.multiclass.type_of_target теперь корректно обрабатывает разреженные матрицы. #14862 by Léonard Binet.
Исправление HTML-представление больше не выдает ошибки, когда класс оценщика является значением в get_params. #24512 by Томас Фан.
Исправление utils.estimator_checks.check_estimator теперь учитывает requires_positive_X который имеет форму #24667 by Томас Фан.
Исправление utils.check_array теперь поддерживает Pandas Series с pd.NA путем выдачи более понятного сообщения об ошибке или возврата совместимого ndarray. #25080 by Томас Фан.
Изменение API Дополнительные ключевые параметры utils.extmath.density устарели и будут удалены в 1.4. #24523 by Mia Bajic.

Участники кода и документации

Спасибо всем, кто внес вклад в поддержку и улучшение проекта с версии 1.1, включая:

2357juan, 3lLobo, Adam J. Stewart, Adam Kania, Adam Li, Aditya Anulekh, Admir Demiraj, adoublet, Adrin Jalali, Ahmedbgh, Aiko, Akshita Prasanth, Ala-Na, Alessandro Miola, Alex, Alexandr, Alexandre Perez-Lebel, Alex Buzenet, Ali H. El-Kassas, aman kumar, Amit Bera, András Simon, Andreas Grivas, Andreas Mueller, Andrew Wang, angela-maennel, Aniket Shirsat, Anthony22-dev, Antony Lee, anupam, Apostolos Tsetoglou, Aravindh R, Artur Hermano, Arturo Amor, as-90, ashah002, Ashwin Mathur, avm19, Azaria Gebremichael, b0rxington, Badr MOUFAD, Bardiya Ak, Bartłomiej Gońda, BdeGraaff, Benjamin Bossan, Benjamin Carter, berkecanrizai, Bernd Fritzke, Bhoomika, Biswaroop Mitra, Brandon TH Chen, Brett Cannon, Bsh, cache-missing, carlo, Carlos Ramos Carreño, ceh, chalulu, Changyao Chen, Charles Zablit, Chiara Marmo, Christian Lorentzen, Christian Ritter, Christian Veenhuis, christianwaldmann, Christine P. Chai, Claudio Salvatore Arcidiacono, Clément Verrier, crispinlogan, Da-Lan, DanGonite57, Daniela Fernandes, DanielGaerber, darioka, Darren Nguyen, davidblnc, david-cortes, David Gilbertson, David Poznik, Dayne, Dea María Léon, Denis, Dev Khant, Dhanshree Arora, Diadochokinetic, diederikwp, Dimitri Papadopoulos Orfanos, Dimitris Litsidis, drewhogg, Duarte OC, Dwight Lindquist, Eden Brekke, Edern, Edoardo Abati, Eleanore Denies, EliaSchiavon, Emir, ErmolaevPA, Fabrizio Damicelli, fcharras, Felipe Siola, Flynn, francesco-tuveri, Franck Charras, ftorres16, Gael Varoquaux, Geevarghese George, genvalen, GeorgiaMayDay, Gianr Lazz, Hleb Levitski, Glòria Macià Muñoz, Guillaume Lemaitre, Guillem García Subies, Guitared, gunesbayir, Haesun Park, Hansin Ahuja, Hao Chun Chang, Harsh Agrawal, harshit5674, hasan-yaman, henrymooresc, Henry Sorsky, Hristo Vrigazov, htsedebenham, humahn, i-aki-y, Ian Thompson, Ido M, Iglesys, Iliya Zhechev, Irene, ivanllt, Ivan Sedykh, Jack McIvor, jakirkham, JanFidor, Jason G, Jérémie du Boisberranger, Jiten Sidhpura, jkarolczak, João David, JohnathanPi, John Koumentis, John P, John Pangas, johnthagen, Jordan Fleming, Joshua Choo Yun Keat, Jovan Stojanovic, Juan Carlos Alfaro Jiménez, juanfe88, Juan Felipe Arias, JuliaSchoepp, Julien Jerphanion, jygerardy, ka00ri, Kanishk Sachdev, Kanissh, Kaushik Amar Das, Kendall, Kenneth Prabakaran, Kento Nozawa, kernc, Kevin Roice, Kian Eliasi, Kilian Kluge, Kilian Lieret, Kirandevraj, Kraig, krishna kumar, krishna vamsi, Kshitij Kapadni, Kshitij Mathur, Lauren Burke, Léonard Binet, lingyi1110, Lisa Casino, Logan Thomas, Loic Esteve, Luciano Mantovani, Lucy Liu, Maascha, Madhura Jayaratne, madinak, Maksym, Malte S. Kurz, Mansi Agrawal, Marco Edward Gorelli, Marco Wurps, Maren Westermann, Maria Telenczuk, Mario Kostelac, martin-kokos, Marvin Krawutschke, Masanori Kanazu, mathurinm, Matt Haberland, mauroantonioserrano, Max Halford, Maxi Marufo, maximeSaur, Maxim Smolskiy, Maxwell, m. bou, Meekail Zain, Mehgarg, mehmetcanakbay, Mia Bajić, Michael Flaks, Michael Hornstein, Michel de Ruiter, Michelle Paradis, Mikhail Iljin, Misa Ogura, Moritz Wilksch, mrastgoo, Naipawat Poolsawat, Naoise Holohan, Nass, Nathan Jacobi, Nawazish Alam, Nguyễn Văn Diễn, Nicola Fanelli, Nihal Thukarama Rao, Nikita Jare, nima10khodaveisi, Nima Sarajpoor, nitinramvelraj, NNLNR, npache, Nwanna-Joseph, Nymark Kho, o-holman, Olivier Grisel, Olle Lukowski, Omar Hassoun, Omar Salman, osman tamer, ouss1508, Oyindamola Olatunji, PAB, Pandata, partev, Paulo Sergio Soares, Petar Mlinarić, Peter Jansson, Peter Steinbach, Philipp Jung, Piet Brömmel, Pooja M, Pooja Subramaniam, priyam kakati, puhuk, Rachel Freeland, Rachit Keerti Das, Rafal Wojdyla, Raghuveer Bhat, Rahil Parikh, Ralf Gommers, ram vikram singh, Ravi Makhija, Rehan Guha, Reshama Shaikh, Richard Klima, Rob Crockett, Robert Hommes, Robert Juergens, Robin Lenz, Rocco Meli, Roman4oo, Ross Barnowski, Rowan Mankoo, Rudresh Veerkhare, Rushil Desai, Sabri Monaf Sabri, Safikh, Safiuddin Khaja, Salahuddin, Sam Adam Day, Sandra Yojana Meneses, Sandro Ephrem, Sangam, SangamSwadik, SANJAI_3, SarahRemus, Sashka Warner, SavkoMax, Scott Gigante, Scott Gustafson, Sean Atukorala, sec65, SELEE, seljaks, Shady el Gewily, Shane, shellyfung, Shinsuke Mori, Shiva chauhan, Shoaib Khan, Shogo Hida, Shrankhla Srivastava, Shuangchi He, Simon, sonnivs, Sortofamudkip, Srinath Kailasa, Stanislav (Stanley) Modrak, Stefanie Molin, stellalin7, Stéphane Collot, Steven Van Vaerenbergh, Steve Schmerler, Sven Stehle, Tabea Kossen, TheDevPanda, the-syd-sre, Thijs van Weezel, Thomas Bonald, Thomas Germer, Thomas J. Fan, Ti-Ion, Tim Head, Timofei Kornev, toastedyeast, Tobias Pitters, Tom Dupré la Tour, tomiock, Tom Mathews, Tom McTiernan, tspeng, Tyler Egashira, Valentin Laurent, Varun Jain, Vera Komeyer, Vicente Reyes-Puerta, Vinayak Mehta, Vincent M, Vishal, Vyom Pathak, wattai, wchathura, WEN Hao, William M, x110, Xiao Yuan, Xunius, yanhong-zhao-ef, Yusuf Raji, Z Adil Khwaja, zeeshan lone

Версия 1.2#

Версия 1.2.2#

Журнал изменений#

Версия 1.2.1#

Измененные модели#

Изменения, затрагивающие все модули#

Журнал изменений#

Версия 1.2.0#

Измененные модели#

Изменения, затрагивающие все модули#

Журнал изменений#

Эта страница