8.1. Игрушечные наборы данных#

scikit-learn поставляется с несколькими небольшими стандартными наборами данных, которые не требуют загрузки каких-либо файлов с внешних веб-сайтов.

Их можно загрузить с помощью следующих функций:

load_iris(*[, return_X_y, as_frame])

Загружает и возвращает набор данных ирисов (классификация).

load_diabetes(*[, return_X_y, as_frame, scaled])

Загружает и возвращает набор данных по диабету (регрессия).

load_digits(*[, n_class, return_X_y, as_frame])

Загрузить и вернуть набор данных digits (классификация).

load_linnerud(*[, return_X_y, as_frame])

Загружает и возвращает набор данных Linnerud по физическим упражнениям.

load_wine(*[, return_X_y, as_frame])

Загрузить и вернуть набор данных wine (классификация).

load_breast_cancer(*[, return_X_y, as_frame])

Загрузить и вернуть набор данных о раке молочной железы в Висконсине (классификация).

Эти наборы данных полезны для быстрой иллюстрации поведения различных алгоритмов, реализованных в scikit-learn. Однако они часто слишком малы, чтобы быть репрезентативными для реальных задач машинного обучения.

8.1.1. Набор данных о растениях ириса#

Характеристики набора данных:

Количество экземпляров:

150 (по 50 в каждом из трёх классов)

Количество атрибутов:

4 числовых, прогностических признака и класс

Информация об атрибутах:
  • длина чашелистика в см

  • ширина чашелистика в см

  • длина лепестка в см

  • ширина лепестка в см

  • класс:
    • Iris-Setosa

    • Iris-Versicolour

    • Iris-Virginica

Сводная статистика:

длина чашелистика:

4.3

7.9

5.84

0.83

0.7826

ширина чашелистика:

2.0

4.4

3.05

0.43

-0.4194

длина лепестка:

1.0

6.9

3.76

1.76

0.9490 (высокий!)

ширина лепестка:

0.1

2.5

1.20

0.76

0.9565 (высокий!)

Отсутствующие значения атрибутов:

None

Распределение классов:

33.3% для каждого из 3 классов.

Создатель:

R.A. Fisher

Донор:

Майкл Маршалл (MARSHALL%PLU@io.дуга.nasa.gov)

Дата:

Июль, 1988

Знаменитая база данных Iris, впервые использованная сэром Р.А. Фишером. Набор данных взят из статьи Фишера. Обратите внимание, что он совпадает с версией в R, но отличается от версии в репозитории UCI Machine Learning Repository, где есть две ошибочные точки данных.

Это, пожалуй, самая известная база данных в литературе по распознаванию образов. Статья Фишера является классикой в этой области и часто цитируется по сей день. (См., например, Duda & Hart.) Набор данных содержит 3 класса по 50 экземпляров каждый, где каждый класс относится к типу растения ирис. Один класс линейно отделим от двух других; последние НЕ линейно отделимы друг от друга.

Ссылки#
  • Fisher, R.A. “The use of multiple measurements in taxonomic problems” Annual Eugenics, 7, Part II, 179-188 (1936); also in “Contributions to Mathematical Statistics” (John Wiley, NY, 1950).

  • Duda, R.O., & Hart, P.E. (1973) Pattern Classification and Scene Analysis. (Q327.D83) John Wiley & Sons. ISBN 0-471-22361-1. См. страницу 218.

  • Дасаратхи, Б.В. (1980) «Исследование окрестностей: новая структура системы и правило классификации для распознавания в частично открытых средах». IEEE Transactions on Pattern Analysis and Machine Intelligence, Vol. PAMI-2, No. 1, 67-71.

  • Gates, G.W. (1972) "The Reduced Nearest Neighbor Rule". IEEE Transactions on Information Theory, май 1972, 431-433.

  • См. также: Proceedings of MLC 1988, 54-64. Концептуальная система кластеризации AUTOCLASS II от Cheeseman et al находит 3 класса в данных.

  • Много, много других …

8.1.2. Набор данных Diabetes#

Десять базовых переменных: возраст, пол, индекс массы тела, среднее артериальное давление и шесть измерений сыворотки крови были получены для каждого из n = 442 пациентов с диабетом, а также интересующий отклик — количественная мера прогрессирования заболевания через год после базового измерения.

Характеристики набора данных:

Количество экземпляров:

442

Количество атрибутов:

Первые 10 столбцов — числовые прогностические значения

Целевая переменная:

Столбец 11 представляет собой количественную меру прогрессирования заболевания через год после исходного уровня

Информация об атрибутах:
  • age возраст в годах

  • пол

  • bmi индекс массы тела

  • bp среднее артериальное давление

  • s1 tc, общий холестерин сыворотки

  • s2 ldl, липопротеины низкой плотности

  • s3 hdl, липопротеины высокой плотности

  • s4 tch, общий холестерин / HDL

  • s5 ltg, возможно, логарифм уровня триглицеридов в сыворотке

  • s6 glu, уровень сахара в крови

Примечание: Каждая из этих 10 переменных признаков была центрирована по среднему и масштабирована на стандартное отклонение, умноженное на квадратный корень из n_samples (т.е. сумма квадратов каждого столбца равна 1).

URL источника: https://www4.stat.ncsu.edu/~boos/var.select/diabetes.html

Для получения дополнительной информации см.: Bradley Efron, Trevor Hastie, Iain Johnstone и Robert Tibshirani (2004) "Least Angle Regression," Annals of Statistics (с обсуждением), 407-499. (https://web.stanford.edu/~hastie/Papers/LARS/LeastAngle_2002.pdf)

8.1.3. Набор данных оптического распознавания рукописных цифр#

Характеристики набора данных:

Количество экземпляров:

1797

Количество атрибутов:

64

Информация об атрибутах:

Изображение 8x8 целочисленных пикселей в диапазоне 0..16.

Отсутствующие значения атрибутов:

None

Создатель:
  1. Алпайдин (alpaydin '@' boun.edu.tr)

Дата:

Июль; 1998

Это копия тестового набора наборов данных рукописных цифр UCI ML https://archive.ics.uci.edu/ml/datasets/Optical+Recognition+of+Handwritten+Digits

Набор данных содержит изображения рукописных цифр: 10 классов, где каждый класс относится к цифре.

Программы предварительной обработки, предоставленные NIST, использовались для извлечения нормализованных растровых изображений рукописных цифр с предварительно напечатанной формы. Из 43 человек 30 внесли вклад в обучающий набор, а другие 13 - в тестовый набор. Растровые изображения 32x32 разделены на неперекрывающиеся блоки 4x4, и количество включенных пикселей подсчитывается в каждом блоке. Это генерирует входную матрицу 8x8, где каждый элемент является целым числом в диапазоне 0..16. Это уменьшает размерность и обеспечивает инвариантность к малым искажениям.

Для информации о процедурах предобработки NIST см. M. D. Garris, J. L. Blue, G. T. Candela, D. L. Dimmick, J. Geist, P. J. Grother, S. A. Janet, and C. L. Wilson, NIST Form-Based Handprint Recognition System, NISTIR 5469, 1994.

Ссылки#
  • C. Kaynak (1995) Methods of Combining Multiple Classifiers and Their Applications to Handwritten Digit Recognition, MSc Thesis, Institute of Graduate Studies in Science and Engineering, Bogazici University.

    1. Alpaydin, C. Kaynak (1998) Cascading Classifiers, Kybernetika.

  • Кен Танг и Поннутурай Н. Суганан и Си Яо и А. Кай Цинь. Линейное снижение размерности с использованием взвешенного по релевантности LDA. Школа электротехники и электроники Наньянского технологического университета. 2005.

  • Claudio Gentile. A New Approximate Maximal Margin Classification Algorithm. NIPS. 2000.

8.1.4. Набор данных Linnerrud#

Характеристики набора данных:

Количество экземпляров:

20

Количество атрибутов:

3

Отсутствующие значения атрибутов:

None

Набор данных Linnerud — это набор данных для многомерной регрессии. Он состоит из трех переменных упражнений (данные) и трех физиологических (целевые) переменных, собранных у двадцати мужчин среднего возраста в фитнес-клубе:

  • физиологический - CSV, содержащий 20 наблюдений по 3 физиологическим переменным:

    Вес, талия и пульс.

  • упражнение - CSV, содержащий 20 наблюдений по 3 переменным упражнения:

    Подтягивания, приседания и прыжки.

Ссылки#
  • Tenenhaus, M. (1998). La regression PLS: theorie et pratique. Paris: Editions Technic.

8.1.5. Набор данных для распознавания вина#

Характеристики набора данных:

Количество экземпляров:

178

Количество атрибутов:

13 числовых, прогностических атрибутов и класс

Информация об атрибутах:
  • Alcohol

  • Яблочная кислота

  • Ash

  • Щёлочность золы

  • Магний

  • Общие фенолы

  • Flavanoids

  • Нефлаваноидные фенолы

  • Проантоцианидины

  • Интенсивность цвета

  • Hue

  • OD280/OD315 разбавленных вин

  • Пролин

  • класс:
    • class_0

    • class_1

    • class_2

Сводная статистика:

Алкоголь:

11.0

14.8

13.0

0.8

Яблочная кислота:

0.74

5.80

2.34

1.12

Ash:

1.36

3.23

2.36

0.27

Щелочность золы:

10.6

30.0

19.5

3.3

Магний:

70.0

162.0

99.7

14.3

Общие фенолы:

0.98

3.88

2.29

0.63

Флавоноиды:

0.34

5.08

2.03

1.00

Нефлаваноидные фенолы:

0.13

0.66

0.36

0.12

Проантоцианидины:

0.41

3.58

1.59

0.57

Интенсивность цвета:

1.3

13.0

5.1

2.3

Оттенок:

0.48

1.71

0.96

0.23

OD280/OD315 разбавленных вин:

1.27

4.00

2.61

0.71

Пролин:

278

1680

746

315

Отсутствующие значения атрибутов:

None

Распределение классов:

class_0 (59), class_1 (71), class_2 (48)

Создатель:

R.A. Fisher

Донор:

Майкл Маршалл (MARSHALL%PLU@io.дуга.nasa.gov)

Дата:

Июль, 1988

Это копия набора данных распознавания вин UCI ML. https://archive.ics.uci.edu/ml/machine-learning-databases/wine/wine.data

Данные представляют собой результаты химического анализа вин, выращенных в одном регионе Италии тремя разными виноделами. Есть тринадцать различных измерений, взятых для различных компонентов, найденных в трех типах вина.

Оригинальные владельцы:

Forina, M. и др., PARVUS - Расширяемый пакет для исследования данных, классификации и корреляции. Институт фармацевтического и пищевого анализа и технологий, Via Brigata Salerno, 16147 Генуя, Италия.

Цитирование:

Личман, М. (2013). Репозиторий машинного обучения UCI [https://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.

Ссылки#

(1) S. Aeberhard, D. Coomans и O. de Vel, Сравнение классификаторов в условиях высокой размерности, Технический отчет № 92-02, (1992), Департамент компьютерных наук и Департамент математики и статистики, Университет Джеймса Кука Северного Квинсленда. (Также представлен в Technometrics).

Данные использовались вместе со многими другими для сравнения различных классификаторов. Классы разделимы, хотя только RDA достигла 100% правильной классификации. (RDA: 100%, QDA 99.4%, LDA 98.9%, 1NN 96.1% (z-преобразованные данные)) (Все результаты с использованием техники исключения одного наблюдения)

(2) S. Aeberhard, D. Coomans и O. de Vel, "THE CLASSIFICATION PERFORMANCE OF RDA" Tech. Rep. no. 92-01, (1992), Dept. of Computer Science and Dept. of Mathematics and Statistics, James Cook University of North Queensland. (Также представлено в Journal of Chemometrics).

8.1.6. Набор данных о раке молочной железы в Висконсине (диагностический)#

Характеристики набора данных:

Количество экземпляров:

569

Количество атрибутов:

30 числовых, прогностических признаков и класс

Информация об атрибутах:
  • радиус (среднее расстояний от центра до точек на периметре)

  • текстура (стандартное отклонение значений в градациях серого)

  • периметр

  • область

  • гладкость (локальное изменение длин радиусов)

  • компактность (периметр^2 / площадь - 1.0)

  • вогнутость (степень вогнутых участков контура)

  • вогнутые точки (количество вогнутых участков контура)

  • симметрия

  • фрактальная размерность («аппроксимация береговой линии» - 1)

Среднее значение, стандартная ошибка и "наихудшие" или наибольшие (среднее из трех наихудших/наибольших значений) этих признаков были вычислены для каждого изображения, в результате чего получилось 30 признаков. Например, поле 0 - это средний радиус, поле 10 - стандартная ошибка радиуса, поле 20 - наихудший радиус.

  • класс:
    • WDBC-Злокачественный

    • WDBC-Benign

Сводная статистика:

радиус (средний):

6.981

28.11

текстура (mean):

9.71

39.28

периметр (среднее):

43.79

188.5

площадь (среднее):

143.5

2501.0

гладкость (среднее):

0.053

0.163

компактность (средняя):

0.019

0.345

вогнутость (среднее):

0.0

0.427

вогнутые точки (среднее):

0.0

0.201

симметрия (среднее):

0.106

0.304

фрактальная размерность (средняя):

0.05

0.097

радиус (стандартная ошибка):

0.112

2.873

текстура (стандартная ошибка):

0.36

4.885

периметр (стандартная ошибка):

0.757

21.98

площадь (стандартная ошибка):

6.802

542.2

гладкость (стандартная ошибка):

0.002

0.031

компактность (стандартная ошибка):

0.002

0.135

вогнутость (стандартная ошибка):

0.0

0.396

вогнутые точки (стандартная ошибка):

0.0

0.053

симметрия (стандартная ошибка):

0.008

0.079

фрактальная размерность (стандартная ошибка):

0.001

0.03

радиус (худший):

7.93

36.04

текстура (наихудшая):

12.02

49.54

периметр (наихудший):

50.41

251.2

площадь (наихудшая):

185.2

4254.0

гладкость (наихудшая):

0.071

0.223

компактность (наихудшая):

0.027

1.058

вогнутость (worst):

0.0

1.252

вогнутые точки (наихудшие):

0.0

0.291

симметрия (худший случай):

0.156

0.664

фрактальная размерность (наихудшая):

0.055

0.208

Отсутствующие значения атрибутов:

None

Распределение классов:

212 - Злокачественная, 357 - Доброкачественная

Создатель:

Др. Уильям Х. Вольберг, В. Ник Стрит, Олви Л. Мангасарян

Донор:

Nick Street

Дата:

Ноябрь, 1995

Это копия наборов данных UCI ML Breast Cancer Wisconsin (Diagnostic). https://goo.gl/U2Uwz2

Features are computed from a digitized image of a fine needle aspirate (FNA) of a breast mass. They describe characteristics of the cell nuclei present in the image.

Разделяющая плоскость, описанная выше, была получена с использованием Multisurface Method-Tree (MSM-T) [K. P. Bennett, “Decision Tree Construction Via Linear Programming.” Proceedings of the 4th Midwest Artificial Intelligence and Cognitive Science Society, pp. 97-101, 1992], метода классификации, который использует линейное программирование для построения дерева решений. Релевантные признаки были выбраны с помощью исчерпывающего поиска в пространстве 1-4 признаков и 1-3 разделяющих плоскостей.

Фактическая линейная программа, используемая для получения разделяющей плоскости в трехмерном пространстве, описана в: [K. P. Bennett и O. L. Mangasarian: «Robust Linear Programming Discrimination of Two Linearly Inseparable Sets», Optimization Methods and Software 1, 1992, 23-34].

Эта база данных также доступна через FTP-сервер UW CS:

ftp ftp.cs.wisc.edu cd math-prog/cpo-dataset/machine-learn/WDBC/

Ссылки#
  • W.N. Street, W.H. Wolberg и O.L. Mangasarian. Извлечение ядерных признаков для диагностики опухолей молочной железы. IS&T/SPIE 1993 International Symposium on Electronic Imaging: Science and Technology, том 1905, страницы 861-870, Сан-Хосе, Калифорния, 1993.

  • O.L. Mangasarian, W.N. Street и W.H. Wolberg. Диагностика и прогноз рака молочной железы с помощью линейного программирования. Operations Research, 43(4), стр. 570-577, июль-август 1995.

  • W.H. Wolberg, W.N. Street, and O.L. Mangasarian. Machine learning techniques to diagnose breast cancer from fine-needle aspirates. Cancer Letters 77 (1994) 163-171.