не был проведен спланированный эксперимент и не были тщательно измерены различия между старым подходом и идеями стажера, то у вас нет оснований предполагать наличие причинно-следственной связи.
В этой главе вы узнали о статистическом выводе и о том, как можно оспаривать предоставляемые вам статистические данные. В частности, вы познакомились с вопросами, которые стоит задавать по поводу тех или иных статистических утверждений, а также узнали, почему это важно. Вот эти вопросы:
– Каков контекст этой статистики?
– Каков размер выборки?
– Что вы тестируете?
– Какова нулевая гипотеза?
– Каков уровень значимости?
– Сколько тестов вы проводите?
– Каковы доверительные интервалы?
– Имеет ли это практическое значение?
– Предполагаете ли вы наличие причинно-следственной связи?
Вооружившись этим списком, вы сможете эффективно оспаривать, понимать и оценивать статистические показатели, с которыми сталкиваетесь.
Часть III
Освойте набор инструментов дата-сайентиста
Скорее всего, взять в руки эту книгу вас побудили такие термины, как машинное обучение, искусственный интеллект и глубокое обучение. В этой части мы собираемся лишить их ореола таинственности.
Сфера данных, как бы мы ее ни назвали, постоянно изменяется. Однако фундаментальные концепции и инструменты существуют на протяжении десятилетий и лежат в основе самых актуальных тенденций, включая анализ текста и изображений. В части III вы найдете высокоуровневое описание этих концепций и методов.
Эта часть состоит из следующих глав:
Глава 8. Ищите скрытые группы.
Глава 9. Освойте модели регрессии.
Глава 10. Освойте модели классификации.
Глава 11. Освойте текстовую аналитику.
Глава 12. Концептуализируйте глубокое обучение.
Вы также узнаете о распространенных ошибках и ловушках, в которые попадают даже опытные аналитики.
Глава 8
Ищите скрытые группы
«Если вы проанализируете данные достаточно тщательно, то сможете отыскать послания Бога»
– Дилберт [71]
Представьте, что вам звонит друг и просит помочь категоризовать его музыкальную коллекцию, представляющую собой набор винтажных виниловых пластинок. Вы соглашаетесь.
По дороге вы задумываетесь о способе организации такой коллекции. Начать можно с очевидных категорий, например, с музыкальных жанров и поджанров. Также можно сгруппировать музыкальные композиции по периодам, в которые они были выпущены. Эту информацию легко найти на обложке альбома.
Однако, когда вы приезжаете к своему другу, он вручает вам высокую стопку черных виниловых пластинок без обложек.
Ваш друг говорит, что купил эти пластинки на гаражной распродаже и понятия не имеет о жанрах, исполнителях или периодах выхода записанных на них композиций. Вы вынуждены отказаться от своих предвзятых представлений о способах классификации записей, поскольку у вас нет обложек альбомов, на которые вы могли бы опереться при их группировке. Задача категоризации пластинок внезапно оказывается намного сложнее, чем вы предполагали.
Набравшись смелости, вы с другом достаете проигрыватель, прослушиваете альбомы и начинаете группировать их по категориям в зависимости от того, насколько они похожи. По мере прослушивания пластинок вы создаете новые группы, объединяете небольшие группы в одну и иногда переносите пластинку из одной группы в другую после ожесточенных споров о том, к какой группе она «ближе».
В конце концов у вас формируется 10 категорий, каждой из которых вы присваиваете описательное название.
То, что вы с другом только что сделали, называется обучением без учителя или неконтролируемым обучением. Вместо того чтобы опираться на предвзятые представления о данных, вы позволили данным организоваться самостоятельно [72].
Эта глава посвящена обучению без учителя – набору инструментов, предназначенных для обнаружения скрытых закономерностей и групп в наборах данных при отсутствии заранее определенных групп. Эта мощная техника используется в самых разных областях, начиная с распределения клиентов по разным маркетинговым категориям и заканчивая организацией музыкальных композиций на платформах Spotify или Pandora и упорядочиванием фотографий в телефоне.
В основе обучения без учителя или неконтролируемого обучения лежит идея о существовании скрытых групп в совокупности данных. Есть много способов, позволяющих выявить эти интересные закономерности и группы, если таковые действительно существуют. Как главный по данным, вы должны уметь ориентироваться в многочисленных методах обучения без учителя при поиске скрытых групп данных.
Но с чего начать, учитывая пугающе большое количество доступных методов неконтролируемого обучения? К счастью, для применения этих методов вам достаточно базового понимания связанных с ними основных действий. В данном случае речь идет:
– о снижении размерности с помощью анализа главных компонент;
– кластеризации методом k-средних.
В этой главе мы рассмотрим данные методы и разберемся в том, что они означают и как именно позволяют достичь целей по снижению размерности и кластеризации соответственно.
Снижение размерности – это процесс, с которым вы уже знакомы. Его примером может служить фотография, которая сводит трехмерный мир к плоскому двухмерному изображению, которое можно носить в кармане.
В случае с наборами данных мы работаем со строками и столбцами – наблюдениями и признаками. Количество столбцов (признаков) в наборе данных называется размерностью данных, а процесс объединения множества признаков в меньшее количество новых категорий при сохранении информации о наборе данных – снижением размерности. Проще говоря, мы ищем скрытые группы в столбцах набора данных, чтобы объединить несколько столбцов в один.
Давайте разберемся, почему это важно. С практической точки зрения в наборах данных с множеством признаков очень сложно разобраться. Их загрузка в компьютер может занимать много времени, и с ними тяжело работать. Из-за этого процесс разведочного анализа данных становится крайне утомительным, а в некоторых случаях – фактически нереализуемым. Например, в биоинформатике размерность набора данных может быть огромной. Каждое наблюдение исследователей может включать экспрессии тысяч генов, многие из которых сильно коррелируют друг с другом (а, следовательно, являются потенциально избыточными).
Снижение размерности данных позволяет сократить время вычислений, устранить избыточность и улучшить визуализацию результатов. Но как именно это можно сделать?
Создание составных признаков
Один из способов снизить размерность набора данных – объединение нескольких столбцов в составной признак. Давайте посмотрим, как это делается, на примере реальных данных о результатах сравнительных тестов 32 автомобилей, опубликованных в журнале Motor Trend за 1974 год. Сравнение этих автомобилей проводилось по 11 признакам, таким как расход топлива в милях на галлон, мощность двигателя в лошадиных силах, вес и другие характеристики автомобиля [73]. Наша задача – создать метрику «эффективности» для ранжирования автомобилей от наиболее до наименее эффективных.
Рис. 8.1. Ранжирование автомобилей на основе различных составных признаков. Обратите внимание на увеличение дисперсии, то есть на