этой статистики?»
К этому моменту вы уже должны понимать важность размера выборки. Небольшое значение N, как правило, сопровождается большим количеством вариаций. Нет проблем: вы просто добавляете дополнительные данные. При достаточном количестве данных результаты будут менее вариативными, верно? В эпоху «больших данных» у вас может возникнуть соблазн просто сделать значение N настолько огромным, чтобы выборка учитывала все вероятности.
Однако в тех случаях, когда значение N очень велико, легко подумать, что N = ВСЕ, то есть в вашем распоряжении имеются все возможные точки данных. Однако подобное допущение не освобождает вас от необходимости задумываться о качестве данных и предвзятости. (Вспомните уроки из главы 4.) Действительно ли ваша выборка охватывает людей, относящихся к интересующей вас категории?
Как отмечается в книге «Data Science. Инсайдерская информация для новичков»: [62]
Мы утверждаем, что предположение о том, что N=ВСЕ, – одна из самых больших проблем, с которыми мы сталкиваемся в эпоху больших данных. Прежде всего это способ исключения голосов людей, у которых нет времени, энергии или возможностей для участия во всех неформальных (возможно, даже необъявленных) выборах.
Исключение голосов относится не только к выборам. Нуждающиеся могут быть по ошибке лишены права на получение скидок на еду или одежду; на участие в опросах, касающихся государственной политики; или их голоса просто не будут учтены. Может показаться, что достаточно большой набор точно отражает характеристики популяции, однако размер выборки – это еще не все. Хуже того, в «больших данных» можно очень легко обнаружить ложные зависимости. Если препарировать данные определенным образом, в них всегда можно найти что-то интересное.
В тех редких случаях, когда N действительно равно ВСЕЙ популяции (перепись), можете считать, что вам повезло. Вам не придется заниматься построением статистического вывода, потому что в показателях описательной статистики не будет неопределенности при условии корректного сбора данных.
В основе любого статистического вывода, с которым вы сталкиваетесь на рабочем месте или в новостях, лежит (как мы надеемся) конкретный вопрос, который можно проверить с помощью данных. Не позволяйте специалисту по работе с данными предоставлять статистический показатель, не озвучивая при этом лежащий в его основе вопрос. Убедитесь в том, что ваша команда знает о причинах, по которым та или иная статистика вообще создается. Задайте вопрос: «Что вы тестируете?» – и попросите предоставить на него четкий ответ, сформулированный в нестатистических терминах [63].
В этом квартале ваш стажер в MegaCorp тесно сотрудничал с отделом обслуживания клиентов, предлагая идеи для повышения уровня их удовлетворенности. Вы хотите оценить эффективность его идей с помощью простого опроса клиентов MegaCorp, состоящего из единственного вопроса: «Вы бы порекомендовали нас другу?»
Стажер формализует тест и выдвигает нулевую гипотезу: «Уровень рекомендаций в этом квартале не ниже, чем в прошлом». Таким образом:
– H0: Уровень рекомендаций в этом квартале ≥ Уровню рекомендаций в прошлом квартале.
В случае отвержения нулевой гипотезы будет принята альтернативная гипотеза, которая в данном случае такова: «Уровень рекомендаций в этом квартале ниже, чем в прошлом квартале». Используя статистическую нотацию, альтернативную гипотезу можно записать так:
– Ha: Уровень рекомендаций в этом квартале < Уровня рекомендаций в прошлом квартале.
Остановитесь на мгновение и подумайте о сделанном допущении. Вы не видели никаких данных и статистических показателей, но можете оспорить саму логику подхода вашего стажера. Выдвигая нулевую гипотезу, он изначально настроил себя на победу. Если результаты опросов за два квартала практически не различаются или основаны на небольшой выборке клиентов, то доказательств в пользу отвержения исходного допущения может оказаться недостаточно. Именно поэтому главный по данным должен спросить: «Какова нулевая гипотеза?» Плохо сформулированная нулевая гипотеза может создать обманчивое впечатление истинности некоего утверждения просто в силу отсутствия доказательств обратного.
Помните, что цель науки – бросить вызов существующему положению вещей. Статус-кво соответствует нулевой гипотезе, а альтернативная гипотеза отражает то, во что верите вы. И с помощью собранных данных вы должны доказать, что нулевая гипотеза является маловероятной.
Чтобы доказать эффективность своей работы по повышению уровня удовлетворенности клиентов, ваш стажер должен проверить свою гипотезу следующим образом:
– H0: Уровень рекомендаций в этом квартале ≤ Уровню рекомендаций в прошлом квартале.
– Ha: Уровень рекомендаций в этом квартале > Уровня рекомендаций в прошлом квартале.
(Мы вернемся к этому примеру чуть позже.)
Допущение эквивалентности
Предположим, вы заменяете ключевой ингредиент в пищевом продукте, чтобы сократить расходы. Ваша команда проводит опрос клиентов, предлагая им оценить вкус по 10-балльной шкале, чтобы выяснить, замечают ли они изменение. При использовании предыдущей рецептуры 18 из 20 человек говорили о своей готовности купить продукт. В ходе нового опроса о готовности купить продукт, приготовленный по новому рецепту, заявили 12 из 20 человек.
При использовании нулевой гипотезы: «Коэффициент покупок нового продукта = Коэффициент покупок прежнего продукта» и уровня значимости 0,05 p-значение [64], вычисленное с помощью статистического теста, равно 0,064. Поскольку p-значение превышает 0,05, нулевая гипотеза не отклоняется. Ваш начальник Джордж воспринимает это так: «Моя команда аналитиков показала, что между старым и новым более дешевым рецептом нет никакой статистически значимой разницы. Можно сократить расходы».
Джордж считает старый и новый рецепты эквивалентными, но у него просто может не быть достаточного количества данных, доказывающих обратное. Мораль здесь такова: не суметь опровергнуть статус-кво – это не то же самое, что подтвердить его [65].
Каков уровень значимости?
Как вы помните, уровень значимости – это пороговое значение, до достижения которого мы готовы мириться с тем, что данные не согласуются с нулевой гипотезой, продолжая при этом считать ее верной.
По традиции уровень значимости задается в 5 % или 0,05. В некоторых отраслях может использоваться 1 % или 0,01. Некоторые исследователи используют еще более низкое значение. Например, сотрудники Европейской организации по ядерным исследованиям (ЦЕРН) применяли невероятно низкий уровень значимости в процессе поиска крошечной физической частицы, известной как бозон Хиггса [66]. Чем меньше уровень значимости, тем меньше вероятность ложноположительного заключения.
Скорее всего, вы начнете с уровня значимости в 5 %, однако имейте в виду, что при таком значении вы можете ошибочно отклонять нулевую гипотезу (то есть делать ложноположительное заключение) в 1 случае из 20. Это приемлемо для вас?
Очень легко выбрать уровень значимости, при котором ваши результаты всегда будут статистически значимыми. Во многих инструментах по умолчанию задано значение в 5 %. Однако этот