как парадокс Симпсона, и мы поговорим о нем более подробно в главе 13.
Рис. 5.8. Набор данных Datasaurus можно загрузить бесплатно [43]. Как и в случае с «Квартетом Энскомба», оба представленных здесь набора данных имеют идентичные сводные статистические показатели
Осторожно: корреляция не означает причинность
Скорее всего, вы уже слышали фразу «корреляция не означает причинность» [44]. Однако повторить ее будет нелишним, учитывая, как часто ее игнорируют и неправильно понимают.
Когда две переменные коррелируют между собой, пусть даже и сильно, это не означает, что одна влияет на другую. Однако многие люди попадают в эту ловушку, пытаясь объяснить корреляцию между двумя переменными наличием причинно-следственной связи между ними. Чтобы показать, что корреляция не подразумевает причинность, статистики используют максимально абсурдные примеры. В частности, продажи мороженого коррелируют с нападениями акул (в обоих случаях пик приходится на летние месяцы). Размер обуви коррелирует с навыками чтения (и то и другое увеличивается с возрастом). Однако предположения о том, что сокращение объема продаж мороженого может снизить риск нападения акул, а покупка обуви большего размера может улучшить навыки чтения, абсурдны. Очевидно, что помимо температуры воздуха на улице в примере с мороженым и возраста в примере с размером обуви есть и другие факторы, играющие роль в формировании этих мнимых взаимосвязей.
Однако в тех случаях, когда в основе корреляции не лежит откровенная шутка, а истинный причинный фактор не известен, о мантре «корреляция не означает причинность» очень часто забывают.
Например, в ходе анализа данных о недвижимости вы обнаруживаете, что показатели школьной успеваемости коррелируют со стоимостью домов. Означает ли это, что близость хорошей школы повышает стоимость дома? Хорошие школы, по-видимому, делают район более привлекательным. А может быть, наоборот: более высокие цены на жилье способствуют повышению школьной успеваемости? Возможно, благодаря увеличению налоговых поступлений школе выделяется больше ресурсов. А может быть, причинно-следственная связь действует в обоих направлениях, создавая петлю обратной связи? В большинстве случаев мы точно этого не знаем. Здесь сочетаются многие факторы, и в имеющемся у нас наборе данных редко можно найти все ответы.
Всегда безопаснее предполагать, что между двумя коррелирующими переменными «нет причинно-следственной связи», если только кто-то не провел эксперимент, доказывающий обратное. Однако не стоит впадать в крайности. Мы по собственному опыту знаем, что иногда компании, академики и СМИ предполагают наличие причинно-следственной связи там, где этого делать не следует, а иногда наоборот – отвергают важную взаимосвязь, приняв ее за ошибку. Пример подобного необоснованного игнорирования взаимосвязи описан в следующей врезке.
Курение и рак легких
Рональд Э. Фишер, один из ведущих статистиков XX века, участвовавший в разработке ряда методов, описанных в этой книге, довольно скептически относился к исследованиям, связывавшим курение табака с заболеваемостью раком.
Больше всего Фишера заботили смешивающиеся переменные. Например, что, если некоторые люди генетически предрасположены к развитию рака легких и курят для того, чтобы облегчить симптомы болезни? По словам Фишера, ранние исследования рисков употребления табака содержали «издавна известную ошибку, выражавшуюся в том, что вывод о причинности делался на основе корреляции» [45].
Однако теперь мы точно знаем, что связь между ними есть. Итак, нам следует проявлять осторожность не только для того, чтобы не увидеть причинность там, где ее нет, но и чтобы не проигнорировать ее там, где она пока еще не доказана.
Обнаружили ли вы новые возможности в данных?
Разведочный анализ данных – это не просто процесс, позволяющий лучше разобраться в данных и наметить путь решения стоящих перед нами проблем. Это еще и шанс найти дополнительные возможности в этих данных, которые могут оказаться ценными для вашей организации. Дата-сайентист может обнаружить что-то интересное или странное в наборе данных и сформулировать проблему.
Однако вы не сможете оценить важность найденного вами решения до тех пор, пока не выполните действия, описанные в главе 1 «В чем суть проблемы?»
Чтобы стать главным по данным, вам необходимо постоянно заниматься разведочным анализом данных. Это позволит вам:
– Наметить более четкий путь решения проблемы.
– Уточнить исходную бизнес-задачу с учетом выявленных в данных ограничений.
– Сформулировать новые проблемы, которые можно решить с помощью этих данных.
– Отменить проект. Хотя это не приносит удовлетворения, EDA считается успешным, если он предотвращает трату времени и денег на решение тупиковой проблемы.
Мы провели вас через весь процесс, используя набор данных о ценах на недвижимость (к которому вернемся в главе 9 для построения предсказательной модели), и рассказали о тех препятствиях, с которыми вы можете столкнуться.
Содержание этой главы предполагает ваше участие во всех этапах процесса EDA. Однако иногда это невозможно, особенно для старших руководителей, курирующих множество проектов. Тем не менее пропуск ранних этапов не освобождает главных по данным от обязанности придерживаться исследовательского образа мышления. Подключаясь к проекту на завершающих этапах его реализации, спросите аналитиков, почему они выбрали тот или иной метод анализа данных и с какими проблемами столкнулись. Так вы можете узнать о предположениях, которые сами бы не сделали.
Глава 6
Изучайте вероятности
«Представления многих людей о вероятности настолько скудны, что они допускают только [одно] из двух ее значений: 50 на 50 и 99 %, то есть абсолютную случайность и практически полную уверенность»
– Джон Аллен Паулос, математик и автор книги «Математическое невежество и его последствия» [46]
Давайте поговорим о вероятности – языке неопределенности – и вернемся к теме, рассмотрение которой мы начали в главе 3 «Готовьтесь мыслить статистически». Напомним, что во всем присутствует вариация. Вариация порождает неопределенность. А теория вероятности и статистика – это инструменты, помогающие нам управлять неопределенностью.
Тот краткий раздел, посвященный вероятности, закончился следующим напутствием: будьте внимательны и помните о том, что интуиция может сыграть с вами злую шутку.
Это справедливое утверждение, однако такие темы, как вероятность, заслуживают больше этого предупреждения. Полное ее понимание, если оно вообще возможно, требует прочтения огромного количества учебников, прослушивания длинных лекций и посвящения всей жизни исследованиям и дебатам. И даже это не гарантирует согласия экспертов относительно интерпретации и философии вероятности [47]. У вас, скорее всего, нет времени или желания вникать в подробности этого спора; у нас его тоже нет. Поэтому мы избавим вас от них и сосредоточим внимание на том, что поможет вам отточить интуицию и добиться успеха в своей работе.
Итак, цель этой главы