My-library.info
Все категории

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт
Дата добавления:
3 май 2023
Количество просмотров:
90
Читать онлайн
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман
как парадокс Симпсона, и мы поговорим о нем более подробно в главе 13.

Рис. 5.8. Набор данных Datasaurus можно загрузить бесплатно [43]. Как и в случае с «Квартетом Энскомба», оба представленных здесь набора данных имеют идентичные сводные статистические показатели

Осторожно: корреляция не означает причинность

Скорее всего, вы уже слышали фразу «корреляция не означает причинность» [44]. Однако повторить ее будет нелишним, учитывая, как часто ее игнорируют и неправильно понимают.

Когда две переменные коррелируют между собой, пусть даже и сильно, это не означает, что одна влияет на другую. Однако многие люди попадают в эту ловушку, пытаясь объяснить корреляцию между двумя переменными наличием причинно-следственной связи между ними. Чтобы показать, что корреляция не подразумевает причинность, статистики используют максимально абсурдные примеры. В частности, продажи мороженого коррелируют с нападениями акул (в обоих случаях пик приходится на летние месяцы). Размер обуви коррелирует с навыками чтения (и то и другое увеличивается с возрастом). Однако предположения о том, что сокращение объема продаж мороженого может снизить риск нападения акул, а покупка обуви большего размера может улучшить навыки чтения, абсурдны. Очевидно, что помимо температуры воздуха на улице в примере с мороженым и возраста в примере с размером обуви есть и другие факторы, играющие роль в формировании этих мнимых взаимосвязей.

Однако в тех случаях, когда в основе корреляции не лежит откровенная шутка, а истинный причинный фактор не известен, о мантре «корреляция не означает причинность» очень часто забывают.

Например, в ходе анализа данных о недвижимости вы обнаруживаете, что показатели школьной успеваемости коррелируют со стоимостью домов. Означает ли это, что близость хорошей школы повышает стоимость дома? Хорошие школы, по-видимому, делают район более привлекательным. А может быть, наоборот: более высокие цены на жилье способствуют повышению школьной успеваемости? Возможно, благодаря увеличению налоговых поступлений школе выделяется больше ресурсов. А может быть, причинно-следственная связь действует в обоих направлениях, создавая петлю обратной связи? В большинстве случаев мы точно этого не знаем. Здесь сочетаются многие факторы, и в имеющемся у нас наборе данных редко можно найти все ответы.

Всегда безопаснее предполагать, что между двумя коррелирующими переменными «нет причинно-следственной связи», если только кто-то не провел эксперимент, доказывающий обратное. Однако не стоит впадать в крайности. Мы по собственному опыту знаем, что иногда компании, академики и СМИ предполагают наличие причинно-следственной связи там, где этого делать не следует, а иногда наоборот – отвергают важную взаимосвязь, приняв ее за ошибку. Пример подобного необоснованного игнорирования взаимосвязи описан в следующей врезке.

Курение и рак легких

Рональд Э. Фишер, один из ведущих статистиков XX века, участвовавший в разработке ряда методов, описанных в этой книге, довольно скептически относился к исследованиям, связывавшим курение табака с заболеваемостью раком.

Больше всего Фишера заботили смешивающиеся переменные. Например, что, если некоторые люди генетически предрасположены к развитию рака легких и курят для того, чтобы облегчить симптомы болезни? По словам Фишера, ранние исследования рисков употребления табака содержали «издавна известную ошибку, выражавшуюся в том, что вывод о причинности делался на основе корреляции» [45].

Однако теперь мы точно знаем, что связь между ними есть. Итак, нам следует проявлять осторожность не только для того, чтобы не увидеть причинность там, где ее нет, но и чтобы не проигнорировать ее там, где она пока еще не доказана.

Обнаружили ли вы новые возможности в данных?

Разведочный анализ данных – это не просто процесс, позволяющий лучше разобраться в данных и наметить путь решения стоящих перед нами проблем. Это еще и шанс найти дополнительные возможности в этих данных, которые могут оказаться ценными для вашей организации. Дата-сайентист может обнаружить что-то интересное или странное в наборе данных и сформулировать проблему.

Однако вы не сможете оценить важность найденного вами решения до тех пор, пока не выполните действия, описанные в главе 1 «В чем суть проблемы?»

Подведение итогов

Чтобы стать главным по данным, вам необходимо постоянно заниматься разведочным анализом данных. Это позволит вам:

– Наметить более четкий путь решения проблемы.

– Уточнить исходную бизнес-задачу с учетом выявленных в данных ограничений.

– Сформулировать новые проблемы, которые можно решить с помощью этих данных.

– Отменить проект. Хотя это не приносит удовлетворения, EDA считается успешным, если он предотвращает трату времени и денег на решение тупиковой проблемы.

Мы провели вас через весь процесс, используя набор данных о ценах на недвижимость (к которому вернемся в главе 9 для построения предсказательной модели), и рассказали о тех препятствиях, с которыми вы можете столкнуться.

Содержание этой главы предполагает ваше участие во всех этапах процесса EDA. Однако иногда это невозможно, особенно для старших руководителей, курирующих множество проектов. Тем не менее пропуск ранних этапов не освобождает главных по данным от обязанности придерживаться исследовательского образа мышления. Подключаясь к проекту на завершающих этапах его реализации, спросите аналитиков, почему они выбрали тот или иной метод анализа данных и с какими проблемами столкнулись. Так вы можете узнать о предположениях, которые сами бы не сделали.

Глава 6

Изучайте вероятности

«Представления многих людей о вероятности настолько скудны, что они допускают только [одно] из двух ее значений: 50 на 50 и 99 %, то есть абсолютную случайность и практически полную уверенность»

– Джон Аллен Паулос, математик и автор книги «Математическое невежество и его последствия» [46]

Давайте поговорим о вероятности – языке неопределенности – и вернемся к теме, рассмотрение которой мы начали в главе 3 «Готовьтесь мыслить статистически». Напомним, что во всем присутствует вариация. Вариация порождает неопределенность. А теория вероятности и статистика – это инструменты, помогающие нам управлять неопределенностью.

Тот краткий раздел, посвященный вероятности, закончился следующим напутствием: будьте внимательны и помните о том, что интуиция может сыграть с вами злую шутку.

Это справедливое утверждение, однако такие темы, как вероятность, заслуживают больше этого предупреждения. Полное ее понимание, если оно вообще возможно, требует прочтения огромного количества учебников, прослушивания длинных лекций и посвящения всей жизни исследованиям и дебатам. И даже это не гарантирует согласия экспертов относительно интерпретации и философии вероятности [47]. У вас, скорее всего, нет времени или желания вникать в подробности этого спора; у нас его тоже нет. Поэтому мы избавим вас от них и сосредоточим внимание на том, что поможет вам отточить интуицию и добиться успеха в своей работе.

Итак, цель этой главы


Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.