My-library.info
Все категории

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт
Дата добавления:
3 май 2023
Количество просмотров:
60
Читать онлайн
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман
показателя удовлетворенности клиентов, то есть вероятность получения оценки 9 или 10, составляет ровно 85 %.

19

Представьте, что мы описали обратную ситуацию и сказали вам, что в сельской местности наблюдается самый низкий уровень заболеваемости раком почки. Какие причины вы бы назвали? Попробуйте поразмышлять о них, и вы увидите, как легко сочинить историю на основе имеющихся данных.

20

Wainer, H. (2007). The most dangerous equation. American Scientist, 95(3), 249.

21

Здесь мы немного упрощаем. Перед выборами политические партии пытаются повлиять как на количество шариков в мешке, так и на их цвет. Но даже это не позволяет им узнать все о содержимом мешка, поэтому им приходится полагаться на выборку.

22

Данный пример взят с сайта www.johndcook.com/blog/2008/01/25/example-of-the-law-of-small-numbers

23

Tversky, A., & Kahneman, D. (1974). Judgment under uncertainty: Heuristics and biases. Science, 185(4157), 1124–1131.

24

О’Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).

25

Цитата из статьи NRP. “Challenger engineer who warned of shuttle disaster dies.” www.npr.org/sections/thetwo-way/2016/03/21/470870426/challenger-engineer-who-warned-of-shuttle-disaster-dies

26

Цитата из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер» (Report to the President by the Presidential Commission on the Space Shuttle Challenger Accident). С. 146. sma.nasa.gov/SignificantIncidents/assets/rogers_commission_report.pdf

27

Данные доступны для загрузки из репозитория для машинного обучения Калифорнийского университета в Ирвайне: archive.ics.uci.edu/ml/datasets/Challenger+USA+Space+ Shuttle+O-Ring

28

Dalal, S. R., Fowlkes, E. B., & Hoadley, B. (1989). Risk analysis of the space shuttle: pre-Challenger prediction of failure. Journal of the American Statistical Association, 84(408), 945–957.

29

Обратите внимание на то, что подобные вопросы вам следует задать до начала реализации проекта по работе с данными, как было сказано в главе 1.

30

Существуют способы использования данных наблюдений для выявления причинно-следственных связей, которые опираются на сильные предположения и продуманную статистику. Они называются методами выявления причинности.

31

Сбор всех сведений об интересующей совокупности называется переписью.

32

Мы вернемся к этой идее в одной из следующих глав при обсуждении так называемой систематической ошибки выжившего.

33

Производственным, инженерным и исследовательским организациям также следует позаботиться об определении повторяемости и воспроизводимости данных, измеряемых с помощью технического оборудования.

34

При обдумывании подходящего размера выборки специалисты по статистике отталкиваются от величины мощности, о которой мы поговорим в главе 7.

35

Цитата из статьи “Understand Regression Analysis”, Amy Gallo, глава 10 в HBR Guide to Data Analytics Basics for Managers (HBR Guide Series).

36

Tukey, J. W. (1977). Exploratory data analysis (Vol. 2, pp. 131–160).

37

Заинтересованные стороны не должны заниматься микроменеджментом. Между бизнес-лидерами и командами, работающими с данными, должен быть определенный уровень доверия.

38

De Cock, D. (2011). Ames, Iowa: Alternative to the Boston housing data as an end of semester regression project. Journal of Statistics Education, 19(3). Данные можно загрузить с сайта www.kaggle.com/c/house-prices-advanced-regression-techniques.

39

Компания Zillow очень серьезно относится к Zestimate®. В 2019 году она выделила 1 миллион долларов команде дата-сайентистов ради повышения точности прогнозов этого инструмента. venturebeat.com/2019/01/30/zillow-awards-1-million-to-team-that-reduced-home-valuation-algorithm-error-to-below-4

40

Диаграммы размаха также называют диаграммами типа «ящик с усами». «Ящик» содержит центральные 50 % наблюдений (значения в диапазоне между 25-м и 75-м процентилями), линия в ящике – это медиана, а «усы» показывают диапазон, в котором находятся оставшиеся точки данных. Точки, выходящие за пределы этого диапазона, – потенциальные выбросы.

41

Корреляция вовсе не означает, что наклон линии должен быть крутым. Идеальная корреляция между двумя переменными вполне может описываться почти плоской (хоть и не горизонтальной) линией.

42

Anscombe, F. J. (1973). Graphs in statistical analysis. The American Statistician, 27(1), 17–21. Для получения значений, напоминающих цены на дома, мы умножили зависимую переменную на 22 000.

43

Набор данных Datasaurus был создан Альберто Каиро и доступен на GitHub: github.com/lockedata/datasauRus

44

Авторы этого руководства поспорили о том, можно ли вообще не упомянуть эту фразу в книге, посвященной науке о данных. О результате этого спора вы можете догадаться сами.

45

Fisher, R. A. (1958). Cancer and smoking. Nature, 182 (4635), 596.

46

Паулос, Дж. А. «Математическое невежество и его последствия» (Издательство: Студия Артемия Лебедева, 2021).

47

Поищите в Интернете «Интерпретации вероятности», чтобы понять, что мы имеем в виду.

48

Разве можно опоздать на работу, работая на себя? В этом примере – да.

49

«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

50

Эта вероятность не была бы равна 100 %, потому что у команды противника тоже есть болельщики.

51

Вера в то, что прошлые независимые события могут произойти по прошествии достаточного количества времени, также известна как «закон средних чисел» – наукообразный термин, обозначающий склонность принимать желаемое за действительное.

52

Авторы книги ничего не имеют против таких завтраков.

53

Мы не утверждаем, что консультанты или хирурги так поступают. Так делают только адвокаты.

54

Confusion of the Inverse: en.wikipedia.org/wiki/Confusion_of_the_inverse. Доступ получен 4 июля, 2020.

55

С подробной историей данной теоремы можно ознакомиться в книге McGrayne, S. B. (2011). The Theory That Would Not Die: How Bayes’ Rule Cracked the Enigma Code, Hunted Down Russian Submarines, and Emerged Triumphant from Two Centuries of Controversy (American First ed.). Yale University Press.

56

Мы говорим «примерно», потому что во всем есть вариации. Но в долгосрочной перспективе событие, имеющее вероятность 75 %, должно происходить в 75 % случаев.


Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.