My-library.info
Все категории

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт
Дата добавления:
3 май 2023
Количество просмотров:
90
Читать онлайн
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман
моих братьев Райана и Росса и сестру Эрин за их поддержку.

Эта книга – кульминация множества дискуссий, проведенных с друзьями и коллегами, с которыми мы обсуждали всевозможные вопросы, начиная с целесообразности написания книги об овладении языком науки о данных и заканчивая выбором тем, которые стоит в нее включить. Я выражаю особую благодарность Алтынбеку Исмаилову, Энди Ноймайеру, Брэдли Бёмке, Брэндону Гринвеллу, Бренту Расселу, Кейду Сайе, Калебу Гудро, Карлу Парсону, Дэниэлу Уппенкампу, Дугласу Кларку, Грегу Андерсону, Джейсону Фрилсу, Джоэлу Чейни, Джозефу Келлеру, Джастину Мауреру, Нэйтану Свигарту, Филу Хартке, Сэмюэлу Риду, Шону Шнайдеру, Стивену Ферро и Закари Аллену.

Я также в долгу перед сотнями инженеров, бизнес-профессионалов и специалистов в области науки о данных, с которыми я общался лично или через Интернет, и которые помогли мне стать более эффективным дата-сайентистом и коммуникатором. Я также хочу сказать спасибо своим «студентам» (коллегам), которые предоставили честные отзывы о курсах, которые я преподавал. Я услышал вас и благодарен вам.

Мне посчастливилось иметь множество академических и профессиональных наставников, которые помогли мне обрести собственный голос и уверенность в качестве статистика, дата-сайентиста и тренера. Я выражаю благодарность Джеффри Вейру, Джону Тудоровичу, К. Т. Арасу, Рэймонду Хиллу, Робу Бейкеру, Скотту Кроуфорду, Стивену Чэмбалу, Тони Уайту и Уильяму Бреннеману (который любезно согласился стать техническим редактором этой книги). Общаясь с такими людьми, просто невозможно не стать мудрее.

Я также хочу сказать спасибо команде издательства Wiley: Джиму Минателу за веру в проект и предоставленный нам шанс, Питу Гогану и Джону Слива, которые направляли нас на протяжении всего процесса написания книги, а также производственному персоналу Wiley за тщательную вычитку глав. Также выражаю благодарность нашим техническим редакторам Уильяму Бреннеману и Джен Стиррап за ценные предложения и опыт, благодаря которым книга стала гораздо лучше.

Отдельно хочу поблагодарить своего соавтора Джордана Голдмайера и не только за книгу, которую вы держите в руках. В начале своей карьеры я пожаловался Джордану на то, что люди не разделяют моего интереса к статистике и статистическому образу мышления. На это он сказал, что раз меня это так беспокоит, то я должен это изменить. С тех пор я выполняю это обязательство.

Наконец, я хотел бы снова сказать спасибо своей жене Эрин (потому что лучшее действительно следует оставлять напоследок).

– Алекс

Я хотел бы поблагодарить всех тех людей, благодаря которым эта книга вышла в свет.

Прежде всего я выражаю благодарность моему соавтору Алексу Гутману. В течение многих лет мы обсуждали идею совместного написания книги. Когда подходящий момент настал, мы это сделали. О лучшем соавторе я не мог бы и мечтать.

Спасибо замечательным сотрудникам Wiley, в том числе рецензенту издательства Джиму Минателу и руководителю проекта Джону Слива. Кроме того, я хотел бы выразить признательность нашим техническим редакторам, Уильяму Бреннеману и Джен Стиррап, за их усердную работу по рецензированию книги. Мы учли все ваши комментарии.

И последнее, но не менее важное: я хочу сказать спасибо моему партнеру Кэти Грей, которая всегда верила в этот проект – и в меня.

– Джордан

Примечания

1

Splunk Inc., “The State of Dark Data,” 2019, www.splunk.com/en_us/form/the-state-of-dark-data.html.

2

Venture Beat. “87 % of data science projects failing”: venturebeat.com/2019/07/19/why-do-87-of-data-science-projects-never-make-it-into-production

3

www.brookings.edu/wp-content/uploads/2016/06/11_origins_crisis_baily_litan.pdf

4

Нейт Сильвер написал по этому поводу целую серию статей (fivethirtyeight.com/tag/the-real-story-of-2016). Одна из ошибок социологов заключалась в допущении независимости событий, как и в случае с ипотечным кризисом.

5

Примечание для коллег-статистиков: мы имеем в виду обычную, а не статистическую достоверность.

6

Метод k-ближайших соседей можно использовать для предсказания не только классов, но и чисел. Эти так называемые задачи регрессии мы рассмотрим далее в книге.

7

Эта идея обсуждается в чрезвычайно полезной книге Г. Уилсона «Teaching tech together» (CRC Press, 2019).

8

Надежная стратегия работы с данными способна смягчить эти проблемы. Разумеется, важным компонентом любой подобной стратегии является решение значимых проблем, и именно на этом мы сосредоточим внимание в этой главе. Если вы хотите узнать больше о высокоуровневой стратегии работы с данными, обратитесь к книге Jagare, U. Data science strategy for dummies. (John Wiley & Sons, 2019).

9

2017 Kaggle Machine Learning & Data Science Survey. Результаты доступны по адресу: www.kaggle.com/kaggle/kaggle-survey-2017. Доступ получен 12 января 2021.

10

Существуют дополнительные уровни непрерывных данных, называемые отношением и интервалом. Вы можете ознакомиться с ними самостоятельно, однако, согласно нашим наблюдениям, эти термины довольно редко используются в бизнес-среде. Кроме того, бывают ситуации, когда различие между непрерывными и счетными данными не имеет особого значения. Такие большие числа, как количества посещений веб-сайтов, часто считаются при анализе данных непрерывными, а не счетными. Это различие оказывается важным лишь тогда, когда речь идет о близких к нулю значениях. Мы поговорим об этом подробнее в следующих главах.

11

Пример таких искажающих результаты признаков можно найти в сфере клинических испытаний лекарств. Если группа активного воздействия состоит только из детей и никто из них не заболел, вам останется только гадать, чем это обусловлено – эффективным лекарством или особенностью детского организма. Эффект от использования препарата будет смешан с возрастом. Случайное распределение участников эксперимента на две группы позволяет этого избежать.

12

“Data Is” vs. “Data Are”: fivethirtyeight.com/features/data-is-vs-data-are

13

Ф. Харрелл, профессор и заведующий кафедрой биостатистики Университета Вандербильта: www.fharrell.com/post/introduction

14

«Думай медленно… решай быстро», Даниэль Канеман (Издательство: АСТ, 2014).

15

В США существуют две политические партии.

16

Ссылка на статью в Harvard Data Science Review: hdsr.mitpress.mit.edu/pub/pjl0jtkp

17

Мы уделяем так много внимания клиентскому восприятию потому, что (1) его трудно измерить точно, (2) небольшая группа предвзятых людей оказывает сильное влияние на результаты и (3) руководство очень тщательно его анализирует.

18

В нашей симуляции вероятность получения оценки 8 составляла 15 %, вероятность получения оценки 9–40 %, а вероятность получения оценки 10–45 %. Поскольку мы сами сгенерировали эти данные, мы точно знаем, что истинное значение


Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.