Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт

Автор

Алекс Дж. Гатман

Жанр

Книги / Компьютеры и Интернет / Программирование

Дата добавления:

3 май 2023

Количество просмотров:

Читать онлайн

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман

Назад 1 ... 64 65 66 67 68 69 Вперед

fivethirtyeight.com/features/when-we-say-70-percent-it-really-means-70-percent

Не забудьте оставить отзыв о нашей книге на сайте Amazon.

Как вы помните из главы 1, проект по работе с данными должен начинаться с формулирования четкого вопроса.

Мы понимаем, что 50 % – это отличный процент реализации бросков в баскетболе. У Леброна Джеймса, например, этот показатель за всю карьеру составляет 50 %. Так что нет, ваш стажер, скорее всего, не играет настолько хорошо, просто значение 50 % облегчает расчеты. Однако хорошо, что вы, как главный по данным, задумались о том, не слишком ли это оптимистично.

О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).

О'Нил Кэти, Шатт Рэйчел. «Data Science. Инсайдерская информация для новичков» (Издательство: Питер, 2019).

Об уточнении самого вопроса мы говорили в главе 1.

Мы использовали двусторонний точный тест Фишера.

В этом примере требуется выполнение так называемой проверки эквивалентности, обсуждение которой выходит за рамки данной главы. Однако имейте ее в виду, расскажите о ней своей команде и применяйте ее. Если вам понятна логика этой главы, у вас не возникнет сложностей с пониманием данной концепции.

“5 Sigma What’s That?” blogs.scientificamerican.com/observations/five-sigmawhats-that

Это можно исправить с помощью так называемой поправки на множественную проверку гипотез.

В статистике понятие «размер эффекта» может иметь множество значений. Здесь мы говорим о размере эффекта просто как о разнице между двумя числами.

Нет, на самом деле мы не собирали данные и не проводили подобное исследование.

Тест проводился с помощью языка программирования R для статистической обработки данных: 'prop.test(c(65, 50), c(100, 100), alternative = «greater»)'

Адамс, Скотт. Мультсериал «Дилберт». 3 января 2000 года.

Ну вроде того. На самом деле все не так просто.

Речь идет о наборе данных mtcars, входящем в состав программы R. http://stat.ethz.ch/R-manual/R-devel/library/datasets/html/mtcars.html. Для упрощения восприятия визуализации мы отображаем только 15 автомобилей из 32.

Поскольку признаки имеют разный размах, перед объединением их необходимо привести к одной числовой шкале.

Pearson, K. (1901). LIII. On lines and planes of closest fit to systems of points in space. The London, Edinburgh, and Dublin Philosophical Magazine and Journal of Science, 2(11), 559–572.

Количество сочетаний из 30 по 2 = 30!/((30–2)! 2!) = 435.

Ни одна из программ не возвращает результаты АГК, показанные здесь. Чтобы обойтись без множества уравнений и чисел, мы решили сосредоточиться на визуализации.

АГК и кластеризация никак не связаны между собой, так что их можно использовать независимо друг от друга.

Lloyd, S. (1982). Least squares quantization in PCM. IEEE transactions on information theory, 28(2), 129–137.

В этом примере мы делаем множество упрощающих допущений. С технической точки зрения этот метод не подходит для группировки точек на сфере, поскольку координаты широты и долготы не находятся в евклидовом пространстве. Используемая нами метрика расстояния не учитывает кривизну Земли, а также практические ограничения, вроде доступа к автомагистралям.

«Голая статистика. Самая интересная книга о самой скучной науке», Чарльз Уилан (Издательство: Манн, Иванов и Фербер, 2022).

Когда вы слышите словосочетание «линейная регрессия», чаще всего речь идет именно о регрессии методом наименьших квадратов. Существуют и другие типы линейной регрессии, но метод наименьших квадратов наиболее популярен.

При изучении алгебры вы познакомились с уравнением прямой линии: y = mx + b. Для любого входа x вы можете получить выход y, умножив x на m и прибавив b. Если y = 2x + 5, то вход x = 7 дает выход y = 2×7 + 5 = 19.

Краткое напоминание по поводу терминологии: выход y называется переменной отклика, целевой или зависимой переменной. Вход x называется признаком, предиктором или независимой переменной. Вы можете столкнуться со всеми этими терминами в своей работе.

Использование абсолютных значений также позволило бы сделать отклонения положительными перед агрегированием. Однако возведение в квадрат более предпочтительно с математической точки зрения, поскольку оно имеет свойство дифференцируемости, что было жизненно важно на ранних этапах применения метода линейной регрессии, когда все расчеты приходилось делать вручную.

Для простой регрессии с одним входным параметром R² представляет собой квадрат коэффициента корреляции, который мы обсуждали в главе 5. Однако значение R² может быть и отрицательным. Такое бывает, когда модель линейной регрессии оказывается менее эффективной, чем предсказание среднего значения.

Верхний предел количества признаков/входных параметров в модели линейной регрессии составляет N – 1, где N – количество строк в наборе данных. Таким образом, для прогнозирования ежемесячных объемов продаж на 12-месячный период вы можете использовать до 11 входных параметров.

Модели линейной регрессии не вычисляются, если два входных параметра идеально коррелированы, поэтому мы добавили шум в данные в этом примере.

Этой идее посвящена целая область статистики под названием «Планирование экспериментов».

https://en.wikipedia.org/wiki/Leakage_(machine_learning)

Разница между объяснением и предсказанием с помощью моделей подробно описана в статье: Shmueli, G. (2010). To explain or to predict? Statistical science, 25(3), 289–310.

Не путайте кластеризацию с классификацией. Помните о том, что кластеризация не предполагает использование меток. При кластеризации если метки и присваиваются, то самим аналитиком и только впоследствии. При решении задач классификации метки изначально присутствуют в наборе данных.

Логистическая регрессия, как вы узнаете далее, предсказывает

Назад 1 ... 64 65 66 67 68 69 Вперед

Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.

Похожие книги на "Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт", Алекс Дж. Гатман

Алекс Дж. Гатман читать все книги автора по порядку

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы