My-library.info
Все категории

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт
Дата добавления:
3 май 2023
Количество просмотров:
90
Читать онлайн
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман
вопросов, причины поиска ответа на них и проблемы, с которыми вы можете столкнуться.

Сценарий

Вы работаете в стартапе, занимающемся недвижимостью, и ваша задача – привлечь трафик на сайт. Однако вам трудно конкурировать с такими технологическими гигантами, как американская компания Zillow, чей знаменитый инструмент оценки стоимости жилья Zestimate® [39] привлекает большое количество людей (и денег) на сайт Zillow.com. Чтобы конкурировать с этим, вашему стартапу нужен собственный инструмент прогнозирования. Итак, перед вами поставлена задача построить модель, которая использует в качестве входных данных информацию о доме, а в качестве выходных данных выдает ориентировочную цену продажи.

Начальник присылает вам набор данных, в котором содержится 80 столбцов. Каждый из них описывает те или иные аспекты сотен жилых домов, проданных в городе Эймс, штат Айова, в период с 2006 по 2011 год.

Такое количество данных ошеломит кого угодно. Тем не менее перечисленные выше вопросы могут помочь вам приступить к их анализу.

Давайте разберем каждый их них.

Позволяют ли данные ответить на поставленный вопрос?

Как бы вам ни хотелось поскорее скормить данные новомодному алгоритму (например, воспользоваться методом глубокого обучения, описанным в главе 12), сначала следует спросить: «Позволяют ли данные ответить на поставленный вопрос?» И для получения ответа на него часто бывает достаточно просто взглянуть на имеющиеся данные.

Определитесь с ожиданиями и руководствуйтесь здравым смыслом

Вы должны иметь довольно хорошее представление о том, какая информация необходима для определения цены продажи дома, например, общая площадь, количество спален, количество ванных комнат, год постройки и так далее. Эти характеристики чаще всего интересуют потенциальных покупателей жилья, заходящих на ваш веб-сайт. Без их учета предсказание цены дома не кажется разумным.

Открыв файл, вы видите названия столбцов и типы данных. В нем присутствуют вполне ожидаемые признаки, а также полезные порядковые данные (например, «Общее качество дома, 1–10, где 10 означает «Превосходное»), номинальные данные («Окрестности») и множество других признаков. На первый взгляд, с данными все в порядке.

На следующем этапе вы, вероятно, решите изучить значения, которые принимают переменные. Охватывают ли они те сценарии, которые вы хотите проанализировать? Например, если вы обнаружите, что переменная «Тип здания: тип жилища» принимает только одно значение – «Дом на одну семью», но не включает квартиры, дуплексы или кондоминиумы, то ваша модель будет иметь ограниченный охват по сравнению с моделью компании Zillow. Ее инструмент Zestimate® может предсказать цену продажи кондоминиума – но, если у вас нет исторических данных о них, модель вашей компании не сможет надежно предсказать его цену.

Мораль заключается в следующем: не выуживайте данные, как говорилось в цитате, приведенной в начале главы. Убедитесь в том, что данные позволяют ответить на поставленный вопрос.

Имеют ли данные интуитивный смысл?

Программное обеспечение сгенерирует для вас множество сводных статистических показателей. Ваша задача – поместить эти данные в контекст. Оцените соответствие этой сводной статистики своему интуитивному пониманию проблемы. Еще один ключевой компонент EDA – визуализации. Используйте их для обнаружения аномалий и других странностей в данных.

Визуализация данных

Давайте рассмотрим несколько примеров проведения разведочного анализа данных с использованием гистограмм, диаграмм размаха, столбиковых графиков и диаграмм рассеяния. Если вы уже хорошо знакомы с такими графиками, то можете пропустить этот раздел.

Гистограммы позволяют определить форму распределения непрерывных числовых данных. Рассмотрим гистограмму продажных цен, изображенную на рис. 5.1. На ней мы видим около 125 домов стоимостью до 200 000 долларов и длинный хвост справа, сформированный самыми дорогими домами. Из-за этого хвоста средняя цена продажи (181 000 долларов) превышает медианную цену (163 000 долларов). То есть из-за небольшого количества дорогих домов среднее значение превышает медианное.

Рис. 5.1. Гистограмма, отражающая форму распределения цен на дома

Гистограммы помогают обнаруживать аномалии. Если бы вы увидели отрицательные значения, говорящие о получении покупателем платы за покупку дома, или неожиданно большие значения у правого края графика на рис. 5.1, что бывает при задании максимального значения (например, когда любое значение, превышающее 500 000 долларов, записывается как 500 000 долларов), вам бы захотелось задать дополнительные вопросы.

Диаграммы размаха [40] можно использовать для сравнения данных, принадлежащих нескольким группам. На рис. 5.2 показана диаграмма размаха для каждого рейтинга качества дома, где 1 означает плохое, а 10 – превосходное.

Рис. 5.2. Использование диаграмм размаха для сравнения продажных цен при различных рейтингах качества

В данном случае взаимосвязь между общим качеством дома и его ценой кажется интуитивно понятной. Более качественные дома обычно продаются по более высокой цене. Мы можем обнаружить дом за 200 000 долларов, общее качество которого было оценено на 10 (нижний конец линии). Однако разумно предположить, что он был продан дешевле, чем другие дома с оценкой 10 из-за прочих факторов. Специалистам по работе с данными следует проверять такого рода информацию.

Столбиковые графики (рис. 5.3) отображают распределение категориальных данных.

Рис. 5.3. Столбиковый график, показывающий количество домов с разными типами электроустановок

Не все виды визуализаций могут показаться интересными на первый взгляд. Тем не менее ознакомиться с ними все равно стоит – хотя бы для того, чтобы подтвердить (или оспорить) ответ на вопрос: «Имеют ли данные интуитивный смысл?» Согласно графику на рис. 5.3, почти все дома имеют одинаковое значение указанного признака. Однако с точки зрения поставленной перед вами задачи эта информация полезна. Поскольку значение этой переменной одинаковое для большинства домов, она, вероятно, не будет существенно влиять на разницу в их стоимости.

Рис. 5.4. Линейная диаграмма, отражающая количество домов, проданных в разные месяцы

На рис. 5.4 показана линейная диаграмма, отражающая количество домов, проданных в разные месяцы. Явление, при котором продажи домов увеличиваются летом и сокращаются зимой, называется сезонностью. Линейные диаграммы хорошо отражают такие тенденции.

На следующем этапе мы можем изучить диаграмму рассеяния, демонстрирующую зависимость цены дома от его размера (площади первого этажа в квадратных футах).

Зависимость, отображенная на рис. 5.5, интуитивно понятна. Большие дома обычно стоят дороже. Разумеется, из этого правила есть исключения: иногда небольшие дома стоят дороже, чем большие. Вариации есть всегда, но они не отменяют общую тенденцию. И поскольку в конечном итоге мы пытаемся предсказать цену продажи дома, его площадь – весьма полезная информация.

Рис. 5.5. Диаграмма рассеяния, отражающая площадь


Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.