My-library.info
Все категории

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

На электронном книжном портале my-library.info можно читать бесплатно книги онлайн без регистрации, в том числе Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман. Жанр: Программирование год 2004. В онлайн доступе вы получите полную версию книги с кратким содержанием для ознакомления, сможете читать аннотацию к книге (предисловие), увидеть рецензии тех, кто произведение уже прочитал и их экспертное мнение о прочитанном.
Кроме того, в библиотеке онлайн my-library.info вы найдете много новинок, которые заслуживают вашего внимания.

Название:
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт
Дата добавления:
3 май 2023
Количество просмотров:
94
Читать онлайн
Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман краткое содержание

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман - описание и краткое содержание, автор Алекс Дж. Гатман, читайте бесплатно онлайн на сайте электронной библиотеки My-Library.Info

Перед вами исчерпывающее руководство по основам Data Science. С помощью него вы сможете научиться мыслить статистически и понимать, какую роль в вашей работе играет аналитика, пользоваться языком науки о данных, избегать распространенных ошибок при работе с ними и, наконец, разобраться в полезных инструментах, которые используют эксперты.
В формате PDF A4 сохранен издательский макет книги.

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт читать онлайн бесплатно

Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - читать книгу онлайн бесплатно, автор Алекс Дж. Гатман
class="p1">Мы говорим о необработанных данных – исходном материале, на основе которого рассчитываются все статистические показатели, строятся модели машинного обучения и создаются визуализации, отображаемые на информационных панелях. Это данные, которые хранятся в ваших электронных таблицах или базах данных. Если эти необработанные данные плохие, то никакие методы очистки, статистической обработки или машинного обучения не помогут это скрыть. В качестве резюме для данной главы лучше всего подходит фраза, которую вы, вероятно, уже слышали: «Мусор на входе, мусор на выходе». В этой главе мы перечислим те типы вопросов, которые вам следует задать, чтобы оценить качество имеющихся у вас данных.

Мы выделили три основных и несколько уточняющих вопросов, которые помогут вам поспорить с имеющимися данными.

– Какова история происхождения этих данных?

• Кто собирал данные?

• Как собирались эти данные?

– Являются ли данные репрезентативными?

• Имеет ли место предвзятость выборки?

• Что вы сделали с выбросами?

– Какие данные я не вижу?

• Как вы поступили с отсутствующими значениями?

• Позволяют ли данные измерить то, что вас интересует?

В следующих разделах мы подробно рассмотрим каждый вопрос, поговорим о причинах, по которым его следует задавать, и о том, какие проблемы он обычно позволяет обнаруживать.

Однако прежде, чем это сделать, мы предлагаем вам выполнить одно мысленное упражнение.

Что бы вы сделали?

Вы отвечаете за крупный проект в технологической компании, которая находится на пороге прорыва в области создания беспилотных автомобилей. Это важный момент для вас и вашей работы, не говоря уже о карьере. Успешная демонстрация вашего продукта обещает искупить все сверхурочные часы работы, чрезмерно оптимистичные обещания, данные руководству, задержки в реализации проекта и бюджетные затраты на исследования и разработки.

И сейчас вечер накануне презентации прототипа нового автомобиля.

Руководители компании, десятки сотрудников, потенциальные инвесторы и представители СМИ проехали сотни километров, чтобы засвидетельствовать то, что может стать переломным моментом в истории автомобилестроения. Однако поздно вечером ваш старший инженер сообщает, что на завтра синоптики прогнозируют 31 °F (–1 °C). По словам инженера, низкие температуры могут поставить под угрозу жизненно важные компоненты инновационной системы автономного вождения прототипа автомобиля. Дело не в том, что он уверен в непременном возникновении проблемы. Просто система, которую в будущем планируется адаптировать и испытать при отрицательных температурах, еще не была опробована на морозе, так что демонстрация рискует превратиться в публичную и дорогостоящую катастрофу.

Однако перенести подобное мероприятие дорого и непросто. Если презентация не состоится завтра, то идеальных условий придется ждать месяцами. Ваша компания потратила большую часть предыдущего года на создание ажиотажа вокруг этого момента. Если презентацию перенести, уровень заинтересованности уже не будет таким высоким.

Вы просите инженера предоставить данные, заставляющие его беспокоиться о возможном повреждении внутренних компонентов автомобиля из-за низких температур. Он показывает вам график, представленный на рис. 4.1.

По словам инженера, компания провела 23 тест-драйва при различных температурах, и в ходе семи из них (отмеченных на графике) имел место выход из строя критической части системы самонавигации. В ходе двух тест-драйвов из строя вышли сразу два критических компонента.

Рис. 4.1. График зависимости числа отказов критических компонентов от температуры во время тест-драйвов

Ваши инженеры учли вероятность подобных отказов, поэтому они обеспечили избыточность. Каждая система предусматривает шесть критических компонентов (вот почему максимальное значение на вертикальной оси – 6). Наличие запасных частей означает, что даже в случае поломки некоторых из них машина продолжит функционировать. В ходе 23 тест-драйвов из строя ни разу не вышло сразу более двух компонентов, поэтому и проблем с использованием автомобиля ни разу не возникло. В обоих случаях, имевших место при температуре 53 °F (12 °C) и 75 °F (24 °C), машина так и не остановилась. Минимальная температура, при которой проводилось испытание, составляла 53 °F (12 °C), а максимальная – 81 °F (27 °C).

«Однако мы не тестировали систему при более низких температурах», – говорят инженеры. И вы понимаете, что они обеспокоены.

Но как бы вы ни старались, вы не можете заметить связь между температурой и вероятностью отказа компонентов за исключением того, что все они имели место при температурах значительно выше 30 °F (–1 °C). Вам трудно представить сценарий, при котором низкие температуры могут вывести из строя более двух компонентов из шести, учитывая данные, полученные в ходе 23 тест-драйвов. Кроме того, машина вполне может продолжать движение и при наличии четырех исправных критических компонентов. Если во время демонстрации выйдет из строя максимум два, узнает ли об этом кто-нибудь вообще?

Что бы вы сделали? Отложили бы презентацию или провели ее в запланированный день?

Остановитесь на мгновение и подумайте о том, есть ли какие-нибудь недостающие данные, которые вы захотели бы учесть.

Катастрофа, вызванная недостатком данных

28 января 1986 года на глазах у всего мира НАСА запустило космический шаттл «Челленджер» из Космического центра им. Кеннеди во Флориде при отрицательных температурах.

Рис. 4.2. График зависимости числа неисправностей уплотнительных колец от температуры во время полетов. График взят из отчета Президентской комиссии, занимавшейся расследованием катастрофы космического челнока «Челленджер»

Многие из нас знают эту часть истории «Челленджера», однако мало кто знаком со стоящими за ней данными. Дело в том, что у «Челленджера» тоже было шесть критически важных компонентов, известных как уплотнительные кольца, которые «предотвращают утечку горящего ракетного топлива из соединений ускорителя» [25]. До запуска в ходе 23 испытаний имели место семь инцидентов с этими уплотнительными кольцами.

Знакомый сценарий?

Вечером накануне запуска НАСА оказалось перед тем же трудным выбором, что и вы в ходе выполнения своего мысленного упражнения. Согласно отчету комиссии Роджерса (который был заказан президентом Рональдом Рейганом после аварии «Челленджера»), в ночь перед запуском состоялось совещание по этому вопросу.

Менеджеры сравнили только те полеты, в ходе которых наблюдались тепловые повреждения уплотнительных колец, вместо того, чтобы проанализировать частоту возникновения этой неисправности с учетом всех полетов (рис. 4.2) [26].

«При таком сравнении, – говорилось в отчете, – в распределении «повреждений» уплотнительных колец в диапазоне температур швов между 53 и 75 градусами по Фаренгейту, фиксируемых при запуске, нет ничего необычного».

Проанализировав эти неисправности, НАСА осуществило запуск. Но из-за необычно холодных условий уплотнительные кольца не сработали должным образом, и на 73-й секунде полета шаттл развалился на части. Погибли все семь астронавтов на борту.

Как вы думаете, какие данные упустили специалисты космического агентства?

Как насчет тех 16 испытательных запусков, в ходе которых не возникло никаких неисправностей, отмеченных на рис. 4.3 и задокументированных комиссией Роджерса?


Алекс Дж. Гатман читать все книги автора по порядку

Алекс Дж. Гатман - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки My-Library.Info.


Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт отзывы

Отзывы читателей о книге Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт, автор: Алекс Дж. Гатман. Читайте комментарии и мнения людей о произведении.

Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*
Все материалы на сайте размещаются его пользователями.
Администратор сайта не несёт ответственности за действия пользователей сайта..
Вы можете направить вашу жалобу на почту librarybook.ru@gmail.com или заполнить форму обратной связи.