содержат необходимой информации. Данные могут быть легко доступными и «опрятными», но они могут не содержать информацию, необходимую для решения поставленной задачи. Если данные не содержат нужной вам информации, постарайтесь собрать более качественные данные.
Отказ от использования недорогих инструментов и технологий с открытым исходным кодом. Прежде чем взяться за реализацию масштабного проекта, связанного с внедрением какой-либо новой технологии, потратьте время на прототипирование. Вполне возможно, что инвестирование в платформу обработки данных для управления будущими операциями изменит очень многое для вашей команды. Однако прежде чем тратить деньги, попробуйте создать минимально жизнеспособный продукт с помощью Microsoft Excel или таких бесплатных технологий с открытым исходным кодом, как R или Python.
Слишком оптимистичные сроки. Проекты по работе с данными часто проваливаются совершенно неожиданным образом. Описанные выше проблемы обнаруживаются только через несколько недель после запуска проекта, а жесткие сроки приводят к срезанию углов и плохому анализу. Сроки реализации проекта должны учитывать неизбежные задержки при работе с данными.
Завышенные ожидания относительно ценности. Компании привыкли многого ожидать от науки о данных, статистики и машинного обучения. Говорите о ценности, которую может принести ваш проект, открыто, но не преувеличивайте ее, чтобы не вызвать отрицательную реакцию; она может негативно сказаться на текущих и будущих проектах.
Ожидание предсказания непредсказуемого. Некоторые вещи невозможно предсказать вне зависимости от количества собранных исторических данных. Документирование каждого вращения каждого колеса рулетки в Лас-Вегасе не поможет вам предсказать результат следующего вращения.
Выход за рамки разумного. Как и вы, авторы этой книги любят работать с данными. Многие из нас готовы ухватиться за очередную идею. Однако очень часто из виду упускается нечто совершенно очевидное: наука о данных, статистика, машинное обучение и ИИ могут решить многие важные проблемы, но далеко не все. При работе с данными, статистикой и алгоритмами нередко можно выйти за рамки разумного. Вы можете задействовать алгоритм классификации для определения бизнес-правил. Однако иногда у нас уже есть набор правил, в соответствии с которыми мы действуем. В таких случаях будет гораздо проще, если окружающие вас люди просто запишут их. По сути, если ваша команда может написать бизнес-правила для автоматизации процесса, то вашу работу можно считать выполненной. В настоящее время эта идея теряется на фоне шумихи вокруг науки о данных. Машинное обучение кажется привлекательным для руководства, но иногда оно – просто излишество.
В этой главе мы рассмотрели распространенные заблуждения и ловушки. Как уже было сказано, представленный список не является исчерпывающим. И вы должны исходить из того, что такого списка в принципе не существует. Помните, что объем данных растет быстрее, чем наша способность формулировать порождаемые этим ростом проблемы и возможности. Если вы примете эту идею, то поймете, что ни один список не может включить в себя все те ловушки, в которые люди еще не попадали. Однако в этой главе мы предоставили вам отправную точку.
Проекты часто завершаются неудачно. И, скорее всего, у вас будет по крайней мере один неудачный проект, с которым вы будете ассоциироваться (вероятнее всего, их будет гораздо больше). Будьте открыты и откровенны, когда случаются неудачи, и по возможности переключайтесь на реализацию новых идей. Ваш опыт станет вашим лучшим учителем.
Глава 14
Знайте людей и типы личностей
«Люди переживают, что компьютеры станут слишком умными и захватят мир, но настоящая проблема в том, что они являются слишком глупыми и уже его захватили» [148]
– Педро Домингос, исследователь ИИ
В предыдущей главе вы узнали о распространенных ловушках, в которые можно угодить при реализации проекта по работе с данными. В этой главе мы поговорим о людях и их ролях, а также о том, сколько проектов терпят неудачу не из-за технологий или данных, а из-за конфликтующих личностей и неэффективного общения.
Именно недостатки коммуникации стали причиной провала многих из описанных в этой книге проектов. Наша цель – научить вас ориентироваться в коммуникативных красных флажках благодаря пониманию особенностей личностей, вовлеченных в проект. В этой главе мы обсудим убеждения ключевых фигур и рассмотрим сценарии того, что происходит при нарушении коммуникации между специалистами по работе с данными и бизнес-профессионалами. Понимание ролей других людей и проявление сочувствия поможет вам, как главному по данным, устранить любые пробелы в общении.
В следующем разделе мы рассмотрим дополнительные наблюдения, касающиеся специалистов по работе с данными и бизнес-профессионалов, и выделим сценарии, в которых пробелы в общении приводят к провалу проектов. Затем мы поговорим о разном отношении людей к данным – энтузиазме, цинизме и скептицизме.
Семь сцен коммуникативного сбоя
Когда коммуникация нарушается в ходе реализации проекта по работе с данными [149], вы можете стать свидетелями одной из семи сцен, описанных в табл. 14.1. В следующих разделах мы подробно рассмотрим сценарии для каждой из них, которые могут показаться вам весьма знакомыми.
Табл. 14.1. Семь сцен коммуникативного сбоя
Важный проект, реализуемый телекоммуникационной компанией, застопорился после шести месяцев работы.
Перед командой проекта, состоящей из одного дата-сайентиста, была поставлена задача прогнозирования оттока клиентов. Ему нужно было предсказать, переключится ли клиент на нового оператора сотовой связи в следующем году. Для этого была разработана модель, которая оценивает всех текущих клиентов компании, основываясь на исторических данных: для клиента_1 вероятность сменить оператора связи составляет 85 %, для клиента_2 – 10 % и так далее.
На бумаге работа завершена. Модели можно использовать. Код запущен в производство. Но есть маленькая (ну, может, не такая уж маленькая) проблема: модель далеко не так точна, как команда обещала заинтересованным сторонам.
Руководитель проекта на протяжении последних нескольких недель избегал обсуждения текущих проблем с дата-сайентистом, полагая, что они незначительны и легко решаемы. (Компьютеры могут все, верно?) Но проблемы оказались гораздо серьезнее, чем предполагалось, и руководитель начинает нервничать. Возглавить проект предлагают еще более высокопоставленному специалисту по работе с данными.
Но уже слишком поздно.
К этому моменту приняты уже сотни решений, и эксперт не может даже начать распутывать клубок проблем, учитывая, что до представления результатов высшему руководству остается всего неделя. Эксперт не только повторяет опасения дата-сайентиста, но и пополняет список проблем.
Потратив еще один 12-часовой рабочий день на спасение того, что осталось от проекта, старший специалист по работе с данными вспоминает цитату выдающегося статистика Р. Э. Фишера: