Ознакомительная версия.
Давайте рассмотрим пару других примеров применения принципа регрессии.
Если IQ матери ребенка 140, а отца — 120, каково наиболее вероятное предположение о том, каким будет IQ их ребенка?
160 155 150 145 140 135 130 125 120 115 110 105 100
Психотерапевты обычно рассказывают об эффекте «до и после», свойственном многим пациентам. До начала лечения пациенты считают, что их состояние хуже, чем оно есть на самом деле, в конце лечения считают, что состояние лучше, чем на самом деле. Почему?
Если вы ответили, что ожидаемое значение уровня IQ ребенка — с учетом того, что IQ одного родителя 140, а другого 120, — будет 140 или выше, вы не учли феномен регрессии к среднему значению. IQ, равное 120, это уровень выше среднего, как и 140. Если вы не думаете, что между IQ родителей и ребенка возникает идеальное соотношение, вы должны спрогнозировать, что IQ ребенка будет ниже, чем среднее значение IQ его родителей. Так как соотношение между средними значениями IQ обоих родителей и среднее значение IQ ребенка равно 0,50 (чего вы, полагаю, не знали), ожидаемая величина IQ ребенка окажется где-то посередине между средним значением этой величины у родителей и средним значением всего населения в целом, а именно 115. У очень умных родителей родятся дети, которые будут просто умны (выше среднего уровня). У очень умных детей обычно родители, которые просто умны (выше среднего уровня). Регрессия работает в обоих направлениях.
Эффект «до и после» обычно объясняют тем, что пациенты притворяются, что им хуже, чем на самом деле, чтобы было видно, что они нуждаются в лечении. Но к концу лечения им хочется снискать расположение лечащего врача. Независимо от того, насколько это объяснение правдиво, мы ожидаем улучшения состояния пациента в конце лечения, а не в начале, потому что эмоциональное состояние пациента в то время, когда они ожидают лечения, вероятно, также хуже, чем обычно, и потому что сам по себе тот факт, что время идет, вызывает регрессию к среднему значению. Этот эффект проявляется даже при отсутствии лечения вообще.
Кстати говоря, время работает на врачей: со временем пациент ожидаемо идет на поправку, конечно, за исключением случаев, когда болезнь прогрессирует. Поэтому, каким бы ни было врачебное вмешательство, у него всегда будут шансы считаться действенным. «Я съела суп из одуванчиков, и простуды как не бывало». «Моя жена выпила отвар столетника, как только заболела гриппом, и у нее все прошло в два раза быстрее, чем у меня». Статистика «Один Человек Сказал» в сочетании с эвристическим правилом «после этого — значит вследствие этого» помогла разбогатеть многим производителям чудодейственных средств от всех болезней. И они не соврут, утверждая, что большинство людей почувствовало себя лучше после того, как приняли их лекарство.
Но я немного забегаю вперед, говоря о регрессии. Мы незаметно перешли от закона больших чисел к обсуждению концепции ковариации или корреляции. А это тема следующей главы.
Выводы
Зачастую наблюдения за объектами или явлениями должны восприниматься как примеры выборки. Качество еды в конкретном ресторане в конкретный день, качество игры конкретного спортсмена в конкретной игре, сколько раз шел дождь за ту неделю, которую вы провели в Лондоне; приятно ли вам общество человека, с которым вы встретились на вечеринке, — все это нужно рассматривать лишь как выборку из огромного общего количества примеров. И любая оценка, подходящая к данной переменной величине, будет в той или иной степени ошибочна. Чем больше выборка, тем (при прочих равных составляющих) больше вероятность, что ошибки станут взаимоисключающими и мы приблизимся к правильному ответу. Закон больших чисел применяется к тем событиям, количество которых сложно определить, равно как и к тем, которые достаточно легко закодировать таким образом.
Фундаментальная ошибка атрибуции изначально возникает из-за нашей склонности игнорировать ситуационные факторы и осложняется тем, что мы отказываемся признавать тот факт, что короткое знакомство с человеком представляет собой лишь крохотную выборку его поступков. Иллюзия собеседования также основана на ошибке — увидев, как человек говорил и вел себя на получасовой беседе, мы по своей самоуверенности воображаем, что знаем, что он из себя представляет.
Увеличение выборки уменьшает ошибки только в том случае, если выборка является несмещенной (объективной). Добиться этого можно, предоставив каждому явлению, событию или человеку из данной популяции равные шансы участия в выборке. Нужно с вниманием относиться к опасности смещения выборки: отдохнул ли я, сходив в ресторан с женой, или был напряжен, потому что с нами была ее сестра, которая вечно всех критикует? А использовав расширенную смещенную выборку, можно лишь еще больше утвердиться в своем ошибочном выводе.
Среднеквадратическое отклонение — это простой способ измерения дисперсии непрерывной переменной величины относительно среднего значения. Чем больше среднеквадратическое отклонение в наблюдении данного типа, тем меньше мы можем быть уверены, что конкретное наблюдение будет близко к среднему значению, верному для всей выборки. Большое среднеквадратическое отклонение для инвестиции означает, что ее доходность окажется под вопросом.
Если мы знаем, что наблюдение переменной величины определенного вида относится к предельным значениям распределения этой переменной, то очень вероятно, что результаты последующих наблюдений не будут предельными. Студент, получивший высший балл на последнем экзамене, вероятно, хорошо сдаст следующий экзамен, но вряд ли снова получит высший балл. Акции десяти компаний, занимавшие самые высокие позиции в прошлогоднем рейтинге, не останутся на тех же позициях в этом году. Предельные значения стали предельными, потому что так расположились звезды (или не расположились). В следующий раз звезды, скорее всего, поменяют свое положение.
Статистика может быть полезна, а иногда даже необходима, чтобы дать чему-либо точную характеристику. Кроме того, статистика позволяет определить, существует ли связь между одним явлением и другим. Как несложно догадаться, с уверенностью говорить о наличии или отсутствии связей между явлениями может быть еще труднее, чем точно охарактеризовать какое-либо явление, предмет или человека.
Вам нужно правильно охарактеризовать явление 1, а также явление 2. Затем вам нужно подсчитать, насколько часто явление первого типа возникает вместе с явлением второго типа, как часто явление первого типа не возникает вместе с явлением второго типа и т.д. Если переменные величины непрерывны, задача усложняется еще больше. Нужно рассчитать, связаны ли более высокие показатели явлений первого типа с более высокими показателями явлений второго типа. Даже такое абстрактное рассуждение ясно дает понять, что у нас возникнут большие проблемы при попытке оценить степень связи между переменными величинами. И в самом деле, наши трудности с поиском ковариаций (или корреляций) очень серьезны. А последствия наших ложных оценок могут быть весьма и весьма неблагоприятными.
Корреляция
Посмотрите на таблицу 3 внизу. Связан ли симптом X с болезнью А? Другими словами, можно ли по симптому X диагностировать болезнь А?
Таблица 3. Связь между болезнью А и симптомом X
В таблице 3 говорится о том, что у 20 человек, страдающих болезнью А, присутствует симптом X, а у 80 человек, страдающих болезнью А, он отсутствует; при этом у десяти человек, не страдающих болезнью А, также присутствует этот симптом, а у 40 человек, не страдающих этой болезнью, отсутствует. На первый взгляд может показаться, что это простейшая задача на поиск ковариации, которую только можно себе представить. Вариантов всего два (или/или). Вам не нужно собирать информацию, или кодировать исходные данные и присваивать им численные значения, или вспоминать всю информацию об этих данных. У вас нет никаких предубеждений, которые могут повлиять на ваш выбор в пользу одного ответа, а не другого; и информация представлена для вас уже в виде сводки. Как же люди справляются с этой базовой задачей на поиск ковариации?
На самом деле очень плохо.
Самая распространенная ошибка в решении этой задачи — полагаться исключительно на графу «да/присутствует». «Да, этот симптом связан с этой болезнью. У некоторых людей с симптомом X обнаружена эта болезнь». Тенденция к выражению такого рода мнения является примером необъективности подтверждения — склонности искать доказательства, которые подтвердят уже имеющуюся гипотезу, не учитывая при этом тех доказательств, которые могут эту гипотезу опровергнуть.
Другие, взглянув на таблицу, обращают внимание на две графы. Кое-кто делает вывод, что симптом связан с этой болезнью, «потому что людей, имеющих этот симптом и страдающих этой болезнью, больше, чем людей, имеющих этот симптом и не болеющих этой болезнью». Другие делают вывод, что симптом не связан с болезнью, «потому что среди страдающих этой болезнью людей больше тех, кто не имеет этого симптома, чем тех, кто его имеет».
Ознакомительная версия.