Ознакомительная версия.
Я расскажу о некоторых основных принципах статистики, о которых известно уже добрую сотню лет, самыми простым языком. Представители разных наук используют эти понятия, чтобы понимать, насколько они могут быть уверены, что дают верную характеристику предмета исследования, чтобы оценивать степень взаимосвязи между событиями разных типов, чтобы узнать, есть ли между событиями причинно-следственная связь. Мы также увидим, что эти принципы могут пролить свет на повседневные вопросы и помогать нам и другим принимать более качественные решения на работе и в личной жизни.
7. Вероятность и объем выборки
В 2007 г. губернатор Техаса Рик Перри издал распоряжение, согласно которому всем девочкам по достижении 12 лет должны были делать прививки от вируса папилломы человека, заражение которым может привести к раку шейки матки. Критикуя Рика Перри в дебатах перед республиканскими выборами в 2012 г., кандидат Мишель Бахманн заявила, что одна женщина рассказала ей, что «ее дочке сделали эту прививку, а после этого у нее диагностировали задержку в умственном развитии».
Какая ошибка заключалась в выводе, сделанном Бахманн, — или по крайней мере в ее призыве сделать этот вывод — о том, что прививка от ВПЧ провоцирует умственную отсталость? Давайте подумаем.
Слова Бахманн нужно рассматривать как сообщение о примере инцидента, произошедшего среди представителей определенной популяции, а именно группы двенадцатилетних девочек из США, которым была сделана прививка против ВПЧ. Один случай умственной отсталости в этой популяции представляет собой слишком малую выборку (малое количество учтенных примеров), которой даже с натяжкой недостаточно для вывода, что здоровью этих девочек угрожают такие прививки.
Интересно, что на самом деле было проведено несколько опытов с произвольным распределением объектов по контрольным группам, в ходе которого экспериментаторы произвольно выбрали некоторых девочек для проведения прививок. Было обследовано огромное число девочек. Ни одно из исследований не показало, что среди девочек, которым была сделана прививка, количество умственно отсталых впоследствии оказалось выше, чем среди тех, кому прививку не сделали.
Приведенный Бахманн пример с прививкой является типичным образцом доверия статистике, основанной на источнике «я знаю одного человека, который сказал, что...». Пример Бахманн — в лучшем случае непродуманный, но никак не случайный. Чем больше процесс отбора образцов соответствует золотому стандарту случайного выбора — который означает, что каждый индивидуум данной популяции имеет равные шансы появления в выборке, — тем большего доверия он заслуживает. Если мы не знаем, случайно ли выбран данный пример, то любая статистическая оценка, которую мы дадим этому явлению, может оказаться необъективной.
Вообще-то пример Бахманн не назовешь непродуманным. Даже если предположить, что она говорила правду, у нее был серьезный мотив донести до общества именно этот случай. А может быть, она (либо ее информатор) говорила неправду. Причем это необязательно означает, что ее информатор лгала. Может быть, та женщина верила в то, что, как утверждается, она сообщила Бахманн. Если ее дочери сделали прививку, а затем диагностировали у нее задержку умственного развития, возможно, что вывод, сделанный матерью, является примером типичной логической ошибки «после этого — значит из-за этого». Тот факт, что событие 1 предшествует событию 2, еще не означает, что первое обязательно являлось причиной второго. В любом случае, мне кажется, мы должны понимать, что заявление Бахманн не дотягивает даже до статистики на уровне «Один Человек Сказал».
Один из моих любимых примеров логической ошибки «после этого — значит вследствие этого» в сочетании со статистикой «Один Человек Сказал» я знаю в изложении друга, который подслушал разговор между двумя пожилыми людьми. Первый сказал: «Врач говорит, чтобы я бросил курить, иначе умру». Второй ответил: «Нет! Не бросай! У меня двое друзей бросили курить, потому что им так сказали врачи, и оба умерли через несколько месяцев».
Выборка и популяция
Вспомним пример с роддомами из главы 1, посвященной логическим выводам. В маленьких роддомах будет больше таких дней, когда количество родившихся мальчиков превысит 60% всех родившихся детей. Объясняется это действием закона больших чисел: выборочные значения, такие как средние значения и количественные соотношения, тем больше отражают реальные показатели внутри популяции, чем больше И, то есть объем выборки.
Действие закона больших чисел легко увидеть на примере большой популяции. Предположим, в роддоме за день родилось 10 малышей. Какова вероятность того, что 60% или более из родившихся детей мальчики? Разумеется, вероятность довольно высока. Мы ведь не удивимся, подбрасывая монетку, если орел выпадет 6 из 10 раз. Предположим, в другом роддоме за день родилось 200 детей. Насколько вероятным будет подобное отклонение от математического ожидания? Очевидно, что весьма маловероятным — как если бы подброшенная 200 раз монета упала орлом вверх 120 или больше раз, вместо ожидаемых 100 раз.
Попутно замечу, что точность выборочной статистики (средняя величина, медианное значение, среднеквадратическое отклонение и т.д.) по существу не зависит от размера популяции, из которой взята выборка. Для прогноза результатов общенациональных выборов опрашивают около 1,000 человек, и погрешность обычно находится в пределах ±3%. Выборка в 1,000 человек дает примерно одинаковый прогноз процентной поддержки кандидата при голосовании и 100 млн, и 10,000 человек. Так что, если ваш кандидат согласно результатам опросов опережает соперника на 8 баллов, не обращайте внимания на критические заявления соперников, что голосовать будут миллионы людей, а опросы охватывают всего тысячу. С одной оговоркой: если только люди, отобранные для опроса, не являются нетипичными представителями населения в каких-то важных аспектах. И тут мы вплотную подошли к вопросу ошибки выборки.
Закон больших чисел работает только для несмещенных выборок. Выборка оказывается смещенной (необъективной), если процесс ее составления допускает возможность того, что данное выборочное значение является ошибочным. Если вы пытаетесь выяснить, какое количество людей, работающих на заводе, хотели бы работать по гибкому графику, и опрашиваете только мужчин или только работниц столовой, мнение этих людей может значительно отличаться от мнения основного контингента работников. В целом это дает неверное представление о том, сколько работников завода хотели бы работать по гибкому графику. Если в выборке имеется смещение, то чем больше выборка, тем больше можно быть уверенным, что результат ошибочен.
Нужно отметить, что на самом деле выборка для опросов перед общенациональными выборами формируется вовсе не методом слепого отбора. Это было бы оправданно, если бы все избиратели в стране имели равные шансы попасть в выборку. Если это не так, вы рискуете получить серьезную ошибку выборки. Один из первых предвыборных опросов в США, проведенный журналом Literary Digest, показал, что Франклин Рузвельт проиграет выборы 1936 г., на которых на самом деле он одержал бесспорную победу. В чем была ошибка этого опроса? Он проводился по телефону, а в то время только очень обеспеченные люди (и большинство из них — республиканцы) имели дома телефон.
Нечто похожее произошло с некоторыми из предвыборных опросов, проведенных в 2012 г. Компания Rasmussen, проводившая опросы общественного мнения, не звонила на мобильные телефоны, игнорируя тот факт, что люди, у которых есть только мобильные телефоны и нет домашних, в большинстве своем молоды и чаще всего симпатизируют Демократической партии. Поэтому компания систематически переоценивала поддержку кандидата от Республиканской партии Митта Ромни по сравнению с результатами опросов путем звонков и на домашние, и на мобильные номера.
Когда люди отвечали на телефонные звонки и пускали в дом проводящих соцопросы, можно было достичь практически идеальной случайной выборки. В наши дни точность опроса зависит частично от данных, имеющихся у лиц, проводящих опросы, и интуиции, подсказывающей, какой лучше сделать выборку — подмешать ли в колдовское зелье из чисел вероятность, с какой респонденты пойдут голосовать, их симпатии той или иной партии, пол, возраст, статистику о том, как это сообщество или регион голосовали на прошлых выборах, глаз тритона или лягушачью лапку...
В поисках точного значения
Рассмотрим следующие две задачи.
Университет А известен постановками мюзиклов в студенческом театре. Талантливые выпускники школ, от которых ждут больших успехов в будущем, могут получить стипендию на обучение в этом университете. Директор университетской театральной программы Джейн знакома с преподавателями актерского мастерства в окрестных школах. Однажды она отправляется посмотреть выступление ученицы, которую все преподаватели в один голос называют замечательной юной актрисой. Но на репетиции эта девушка несколько раз путает текст роли и, кажется, вообще неверно понимает характер своего персонажа. Да и особого сценического обаяния она не демонстрирует. Посмотрев репетицию, директор говорит своим знакомым, что теперь будет сомневаться в их оценках таланта их учеников. Верный это вывод или нет?
Ознакомительная версия.