Глава 4. Статистика как научный способ чего-либо не знать
Цифры обманчивы, особенно когда я сам ими занимаюсь; по этому поводу справедливо высказывание, приписываемое Дизраэли: «Существует три вида лжи: ложь, наглая ложь и статистика».
Марк Твен [14]
Как часто летом мы намереваемся на свои выходные выехать на природу, прогуляться в парке или устроить пикник, а потом дождь разбивает наши планы, заточив нас в доме! И ладно бы это случалось раз или два за сезон; порой складывается впечатление, что непогода преследует именно выходные дни, раз за разом выпадая на субботу или воскресенье!
Совсем недавно вышла статья австралийских исследователей «Недельные циклы пиковой температуры и интенсивность городских тепловых островов» [15]. Ее подхватили новостные издания и перепечатали результаты с таким заголовком: «Вам не кажется! Ученые выяснили: погода на выходных действительно хуже, чем в будние дни». В цитируемой работе приводится статистика температуры и осадков за много лет в нескольких городах Австралии, и вправду выявляющая понижение температуры на 0,3 °C в определенные часы субботы и воскресенья. Там же этому дается объяснение. Оно связывает локальную погоду с уровнем загрязненности воздуха из-за возрастающего транспортного потока. Незадолго до того подобное исследование проводилось в Германии [16] и привело примерно к тем же выводам.
Согласитесь, доли градуса — весьма тонкий эффект. Сетуя на непогоду в долгожданную субботу, мы обсуждаем, был ли день солнечным или дождливым. Такое обстоятельство проще зафиксировать, а позже вспомнить, даже не обладая точными приборами. Мы проведем собственное небольшое исследование на эту тему и получим замечательный результат: можно уверенно утверждать, что мы не знаем, связаны ли на Камчатке день недели и непогода. Исследования с отрицательным результатом обычно не попадают на страницы журналов и в новостные ленты, но нам важно понять, на каком основании мы можем что-либо уверенно заявлять о случайных явлениях. И в этом плане отрицательный результат ничем не хуже положительного.
Слово в защиту статистики
Статистику обвиняют во множестве грехов: и во лжи, и в возможностях манипуляций, и, наконец, в непонятности. Но мне очень хочется реабилитировать эту область знаний, показать, насколько сложна задача, для которой она предназначена, и как непросто понять ответ, который дает статистика.
Теория вероятностей оперирует точными знаниями о случайных величинах в виде распределений или исчерпывающих комбинаторных подсчетов. Еще раз подчеркну, что иметь точное знание о случайной величине возможно, если мы говорим о распределении. Но что, если это знание нам недоступно, а единственное, чем мы располагаем, — наблюдения? У разработчика нового лекарства есть ограниченное число испытаний, у создателя системы управления транспортным потоком — лишь ряд измерений на реальной дороге, у социолога — результаты опросов. Причем он может быть уверен в том, что, отвечая на какие-то вопросы, респонденты просто соврали.
Понятно, что одно наблюдение не дает ровным счетом ничего. Два — немногим больше. Сколько нужно наблюдений — три, четыре, сто, — чтобы получить какое-то знание о случайной величине, в котором можно быть уверенным в математическом смысле? И что это за знание? Скорее всего, оно будет представлено в виде таблицы или гистограммы, дающей возможность оценить некоторые параметры случайной величины, например область определения, среднее или дисперсия, асимметричность и т. д. Быть может, глядя на гистограмму, удастся угадать точную форму распределения. Это и есть основная задача математической статистики: по наблюдаемым реализациям случайной величины выяснить ее распределение, то есть получить по возможности точное и исчерпывающее ее описание. Но — внимание! — все результаты наблюдений сами будут случайными величинами! Пока мы не владеем точным знанием о распределении, все результаты наблюдений дают нам лишь вероятностное описание случайного процесса. Случайное описание случайного процесса — еще бы здесь не запутаться, а то и захотеть запутать намеренно!
Что же делает математическую статистику точной наукой? Ее методы позволяют заключить наше незнание в четкие рамки и дать вычислимую меру уверенности в том, что в этих рамках наше знание о случайной величине согласуется с фактами. Это язык, на котором можно говорить о случайностях неизвестной природы так, чтобы рассуждения имели смысл. Такой подход очень полезен в философии, психологии и социологии, где очень легко пуститься в пространные рассуждения и дискуссии без надежды на получение настоящего знания и тем более доказательства. Грамотной статистической обработке данных посвящено множество книг, ведь это абсолютно необходимый инструмент для медиков, социологов, экономистов, физиков, психологов — словом, всех специалистов, научно исследующих «реальный мир», который отличается от идеального математического лишь степенью нашего незнания о нем. Я получил упрек за то, что использовал кавычки вокруг слов «реальный мир», как если бы не верил в его существование. Такое направление в философии действительно есть, оно называется солипсизмом, но я не его сторонник. Кавычками я хочу подчеркнуть, что не разделяю мир на реальный и идеальный, физический и математический. Я не вижу причин считать математические структуры тем, чего нет в мире, в котором мы живем. Это глубокий вопрос и давний спор: математик исследует настоящую Вселенную или изобретает свою, ненастоящую? Я