Автор: Дмитрий Шабанов
Статья нашего постоянного автора, харьковского зоолога Дмитрия Шабанова посвящена весьма острой проблеме в современной науке (далеко не только биологии!), все больше полагающейся на машинную мудрость. Прогресс аналитических методов позволяет даже в относительно скромных по масштабу работах (например, студенческих проектах) накапливать немыслимые прежде информационные массивы. Естественно, без помощи компьютерной обработки результатов проследить закономерности в получающихся гигантских простынях таблиц очень трудно. Здесь-то исследователя и подстерегают всяческие неприятности, чаще всего связанные с бездумным обращением с данными.
Владислав Бирюков [ [email protected]]
…Статистика. На сегодня ее использование — почти обязательное условие выполнения научной работы во многих отраслях, в том числе и в зоологии. Не будет большой новостью, если я скажу, что статистику чаще используют неверно, чем верно. Причины этого различны, и мы постараемся обсудить некоторые из них.
Еще одно вводное замечание. Ошибки в применении статистики делают самые разные специалисты, в том числе и титулованные и — по настоящему! — квалифицированные. Я буду приводить примеры из конкретных работ своих коллег. Эти люди — не хуже прочих, и причина, по которой я цитирую именно их, — знакомство с ними или интерес к их работам. Я не хочу нарушать их инкогнито. Более того, я даже не могу назвать объект их работы. В зоологии есть замечательное свойство, отраженное Борисом Заходером в сказке «Кит и кот». Там, когда происходит неожиданная коллизия (кит и кот поменялись местами), вертолет доставляет на палубу китобойного судна группу ответственных лиц, в составе которой «академик по китам, академик по котам» [И в ответ на китобазу / Вертолет садится сразу. / В нем ответственные лица / Прилетели из столицы: / Доктора, профессора, / Медицинская сестра, / Академик по китам, / Академик по котам, / С ними семьдесят студентов, / Тридцать пять корреспондентов, / Два редактора с корректором, / Кинохроника с прожектором, / Юные натуралисты / И другие специалисты]. Мест в академии всем не хватит, но люди «в теме» понимают, что по китам — это N., а по котам — это или L., или M. Обсуждая конкретные истории, я буду называть определенные объекты. Так вот — это не те объекты. Будем считать, что любое сходство описанных обстоятельств с реальными работами — случайность.
Итак, приступим к рассмотрению коллекции затруднений, которые возникают при использовании статистики в зоологии.
Ошибки плюс вера в «объективность»
Начну с простого случая. Мой коллега — полевик, который лучше управляется с ружьем, чем с компьютером. Он настрелял немерено… ну, допустим, «зайцев» и попросил меня помочь про этих зайцев что-то посчитать. К какой программе обращается в такой ситуации украинский или российский зоолог? Нередко к пакету Statistica от компании StatSoft. Это — серьезный и дорогой продукт. Он так дорог, что без обсуждения специфики отечественных научных и образовательных учреждений вообще непонятно, как он мог получить столь широкое распространение [Когда-то автор попытался легально учить студентов программе Statistica и ради этого пробовал «достучаться» до российского представительства фирмы-изготовителя. Безуспешно]. Одна из причин его популярности — разнообразие предлагаемых функций и высокое качество, но определенную роль играет и консерватизм пользователей. Лет пятнадцать назад московские и киевские зоологи передавали друг другу дискеты с инсталлятором статистического пакета CSS — предыдущей инкарнации Statistica. Так или иначе, этот пакет уже стал как минимум полустандартом.
Так вот, я уточнил, что хочет мой коллега-"зайцевед", и сделал ему файл. Тот посадил за компьютер студента, который забил в этот файл результаты измерений. Дальше вышло вот что. Я спешу на встречу, а мой коллега ловит меня в коридоре и тащит к компьютеру: «покажи, как считать эту… корреляцию». Я показываю: надо вызвать такое-то окошко, здесь выбрать те признаки, связь между которыми надо рассмотреть, и вот тут выскочит результат. Сказав это, я убегаю.
Через неделю меня ловит другой мой коллега, спец в английском языке. Исследователь «зайцев» попросил его перевести тезисы, предназначенные для отправки на Всемирный териологический [Териология — наука о млекопитающих] конгресс. Переводчик удивлен: «Ты действительно насчитал ему достоверную отрицательную корреляцию между длиной тела и весом?»
Встречаю коллегу-"зайцеведа" и спрашиваю: «Вы ведь сами их стреляли? Могли ли вы не обратить внимание на то, что чем добыча крупнее, тем она легче?» «Ты знаешь, я, в общем, и сам удивился, чего ж я это не заметил. Но это же мои субъективные впечатления, а тут машина со всей присущей ей объективностью…»
Пересчитываю его результаты, смотрю корреляцию. Она, ясное дело, положительна. Как там получилась отрицательная — теперь не установить. Хорошо хоть тезисы на конгресс не успели уйти — было б там веселье.
Наивность моего коллеги обнажила общую беду — мы доверяем результатам вычислений больше, чем себе самим. Ошибки делают все, но разумные люди так организуют процесс работы, чтобы ошибки «всплывали» и благодаря этому могли быть исправлены. Здесь нелишне вспомнить один простой рецепт.
С помощью статистики мы ищем те или иные тенденции, отраженные в разнообразии изучаемого материала. Но и тот механизм, которым мы наделены от природы (глаза и мозг), позволяет неплохо вычленять тенденции, скрытые в разнообразии материала. Надо просто «скормить» им информацию в удобоваримом виде. Один из хороших способов не запутаться в критериях — строить графики. Когда вы видите, как располагаются точки, можно перепроверить любой свой вывод. Если какая-то точка «вылетает» (располагается в стороне от основной совокупности), вы можете определить, с каким случаем она связана. Иногда для этого удобно отсортировать строки в окне с данными по возрастанию интересующего вас признака. А для того, чтобы потом можно было вернуться к исходному порядку, удобно сделать столбец с «правильными» номерами строк, сортировка по которому вернет таблицу в исходное состояние.
И никогда не нужно забывать, что «машина» знает только то, что мы ей смогли сообщить. А избыточное доверие к результатам вычислений… Приведу следующий пример.
Установки программы «по умолчанию»
Идет защита докторской диссертации крупного специалиста по… ну, скажем, «мышам». Автор представляет материал со всей Евразии — десятки видов, десятки признаков. Для определения сходства и различия между видами используется кластерный анализ. Для самок и самцов строятся независимые кладограммы (древовидные графы, отражающие уровень сходства внутри иерархически соподчиненных групп). Кладограмма самцов имеет достаточно обычный вид, а вот самок выглядит странно (рис. 2). Эти кладограммы вставлены в разосланный по городам и весям автореферат докторской и демонстрируются на защите.
Диссертант говорит, что изменчивость самок и самцов подчиняется разным закономерностям, и обращает внимание на то, что самки формируют две группы, внутри которых они не отличаются друг от друга. На основании этого ему удается сделать некоторые выводы и предположения. Ни один из специалистов, присутствующих на защите или приславших отзывы на автореферат, не задает элементарный вопрос: почему же тогда их относят к разным видам и даже разным группам видов, раз по всем изученным признакам они идентичны?
Ларчик открывается просто. Дело в том, что при проведении кластерного анализа в программе Statistica необходимо решить, что же делать с пустыми ячейками в таблице объекты/признаки. По умолчанию в соответствующем модуле (рис. 3) стоит опция «Casewise», означающая, что признак, по которому не определен хотя бы один из объектов, вообще выбрасывается из рассмотрения. В нашем примере это означает, что особи классифицировались лишь по двум признакам [Последние версии Statistica отказываются работать по одному признаку, а предыдущие соглашались даже на это. В цитируемой диссертации был использован всего один признак, но, создавая аналогичную картинку, я вынужден был добавить еще один, чтобы ублажить более привередливую версию программы], каждый из которых может принимать всего два значения (например, есть кисточки на ушах или нет).
Чтобы компенсировать «дыры» в данных, необходимо выбрать опцию «Mean substitution». При таком выборе отсутствующее значение заменится средним для всей совокупности объектов и окажет наименьшее влияние на конечный результат (разумеется, еще лучшее решение — определить все признаки для всех объектов). Выбрав замену средним значением, мы можем получить дерево, напоминающее приведенное для самцов (рис. 4).
Непонимание сути метода
На престижном научном форуме была представлена работа, касающаяся выделения морфотипов (групп организмов, объединенных сходством) в популяциях животных, которые мы назовем «воронами». На протяжении многих лет я интересуюсь гипотетической возможностью корректно описать популяционное разнообразие посредством выделения нескольких морфотипов особей, чтобы потом сравнивать популяции по частотам этих типов. И вот я вижу работу, в которой это удалось сделать…