пар карт, отличающихся по пространственной картине, но идентичных по диаграмме рассеивания и коэффициенту корреляции. Переменные А и B, для которых общей является несколько хаотичная, фрагментарная картина, явственно отличаются по географической корреляции от переменных Х и Y, для которых характерен отчетливый общий тренд с более высокими значениями в верхней части таблицы и более низкими – в ее нижней части. Хотя они и не являются идентичными, карты X и Y предполагают влияние третьего лежащего в основе географического фактора, такого как долгота, этнический состав населения, плодородность почв или приближенность к сильному источнику загрязнения окружающей среды. Несмотря на проблемы, возникающие в связи с агрегацией районов местности, аналитик географических данных, исследующий вопросы корреляции без одновременного изучения пространственной картины, некомпетентен, либо невнимателен, либо просто глуп. И не настроенный скептически пользователь карт может легко запутаться.
Рис. 11.17. Две пары переменных с идентичными диаграммами рассеивания, коэффициентом корреляции (r = 0,93) и границами категорий, но с разными картографическими картинами
Корреляции, независимо от того, выражены ли они в числовом виде или в виде карт, основывающиеся на данных, агрегированных по широким, не разделенным между собой территориям, подвержены экологическим ошибкам, тогда как взаимосвязи в одном уровне районной агрегации – скажем, в рамках округа – считаются адекватными и для других единиц (например штатов), равно как и на индивидуальном уровне. Независимо от своих размеров конкретные административно-территориальные единицы считаются экологическими единицами. Например, если в каких-то районах обнаруживается, что более чем среднему количеству лет образования обычно соответствуют более чем средние доходы, то это вовсе не означает, что все люди со степенью магистра обязательно получают высокую зарплату – вспомните случаи аспирантов, обучающихся в докторантурах.
Географические пункты, время и малые числа
Районированные данные могут составить особенно проблемную картину, когда на хороплетных картах отображаются какие-то нечасто встречающиеся темы, например уровень смертности населения от редких форм рака. Тем не менее карты распространения болезней, составленные на основании небольших статистических данных, являются обычным инструментом в работе эпидемиологов, которые используют картографию для изучения возможного воздействия на здоровье человека богатых радоном почв, заводов по переработке мусора, мест захоронений химических отходов, а также питьевой воды, подаваемой в дома по свинцовым трубам. Но, когда карта показывает какой-то тренд или группу явлений, сразу возникает вопрос, является ли эта картина подлинной.
Проблема здесь состоит в малых числах. Пандемии в природе редки, и так же редки случаи прямой связи между заболеваниями и экологическими причинами, которые являются настолько тяжелыми, что такая связь оказывается легко обнаруживаемой и бесспорной. Групповые случаи смерти или диагностированных заболеваний обычно бывают немногочисленными и малозаметными, – например, это может быть три случая на город или два случая на какую-то прилегающую местность. Эпидемиологи обозначают такие случаи как точками для того, чтобы понять картину явления, так и пространственными символами для того, чтобы сравнить различия в количестве людей в группах риска по ареалам их проживания. Ведь в конечном счете район, в котором отмечена половина случаев определенных заболеваний, возникших во всем регионе, совсем нельзя назвать исключительным, если в нем проживает и половина населения района. А что можно сказать о небольшом районе, в котором отмечено два-три случая заболеваний, но их соотношение к численности населения в несколько раз выше, чем на национальном или региональном уровне? Сделает ли здесь число заболеваний, меньшее на один-два случая, картину такой, что данный район уже не будет считаться горячей точкой? А если еще один случай возникнет в каком-то другом районе, будет ли в нем тоже высокий показатель заболеваемости? В какой степени эта картина высокого уровня заболеваемости отражает произвольно установленные в прошлом веке границы, которые были проведены для совершенствования местного самоуправления, или границы, обозначенные несколько десятилетий назад для того, чтобы ускорить доставку почты? Может ли другое административное деление региона значительно улучшить картину? Может ли другой уровень агрегации – в более крупные или мелкие административные единицы – способствовать изменению этой картины? Не приводит ли применяемый картографический метод к раздуванию значения отдельных кластеров? И не происходит ли из-за него затушевывание других?
Рассмотрите внимательно, например, рис. 11.18. Вверху изображена реконструкция карты Джона Сноу, показывающей, что случаи смерти от холеры концентрируются вокруг водозаборной колонки на лондонской улице Брод-стрит [30]. Сноу был врачом и работал в Лондоне в период эпидемии холеры в 1854 году. Именно он заподозрил, что источником инфекции является питьевая вода. В то время системы централизованного водоснабжения в Лондоне не было, и люди разносили воду по домам от колонки. Согласно легенде, составленная Сноу карта подтвердила, что заболевание распространялось через воду. После того как власти убрали ручку колонки, количество заболеваний в этом районе города резко сократилось. Следует отдать должное истине: эпидемия все равно продолжилась, а эту карту Сноу составил спустя месяцы, когда писал свою книгу о холере.
Однако что же могло случиться в том случае, если бы Сноу не работал с точечными данными? Три карты в нижней части рис. 11.18 показывают, как различные варианты агрегации в районе могли бы «разредить» кластер точек, образовавшийся на Брод-стрит. Если можно было установить адрес проживания умерших (а он указан в свидетельствах о смерти), то агрегация до уровня переписных районов или других местных административных единиц, превосходящих по размерам городской квартал, увеличивала бы риск пропустить очень небольшие места с наивысшим количеством умерших.
Агрегация включает в себя не только административные единицы или их части, но еще и время возникновения заболеваний, их тип, а также демографические данные. Одно из решений поставленного выше вопроса о важности того или иного кластера заключается в сборе дополнительной информации, которая покрывает более длительный промежуток времени. Если объединять вместе сведения за несколько лет или даже за несколько десятилетий, то этим можно снизить влияние возможных случайных явлений или событий, но при этом возрастает риск включения в наблюдения более широкого спектра причинных факторов. Длительная агрегация может, например, закамуфлировать важные временные тренды, уменьшить эффект как от новых, так и от застарелых экологических опасностей или включить в процесс трудноизмеримый эффект мобильности населения. Вместе с тем объединение нескольких категорий болезней или смертности в нескольких группах населения увеличивает надежность и важность данных, расширяя количество случаев и набор причин их возникновения.
Рис. 11.18. Вверху – реконструкция знаменитой точечной карты врача Джона Сноу, показывающей распространение смертей от холеры в Лондоне в районе Брод-стрит (ныне Бродвик-стрит). Внизу – три хороплетные карты этой части Лондона, составленные на основании разных способов агрегации района
Понятно, что одной