2. Длинный хвост закона
В 1085 году Вильгельм Завоеватель приказал провести в Англии перепись. Он хотел знать, сколько людей живет на его землях, кто эти люди, какое у них имущество, какой доход они получают и, что самое главное, какие налоги должны платить. Он разослал своих представителей по всему королевству, и его приказ был выполнен настолько тщательно, что в летописи Anglo-Saxon Chronicle («Англосаксонские хроники») появилась запись: «Ни одного быка, ни одной коровы и ни одной свиньи не осталось неучтенной».
Книга с результатами этой переписи известна под названием Doomsday Book («Книга Судного дня»). Это самый ранний источник сведений о населении Англии, первый в западном мире крупный сборник статистических данных и настоящая находка для историков, специалистов по генеалогии и лексикографов. Движимый желанием узнать, скрыты ли в этой книге математические тайны, я приступил к изучению первого раздела, посвященного графству Кент [1].
В самом начале говорилось о том, что город Дувр заплатил 18 фунтов налога, из которых две части ушло королю Эдуарду, а третья — графу Гудвину. Жители Дувра дали королю 20 кораблей на 15 дней с экипажем в количестве 21 человека на каждом судне.
Поскольку меня интересовали исключительно числа, я выделил из этого абзаца следующий список: 18, 2, 20, 15 и 21 — и мне сразу же кое-что бросилось в глаза. Посмотрите на первую цифру каждого числа: 1, 2, 2, 1 и 2. Только единицы и двойки, самые маленькие цифры. Любопытно, не правда ли? По всей вероятности, да. Но все же выборка была слишком мала, чтобы делать какие-то выводы. Я прочитал книгу до конца, отмечая первые цифры каждого числа, которое мне встречалось. Преобладание единиц и двоек наблюдалось по всей книге. Да, тройки, четверки и другие цифры тоже присутствовали, но гораздо реже. Я был просто поражен тем, насколько чаще числа начинаются с маленьких цифр, чем с больших.
Я насчитал уже 182 числа, когда мне впервые попалась на глаза девятка. Она обозначала количество крестьян, подчинявшихся Вульфстану, сыну Вульфвина из Шепердсуэлла. К тому времени я насчитал 53 числа, начинающихся с цифры 1, 22 — с цифры 2, 18 — с цифры 3 и 15 — с цифры 4. Посмотрите на эти числа еще раз: в них тоже прослеживается четкая закономерность. Числа с цифрой 1 в начале встречаются чаще, чем с цифрой 2, последняя, в свою очередь, чаще, чем с цифрой 3, и т. д., вплоть до чисел с цифрой 9 в начале, которых меньше всего.
Мне было понятно, почему единица попадалась так часто. Королевские посланцы, проводившие перепись, переходили от одного жилища к другому, пересчитывая людей, домашний скот и инвентарь. В хозяйствах, которые вспахивали свои земли, было, как правило, по одному плугу — отсюда и такая высокая повторяемость единицы. Однако это не объясняло невероятно устойчивого снижения частотности чисел по мере увеличения их первых цифр, особенно когда этими числами обозначались самые разные объекты в самых разных количествах — например, 40 000 сельдей, подаренных монахам в Кентербери, или 27 соляных приисков в Милтон-Реджисе.
Возможно, это свойственно только тем давним временам. Я закрыл «Книгу Судного дня» и перенес свои исследования на 800 лет вперед, оказавшись в Лондоне викторианской эпохи.
Двенадцатого марта 1881 года на первой странице газеты The Times были опубликованы такие объявления: владелец 25-тонной шхуны ищет джентльмена, который согласится отправиться вместе с ним в южные моря; временный приют для бездомных собак в Баттерси приглашает людей, желающих купить домашнее животное, посмотреть 500–700 своих обитателей; Сэмюел Брэндрем сообщает, что его шекспировские чтения состоятся в четверг, в 3 часа дня, по адресу Старая Бонд-стрит, 33 — забронировать места можно за 5 шиллингов.
Я подсчитал частотность первых цифр (также именуемых ведущими цифрами) во всех числах, которые нашел на первой полосе The Times. Числа с цифрой 1 в начале и на сей раз встречались чаще всего, в отличие от цифры 9, занимавшей в этом рейтинге последнюю позицию. Хотя жизнь в XIX столетии существенно отличалась от жизни в XI веке, первые цифры чисел, отражавших социальную статистику, вели себя практически одинаково.
Такую же закономерность можно найти на страницах любой современной прессы. Попробуйте сделать это сами! Этот простой трюк можно показывать на вечеринке; его также любят демонстрировать фокусники в пабах. Посчитайте первые цифры — и увидите, что их частотность неизменно снижается: числа, начинающиеся с цифры 1, встречаются чаще всего; затем следуют числа, первая цифра которых 2, потом 3 — и т. д. до цифры 9, которая используется в начале чисел реже всего.
Это действительно невероятно. Большинство людей просто не поверят вам, пока вы не подсчитаете цифры. На интуитивном уровне нам кажется, что числа, указанные в газетах, не могут вести себя столь упорядоченно, особенно учитывая тот факт, что они произвольно взяты из огромного количества самых разных источников. Тем не менее, о каких бы числах ни шла речь — о результатах спортивных соревнований, ценах акций или количестве погибших, — уверяю вас: цифра 1 в начале чисел будет встречаться чаще, а цифра 9 — реже всего.
Этот вывод представляется нам несколько неожиданным, так как мы интуитивно предполагаем, что все числа имеют равные шансы на появление. Безусловно, если поместить в ящик 999 шариков для пинг-понга, пронумерованных от 1 до 999, и извлекать их в произвольном порядке, то вероятность выбора любого числа с определенной цифрой в начале составляет одну девятую, или 11 процентов. Другими словами, у всех цифр в этом случае одинаковые перспективы. Однако очевидно и то, что в газетах первые цифры чисел ведут себя абсолютно иначе: они распределены по явно выраженному асимметричному закону.
Тенденцию к преобладанию чисел, начинающихся с единицы, впервые заметил американский астроном канадского происхождения Саймон Ньюком [2]. В 1881 году он опубликовал в журнале American Journal of Mathematics краткую заметку, в которой объяснял, что выявил данную особенность благодаря книгам с логарифмическими таблицами. Первые страницы с таблицами логарифмов для чисел, начинающихся с цифры 1, всегда были более истрепаны, чем страницы с таблицами для чисел, начинающихся с цифры 9. Подобный феномен уж точно не объяснишь тем, что исследователи якобы внимательно читали первые страницы книги, а затем теряли к ней интерес из-за отсутствия захватывающего сюжета. Здесь причина в другом: они чаще сталкивались в работе с числами, начинающимися с единицы. Ньюком предположил, что частотность первых цифр чисел, выраженная в процентах, примерно такова.
Частота наличия цифры 1 в начале чисел составляет 30,1 процента, цифры 2 — 17,6 процента, цифры 3 — 12,5 процента, причем этот показатель стремительно падает по мере увеличения цифры: шанс встретить цифру 1 в начале чисел в семь раз превышает подобную вероятность по отношению к цифре 9.
Ньюком рассчитал эти показатели с помощью логарифмов. Он утверждал, что вероятность появления цифры d в начале числа определяется по формуле: log(d + 1) – log d. (В Приложении 1 я объясню ее суть.) Однако он не смог четко обосновать ее, поэтому привел вместо этого неформальный аргумент, просто представив его как некую любопытную тенденцию.
Более чем полвека спустя, в 1938 году, физик из General Electric Фрэнк Бенфорд заново открыл феномен первой цифры, тоже обратив внимание на потрепанность страниц в книгах с таблицами логарифмов (по всей вероятности, он не знал о статье Ньюкома) [3]. Однако Бенфорд проанализировал эту закономерность не только на основании книг с логарифмами. Он изучил распределение первых цифр исходя из таких данных, как население городов США, адреса первых нескольких сотен людей из биографического справочника американских ученых American Men of Science, атомный вес химических элементов, площадь бассейна рек и статистика бейсбольных матчей. В большинстве случаев результаты были близки к ожидаемому распределению. Наверное, было очень интересно наблюдать за тем, как одна и та же последовательность возникает в самых разных ситуациях. Разумеется, полученные показатели не были в точности такими, как представленные выше проценты (в реальном мире подобной точности нет). Тем не менее в целом они почти полностью совпадали с прогнозируемыми значениями, отклоняясь от них не более чем на несколько десятых процента. В настоящее время закон Бенфорда нашел свое подтверждение в самых разных областях, в том числе в естествознании, финансах, экономике и вычислительной технике. Этот закон гласит: в любом множестве данных о естественных произвольных процессах, включающем в себя величины нескольких порядков, частота появления цифры 1 в качестве первой значащей цифры составляет около 30 процентов, цифры 2 — около 18 процентов и т. д. Бенфорд считал, что этот феномен отражает универсальный закон, который он обозначил термином «закон аномальных чисел». Но термин не прижился, и открытие получило известность под названием «закон Бенфорда».