– Главной задачей было сделать так, чтобы наш поисковый сервер выдавал результаты не в порядке убывания количества слов в тексте, а в порядке убывания степени соответствия запросу, – пояснил Брин. – Изучением этой темы мы занялись около трех лет назад. В процессе исследования мы сформировали концепцию значимости веб-страницы и разработали алгоритм PageRank, являющийся основным компонентом поискового сервера Google, о котором я хотел бы вам сегодня рассказать.
Выяснить, каким образом веб-сайты связаны друг с другом, было довольно просто. Гораздо сложнее было создать поисковую систему, которая выдавала бы релевантные результаты, для чего нужно было изучить «линии связи» (или ссылки) между сайтами и ряд других факторов. С какой целью операторы веб-сайтов размещают ссылки на веб-страницах? Они делают это для того, чтобы пользователи могли обращаться к другим источникам полезной информации в Интернете, и надеются, что это, в свою очередь, привлечет новых посетителей на их сайты.
– Самой сложной задачей для нас, разработчиков, – продолжал Брин, – было проиндексировать всю Всемирную паутину. Море информации. Мы покажем вам, как мы это делали. Мы расскажем вам, что мы делаем для того, чтобы пользователи могли получать максимально релевантные результаты, чего мы добились за прошедшие почти три года, а также затронем вопросы социального характера.
Тем, у кого было желание и время ознакомиться с техническими подробностями, Брин предложил записаться на курс по поисковым системам, который они с Пейджем вели в начавшемся семестре, но обещав студентам доступ к «источникам, которых вы не найдете больше нигде в мире». Ну а в течение ближайшего часа Брин и Пейдж собирались в общих чертах разъяснить собравшимся, как они разработали поисковый сервер Google.
– Итак, благодаря чему функционирует поисковая система? – спросил Брин.
Вопрос риторический, поэтому докладчик ответил на него сам:
– Во Всемирной сети сегодня функционируют миллионы веб-сайтов и сотни миллионов веб-страниц – по последним данным, триста миллионов. Так как же нам разработать поисковую систему? Впрочем, все не так плохо. На нашей стороне закон Мура.
Закон Мура был главной движущей силой развития высоких технологий. В середине 1960-х годов Гордон Мур, один из основателей компании Intel, спрогнозировал, что производительность процессоров будет удваиваться каждые полтора-два года. Именно поэтому на смену гигантским суперкомпьютерам, которыми тогда располагали лишь крупные компании, университеты и правительственные учреждения, пришли удобные и доступные ПК. Эта тенденция сохраняется и сегодня. Брин пояснил, как закон Мура связан с созданием поисковой системы, способной в поисках информации «просматривать» весь Интернет.
– Каждый год создается масса текстов и материалов, но и компьютерные диски становятся все более вместительными. Мы сможем вложить все знания, всю информацию, накопленные человечеством, вам в карман – за исключением видеоносителей, разумеется, – через пару десятилетий. Это вполне осуществимо. И тогда вся, абсолютно вся информация будет собрана на одном-единственном носителе, и вы сможете работать с ней, анализировать ее, как это делали мы. Правда, есть одна проблема: человек не может обрабатывать результаты поиска за доли секунды. На людей закон Мура, к сожалению, не распространяется – они развиваются несколько медленнее. Нам нужно серьезно заняться этой проблемой.
При этих словах аудитория рассмеялась.
Поскольку Брин решил на время прервать учебу в докторантуре Стэнфордского университета и всецело посвятить себя разработке поисковика, он считал необходимым пояснить собравшимся, в каком направлении они с Ларри движутся.
– Мы собираемся перевести Google на коммерческие рельсы. Как именно – вы увидите в ближайшем будущем на Google.com. Мы также работаем над рядом моментов, которые позволят нам усовершенствовать наше детище.
Слушая Брина, Эллисон вдруг осознал, что безупречно выполнить все это было гораздо сложнее, чем могло показаться из его рассказа. Однако если кому-то это и было под силу, то только им – разработчикам Google.
При поиске Google учитывала больше факторов, чем любая другая поисковая система. Она не просто подсчитывала слова или ссылки и выдавала результаты. Она сочетала информацию о словах и ссылках с другими переменными таким образом, чтобы предоставляемые результаты были как можно более релевантными. Учитываются, например, такие факторы, как расстояние между отдельными словами или фразами на веб-странице, шрифт, которым они набраны, вид букв (прописные или строчные).
– Мы стараемся использовать всю возможную информацию, – продолжал Брин. – Мы смотрим на весь процесс глазами пользователя. Понятно, что для такого поиска требуются значительные объемы памяти, и мы ими располагаем.
Эффективный поиск обеспечивается не только правильностью математических формул и уравнений, но и, самое главное, наличием гораздо более мощного оборудования, нежели у их конкурентов. Ларри и Сергей, в отличие от разработчиков других поисковых систем, быстро поняли, что единственно возможный путь к обеспечению максимально релевантных результатов – инвестиции в оборудование. В их планы входило не только создание ПО, но и полное сопровождение работы компьютерной сети: программное и аппаратное обеспечение неразрывно связаны друг с другом, и потому очень важно оптимизировать их функционирование. Они знали, что непременно извлекут выгоду из того, что цены на запоминающие устройства и другие компьютерные комплектующие неуклонно снижаются, а их характеристики постоянно улучшаются. Лучше покупать отдельные комплектующие и самим собирать ПК, решили они, поскольку с самого начала проповедовали максимально целостный подход.
Пока Деннис Эллисон слушал пояснения Брина, у него в памяти всплывали различные эпизоды из университетской жизни с участием Брина и Пейджа. Он был о них очень высокого мнения. Им можно было доверять. Ребята действительно хотели создать нечто полезное. К тому же они были молоды и с характером. Эти качества особенно важны: в сфере высоких технологий доверие потребителей к продуктам зиждется на доверии к разработчикам. К тому же Ларри и Сергей компьютерные фанаты с невероятно широким кругом интересов – качество, присущее цельным натурам. Они – приверженцы прогрессивных взглядов. А применительно к Силиконовой долине это означает, что они сторонники открытых систем программного обеспечения, а не закрытых, которым отдавали предпочтение Билл Гейтс и его Microsoft. И еще ребята не стеснялись высказывать свое мнение по тем или иным вопросам. «Им не нравятся кое-какие аспекты жизни деловой Америки, и они не боятся громко заявлять об этом», – отмечает Эллисон.
Тем временем эстафету у Брина перехватил Пейдж. Эллисон его тоже очень уважал. Ларри был прекрасным преподавателем, поскольку обладал способностью ухватить основную идею и преподнести ее простым и понятным языком – способностью, которая отличает людей с ясным умом, досконально знающих свое дело.
– Ссылка в Интернете сродни ссылке в научной литературе, – пояснил Пейдж. – Но если вы просто будете подсчитывать количество ссылок в Сети, что делает большинство поисковых систем, у вас возникнут проблемы. Всемирная паутина – это не научная литература, здесь создать веб-страницы может любой желающий.
Программа PageRank – это, в принципе, модель пользования Интернетом. Скажем, у нас есть пользователь, который просто бродит по Сети. Он немного смахивает на обезьяну: сидит часами перед компьютером и тупо кликает на ссылки. Знакомая картина, не правда ли?
Аудитория дружно хохотнула.
– PageRank говорит: если какой-то значимый сайт указывает на тебя, ты получаешь частицу его значимости, – продолжил Пейдж. – Предположим, что на тебя указывает какой-то действительно стоящий сайт. Он для тебя намного ценнее любой «левой» веб-страницы. К примеру, если на главной странице Yahoo! есть на тебя ссылка, это просто здорово. Наличие на главной странице сайта Yahoo ссылки на твою веб-страницу говорит о том, что либо ты заплатил кому-то кучу денег, либо твоя страница действительно хороша. А вот наличие ссылки на твою веб-страницу на главной странице моего веб-сайта никому ни о чем не говорит. – И Пейдж разъяснил, как он разработал рецепт получения ранжированных результатов поиска. – Мы присвоили всем веб-страницам числа, примерно соответствующие степени их важности. Ранг отдельно взятой страницы – это сумма показателей всех веб-страниц, на которых есть ссылки на нее.
Но существует серьезная проблема. Некоторые, пытаясь обмануть поисковые механизмы, делают так, чтобы адреса их веб-сайтов располагались в списках результатов как можно выше. Поисковая система должна выиграть эту кибервойну: она должна стать «умнее» всех этих «хитрых» веб-сайтов.