При написании документов не оставляйте без внимания раскладку клавиатуры. Часто вместо русской буквы р используют латинскую p. Некоторые подобные ошибки индексатор исправляет, но не все. Слова с такими опечатками теряют информативность. Старайтесь не использовать символов переноса (-), поскольку иногда трудно определить, что они означают – перенос слова или его написание через дефис. Помните, что браузер осуществляет представление документа согласно текущим установкам каждого конкретного пользователя.
Отнеситесь серьезно к планированию и размещению вашего сайта, чтобы вам не приходилось направлять письма администраторам с просьбами переиндексировать ваш сайт в связи с изменением его адреса или структуры. Поисковые машины нескоро учитывают коррективы такого рода.
Поисковая система Апорт
Поисковая машина Апорт (http://www.aport.ru/, владелец – компания «Голден Телеком», http://www.goldentelecom.ru/) имеет богатые возможности формирования запроса, в частности способна отслеживать сочетания терминов, если они находятся недалеко друг от друга (на расстоянии нескольких слов или предложений).
Апорт – двуязычная поисковая машина. Будучи наделенной теми же основными характеристиками, что и AltaVista, она содержит намного больше ресурсов современного российского Internet. Апорт входит в число ведущих поисковых систем, сертифицированных Microsoft как локальные поисковые системы для русской версии Microsoft Internet Explorer.
Основные свойства Апорт таковы:
• автоматическая проверка орфографических ошибок запроса;
• информативный вывод результатов поиска по найденным сайтам;
• возможность поиска любых грамматических форм, что особенно важно для русского языка;
• мощный язык расширенных запросов для профессиональных пользователей.
Дополнительные свойства:
• технология поиска с использованием ограничений по URL (адресу) и дате документов;
• осуществление поиска не только по тексту, но и по заголовкам, комментариям, подписям к картинкам и т. д.;
• сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
• объединение копий документа, находящихся на разных серверах.
Апорт является совершенной полнотекстовой поисковой машиной с интегрированным каталогом Internet-ресурсов. Подобная интеграция позволяет систематизировать результаты поиска по рубрикам, представленным в каталоге, и осуществлять поиск отдельно по тематикам, что делает навигацию по ресурсам очень удобной.
Поисковый робот Апорт обходит весь российский Internet в среднем за две недели. Он сам настраивается на скорость обновления сайтов и отдельных страниц и проверяет наиболее часто обновляемые ресурсы.
Документы индексируются следующим образом. При просмотре содержимого сервера для индексирования Апорт обязательно проверяет файл robots.txt. Таким образом, вы можете использовать его, чтобы ограничить «деятельность» системы на своем сервере. При желании установить селективные ограничения только для Апорт следует использовать в качестве имени робота слово Aport.
Будучи полнотекстовой поисковой машиной, Апорт индексирует все слова, которые бы увидел на экране человек, просматривая конкретную страницу вашего сервера. В результате любое слово из текстов ваших документов может служить критерием последующего поиска. Для документов HTML, кроме обычного текста, индексируется также и содержимое ряда полей. К ним относятся заголовок документа (TITLE), ключевые слова (META NAME="keywords"), описания страниц (META NAME="description"), подписи к картинкам (ALT), ссылки (A HREF). Реализована возможность избирательного поиска по этим полям. Кроме того, Апорт индексирует как принадлежащие документу тексты гиперссылок на него с других страниц, находящихся как внутри сайта, так и за его пределами, а также составленные или проверенные редакторами описания сайтов из своего каталога.
Кроме того, Апорт индексирует текстовые файлы (с расширением. txt), на которые найдет ссылки.
Страница, показанная на рис. 3.11, позволяет задать поисковую фразу, выбрать тематический раздел и дополнительно сузить область поиска при помощи переключателя сайты – рефераты – знакомства – mp3 – новости – энциклопедия – работа – товары. Кроме того, возможно применение в строке запросов операторов логики и расстояния между словами, а также поиск по адресам и полям, что значительно расширяет область поиска.
Рис. 3.11. Страница поиска Апорт
Вы можете искать документы не только по всему русскоязычному сектору Internet, но и по его части. Самый простой случай – поиск по определенному серверу. Например:
url=www.inotec.ru программа
По данному запросу будут найдены все документы на сервере www.inotec.ru, содержащие слово «программа».
Для получения списка всех документов, расположенных на указанном вами сервере, следует набрать в строке запроса следующую фразу:
url=www.inotec.ru
На странице, изображенной на рис. 3.12, Апорт показывает количество найденных сайтов и документов в поле Лучшие … сайтов (… документов). В дальнейшем результаты выводятся по сайтам, однако возможность поиска отдельных документов сохраняется постоянно.
Рис. 3.12. Страница результатов запроса Апорт
Каждый основной информационный блок начинается с символа «домик»
который обозначает сайт (в противоположность символу «страничка»
обозначающему отдельный документ). Обычно поисковые системы подразумевают под понятием «сайт» адрес сервера типа www.server.com (его доменное имя). В этом случае адрес сайта определяется по адресу страницы простым отбрасыванием правой части: так, из http://www.server.com/users/~vasya выводится www.server.com. Для больших серверов, где размещены сайты множества фирм или частных лиц, это неудачное решение. Апорт берет в качестве сайта сервер только в самом крайнем случае. Как правило, для определения группы страниц, являющихся логическим целым (сайтом), Апорт использует информацию из базы данных своего каталога, что обеспечивает большую точность, нежели любой автоматический алгоритм (специальные алгоритмы используются для незарегистрированных в каталоге сайтов).
В блоке каждого сайта Апорт приводит информацию об одной – самой подходящей – из найденных на сайте страниц. При этом, кроме обычных для поисковых машин данных (адрес, заголовок, размер и дата файла и т. п.), система выдает цитаты из документа. Они выбираются из полного текста и содержат искомые слова. По цитатам зачастую легко понять, интересует вас документ или нет.
Здесь же вы найдете ссылку на реконструкцию полного текста документа. Она нужна, если документ недоступен на самом сайте.
Чтобы получить информацию обо всех остальных страницах, которые Апорт нашел на сайте, следует воспользоваться ссылкой, замыкающей блок результатов. Нажав указанную ссылку, вы откроете дополнительное окно с результатами поиска по данному сайту. Они разбиты на постраничные блоки данных.
Очевидно, что поиск может считаться успешным, если удается найти нужную информацию на одной из первых страниц с результатами поиска. В этом отношении очень важна сортировка полученных данных. Перечень основных критериев, которые Апорт учитывает при сортировке документов (сайтов), следующий:
• процентное соотношение искомых слов со всеми словами в тексте документа и расстояние между поисковыми словами;
• место в тексте, где встречаются поисковые слова (заголовок, описание, метатэг и т. п.);
• внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
• количество внешних ссылок из Internet на данный документ. Разработчики Апорта называют это количество Site Rank (Ранг сайта) или Page Rank (Ранг страницы);
• использование искомого слова в тексте ссылок из Internet на данный документ.
Окончательный процент соответствия документа запросу вычисляется как некая интегральная функция от всех этих показателей.
Последний из указанных критериев имеет самостоятельное значение. Если на какой-то сайт есть ссылка, состоящая, например, из слов «современная музыка», то естественно будет предположить, что эти слова (которые выбрал человек, писавший ссылку) могут достаточно точно описывать содержимое сайта.
Поэтому при поиске по слову «музыка» данный сайт должен получить довольно высокое место, поскольку по этому слову существуют ссылки на него с других ресурсов. Подобный подход значительно улучшает качество сортировки найденных документов. Кроме того, он приносит еще один очень интересный результат.
Представьте себе, что робот, добавляя в базу некий документ с сайта X, нашел ссылку на документ с другого сайта Y, который пока отсутствует в базе Апорта. Благодаря возможности находить документы и сайты по словам из ссылки Апорт сможет теперь найти сайт Y, хотя он еще не индексировался, а может быть, и не будет индексироваться (например, зарубежный ресурс). Эта замечательная возможность позволяет находить гораздо больше сайтов меньшими усилиями, используя запросы с русскими словами даже в зарубежных ресурсах, которые Апорт не индексирует.