Весьма полезной является предоставляемая поисковой системой Яndex подписка на поисковый запрос (http://www.yandex.ru/subscribe/). Это означает, что вам регулярно будет пересылаться информация об индексировании документов. Так, подписка на запрос, содержащий название вашей компании (торговую марку, наименование продукта, фамилию директора) поможет подобрать опубликованные в Internet материалы, касающиеся деятельности фирмы. Таким образом, вы сможете узнавать, когда появятся обновленные или новые страницы по интересующей вас теме. Достаточно задать в подписке соответствующие запросы, и на ваш адрес начнет поступать нужная информация, как только она появится в Internet и робот Яndex до нее доберется. Оформив подписку на запрос, вы будете получать необходимые сведения по мере поступления новых или изменения уже существующих в базе данных документов. Запрос в подписке осуществляют аналогично запросу к поисковой машине Яndex. В результате на указанный вами электронный адрес время от времени будут приходить уведомления следующего вида:
Subject: Подписка Яndex: inotec
Date: Wed, 4 Oct 2000 07:13:54 +0400 (MSD)
From: [email protected]
To: [email protected]
Добрый день!
По вашему запросу «inotec» появилась новая информация.
Новые результаты по запросу: inotec
Найдено: серверов – 5 8
Показано серверов: 58
Список найденных документов находится по адресу: http://www.yandex.ru/subscribe/view.pl?doc=6794411097554607
Изменить параметры подписки
Остановить подписку на этот запрос
–
С уважением,
Администрация службы подписки, [email protected]
–
На любой из своих страниц вы можете создать форму для обращения к поисковому сервису Яndex (описание находится по адресу http://www.yandex.ru/info/addyandex.html) и осуществлять поиск в Internet с нее, но можно ограничиться и своим сайтом. Единственное условие, предъявляемое владельцами ресурса, – сохранение дизайна страницы с результатами поиска.
Яndex давно предлагает пользователям возможность поиска без набора запроса – по слову, выделенному в окне браузера.
Чтобы зарегистрировать свой сайт в базе поисковой системы Яndex, воспользуйтесь ссылками
Добавить сайт (http://www.yandex.ru/addurl.html) и
Регистрация в каталоге (http://www.yandex.ru/advertising/catalog.html).
Поисковая система Rambler
Поисковая машина Rambler (http://www.rambler.ru/) – первая в России профессиональная поисковая система. Ее владелец – компания «Рамблер Интернет Холдинг». Роботы Rambler игнорируют зарубежные сайты, сканируя находящиеся в доменах: Российская Федерация (.ru, su), Украина (.ua), Белоруссия (.by), Казахстан (.kz), Киргизия (.kg), Узбекистан (.uz), Грузия (.ge). Определение принадлежности сайта производится по формальному признаку – домену первого уровня в URL.
Rambler объединяет в себе поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Все программы реализованы на базе собственных технологических разработок.
Поисковый механизм Rambler, запущенный в эксплуатацию в 1996 году, стал первой из российских поисковых систем, включенной в стандартные возможности обозревателя Internet Explorer компании Microsoft. Весной 1997 года начала работать рейтинговая система Rambler's Top100. Спустя три года, 7 марта 2000 года, был зафиксирован миллиардный посетитель страниц, зарегистрированных в рейтинге.
В июле 2000 года открыт ресурс Словари (http://www.rambler.ru/dict/). Новый интерактивный сервис реализован при поддержке российского издательства «Русский язык».
Страница поиска Rambler, показанная на рис. 3.8, позволяет задать поисковую фразу, перейти на страницу расширенного поиска (рис. 3.9) с помощью ссылки Расширенный поиск, а также воспользоваться другими сервисами (Магазины, Недвижимость, Телеканал, Поиск файлов, Словари, Карты и пр.).
Рис. 3.8. Страница поиска Rambler
Рис. 3.9. Страница расширенного поиска Rambler
На странице расширенного поиска можно выбрать, где следует искать информацию – во всем документе или только в той его части, которая может быть конкретизирована, для чего следует настроить переключатель Поиск по тексту на одно из следующих положений:
• всего документа;
• названия (<title>);
• гиперссылок.
Кроме того, с помощью переключателя Искать слова запроса можно уточнить логику: все («и»), хотя бы одно («или») либо точную фразу.
Переключатель Язык документа дает возможность сообщить поисковой системе, на каком языке должен быть написан искомый документ: на любом, русском, английском или украинском.
Сузить область поиска можно, воспользовавшись переключателем Расстояние между словами запроса, указав интервал дат, формат документа (любой, HTML, Microsoft Word), конкретный сайт, а также задав слова, по которым определенные документы исключаются из поиска.
В разделе Вывод результатов размещены три опции, позволяющие отрегулировать отображение результатов поиска: отсортировать по релевантности (либо сайтов, либо страниц) или по дате (в прямом или обратном порядке), настроить число выдаваемых на странице записей (15, 30 или 50) и, наконец, выбрать форму представления результатов связанных запросов: показывать отдельной колонкой или внизу страницы.
На странице результатов поиска, изображенной на рис. 3.10, Rambler показывает число найденных сайтов и уникальных документов.
Рис. 3.10. Страница результатов запроса Rambler
Уточнить результаты поиска можно, сделав дополнительный запрос при включенных опциях в новостях или в найденном.
Роботы Rambler при сканировании игнорируют поля <META NAME= «Keywords» Это связано со стремлением разработчиков индексировать документ по его реальному содержанию, а не по критериям автора. Не секрет, что владельцы документов злоупотребляют этими полями, добиваясь того, чтобы их документы обязательно находили по ключевым словам, которые зачастую выбраны произвольно.
Текст, невидимый на странице (то есть набранный шрифтом, цвет которого соответствует цвету, заданному тэгом BACKGROUND), роботы Rambler не индексируют, равно как и комментарии в документе. Каждый комментарий увеличивает размер документа, а значит, снижается вероятность того, что он будет просмотрен до конца.
Значимость HTML-тэгов, к которым следует отнести базовые понятия и ключевые слова, следующая (в порядке убывания):
• <TITLE>;
• <H1> … <H6>;
• <ADDRESS>;
• <B>, <STRONG>.
Чем чаще слово встречается в комбинации этих полей, тем вероятнее, что поисковая система Rambler поместит документ ближе к началу списка, в котором отражены результаты поиска. Кроме того, значимость поискового слова тем выше, чем ближе оно к началу документа.
Использование фреймов в документе не способствует успешному поиску. Это не означает, что роботы не умеют сканировать фреймы. Просто отдельный отсканированный фрейм не позволяет получить представление о целом документе. Данное замечание не относится к случаю, когда фреймы в документе используются исключительно для улучшения навигации. Роботы Rambler прекрасно справляются с конструкциями фреймов, однако в текст таких документов рекомендуется включать тэг <NOFRAMES> с последующим описанием документа и ссылками. Разумеется, это увеличит размер страницы, но в то же время продемонстрирует ваше корректное отношение к пользователям текстовых браузеров и поисковым машинам.
Поисковый сервер Rambler автоматически исключает из индекса слова, встретившиеся более чем в 800 000 документов. Такие слова не являются информативными при поиске, и в 99,9 % случаев можно обойтись без них.
Предельная внимательность необходима при указании перекрестных ссылок в документе. Надлежит проверить работоспособность каждой из них, иначе роботы не смогут добраться вглубь дерева документов. Следует также иметь в виду, что с точки зрения протокола HTTP две следующие записи различны:
<A HREF="direc tory"…> <A HREF="directory/"…. > (слэш в конце ссылки)
Обычно при запросе по первой ссылке робот получит переадресацию на вторую, а значит, извлечет сам документ только на следующем проходе при обращении к серверу. В итоге замедлится индексация сайта.
Максимальный размер документа для роботов Rambler составляет 200 Кб. Документы большего размера урезаются до указанной величины.
Роботы Rambler обрабатывают ссылки типа <A HREF="/cgi-bin/imagemap." >, однако наряду со ссылкой такого вида рекомендуется поместить в текст документа конструкцию <MAP NAME="name">. Это ускорит индексацию документов, указанных в IMAGEMAP, и облегчит доступ к документам для обычных браузеров.
Часто изменяющиеся (динамические) документы рекомендуется исключить из списка индексируемых, так как они быстро теряют актуальность. Выполняется эта процедура с помощью стандартного для HTTP механизма – посредством файла robots.txt в головной директории вашего сайта.
Части документа, не требующие, по вашему мнению, индексации, можно отделять в документе с помощью тэгов <INDEX>…<NOINDEX>.