Таким образом, индексирование ссылок, которое требует небольшого дополнительного времени, позволяет системе значительно расширить поисковое пространство. В итоге Апорт не только быстро добирается до различных «закоулков» русскоязычной части Internet, но и делает весьма широко доступной зарубежную Сеть, поскольку на многие интересные иностранные ресурсы есть ссылки и с российских сайтов.
В список ресурсов, индексируемых Апортом, может входить как целый сервер (например, www.rol.ru), так и его часть (например, www.company.ru/~vasya/). Последняя, однако, просуществует только до тех пор, пока родительский сервер не будет проиндексирован (www.company.ru в предыдущем примере). Родительский сервер поглотит дочерний ресурс, и тот станет его частью, потеряв самостоятельный статус.
В каждом самостоятельном ресурсе (обычно это сервер) периодически проверяется появление новых документов, изменение или удаление старых. Новые документы добавляются в базу данных, измененные удаляются из нее и добавляются уже в новом виде. Документы, которые не нашлись на сервере, из базы данных Апорта удаляются не сразу. Удаление происходит в том случае, если документ не доступен на сервере при нескольких обновлениях подряд. Таким образом, в целом база данных Апорта всегда содержит некоторое количество удаленных документов. Такой «исторический шлейф» не вреден, а иногда даже и полезен. Сохраняя его, Апорт позволяет иногда получить реконструкцию документа, который в оригинале уже отсутствует в Internet.
Для организации на своем сайте дополнительного сервиса – поиска в Internet – можно установить одну из поисковых форм Апорта (http://aport.ru/forms/forms.htm). Предлагаются два вида поисковых форм: простые и раскрывающиеся, которые устанавливаются на сайте в виде картинки и раскрываются в полноценную поисковую форму при наведении на них курсора (рис. 3.13).
Рис. 3.13. Одна из поисковых форм, раскрывающаяся при наведении на нее курсора
Чтобы добавить адрес своего сайта в базу поисковой системы Апорт, воспользуйтесь ссылкой Добавить сайт (http://www.aport.ru/addurl.php).
Поиск@Mail.ru
Поисковая машина Поuск@Mail.ru (http://www.mail.ru/) была запущена в эксплуатацию в июле 2003 года. Ее владелец – компания Mail.ru. Компании принадлежат крупнейшая электронная почтовая служба России @Mail.ru, одноименный портал, объединяющий более 20 различных сервисов и информационных проектов, популярный Internet-аукцион Molotok.ru, торговая площадка Torg.ru. В состав портала вошел также старейший каталог сайтов List.ru, некоторые службы рассылок и знакомств и др. Портал Mail.ru предоставляет пользователям практически весь спектр сервисов, существующих на сегодня в сети: почту, поиск, рейтинг и счетчик, бесплатный хостинг, почтовые рассылки, чаты, форумы, открытки, знакомства и многое другое. Особенно полно представлены сервисы, направленные на коммуникацию между пользователями. Поиск@Mail.Ru ищет на сайтах всего мира с учетом русской морфологии, исправляет опечатки и хранит персональную историю запросов и ответов. Несмотря на свою молодость, поисковая система стремительно набирает популярность, во многом благодаря доверию людей, давно пользующихся услугами почтовой службы Mail.ru.
Страница поиска (рис. 3.14) позволяет задать поисковую фразу, выбрать тематический раздел каталога и дополнительно сузить область поиска при помощи переключателя Интернет – Картинки – Каталог – Товары и лоты – Софт – Словари. Кроме того, можно перейти на страницу расширенного поиска (кнопка
), а также воспользоваться сервисом ввода данных с помощью мыши и виртуальной клавиатуры (кнопка
) – см. рис. 3.15.
Рис. 3.14. Страница поиска Поиск@Mail.ru
Рис. 3.15. Виртуальная клавиатура Клавиатура@Mail.ru
В зависимости от заданных условий с помощью расширенного поиска вы найдете результаты:
• по всем словам запроса;
• по точной фразе;
• по любым из слов запроса;
• без указанных слов.
Кроме того, с помощью расширенного поиска можно искать:
• определенные типы документов (Adobe Acrobat PDF – .pdf, Adobe Postscript – .ps, Microsoft Word – .doc, Microsoft Excel – .xls, Microsoft Powerpoint – .ppt, расширенный текстовой формат – .rtf);
• страницы по дате их изменения (последние 3, 6 и 12 месяцев);
• результаты, содержащие слова в различных местах страницы (в заголовке, в основной части, в адресе страницы, в ссылках на данную страницу);
• документы на определенном сайте или, наоборот, исключить его из сферы поиска;
• похожие страницы;
• ссылки, которые указывают на интересующую вас страницу.
По умолчанию поисковая система выдает результаты (рис. 3.16), полученные на сайтах всего мира, но, при желании, можно включить в зону поиска только русскоязычные сайты. При расширенном поиске, наоборот, по умолчанию система ищет только в русском Internet.
Рис. 3.16. Страница результатов Поиск@Mail.ru
Функция «Вы искали» позволяет восстановить запросы, которые были ранее заданы поисковой системе. Она полезна в случае, если нужна какая-либо информация, которую вы находили некоторое время назад, но не можете вспомнить точную формулировку запроса.
Чтобы установить на своем сайте форму для поиска в Internet посредством Поиск@Mail.Ru, выберите ее на странице http://poisk.mail.ru/form/. Предлагаются разного размера формы: стандартные, цветные, экстравагантные и предложенные пользователями.
Для добавления адреса своего сайта в базу данных поисковой системы Поиск@Mail.ru, воспользуйтесь ссылкой
Добавить сайт (http://poisk.mail.ru/cgi-bin/add_url.cgi).
Tela
Поисковая система Tela (http://tela.dux.ru/), принадлежащая компании NetLogic (http://www.netlogic.ru/), позволяет вести поиск по ключевым словам русско– и англоязычных страниц на российских серверах, а также сайтов ближнего зарубежья на украинском и белорусском языках.
Сбором информации занимается подсистема-робот, созданная на базе робота MOMspider (http://www.ics.uci.edu/pub/websoft/MOMspider/). По возможности игнорируются страницы, содержащие статистику по использованию серверов. Текущее количество собранных страниц выдается вместе с результатом поиска. Поисковая часть сервера Tela сделана на базе системы поиска freeWAIS-sf (http://ls6-www.informatik.uni-dortmund.de/ir/projects/freeWAIS-sf/) с использованием русской версии системы MorphIlias, которая осуществляет поддержку морфологии языка, что позволяет задавать ключевые слова в произвольной форме.
Поисковая система Tela не отличается масштабностью. Страница поиска Tela, показанная на рис. 3.17, позволяет задать поисковую фразу, а также перейти на страницы поиска на английском, украинском и белорусском языках.
Рис. 3.17. Страница поиска Tela
Система поддержки русского языка, с которой работает Tela, допускает указание ключевых слов в естественном запросе, в любой из возможных словоформ русского языка, даже неправильной. Например, считаются эквивалентными и, следовательно, выбираются по запросу следующие словоформы:
имя, имени … именами, именах;
марка … марок … марках;
ухо … ушей … ушах;
крюк, крючья … крюках, крючьях;
Допускается использование метасимвола «звездочка» в конце любого слова, где * означает произвольное количество любых символов (до пробела), например мед*. В этом случае подходящими считаются все слова, начинающиеся подобным образом и имеющие разные окончание. Обратите внимание, что использование метасимвола нередко дает совершенно неприемлемый результат, поэтому требуется известная аккуратность. Так, при поиске упоминаний о меди по указанному выше шаблону помимо искомых форм (медь, меди) будут найдены варианты медведь, медицина, медик, медикаменты, медитация и т. д.
Переключатель Искать позволяет выбрать одно из трех условий поиска:
• любое слово (логическое ИЛИ);
• все слова (логическое И);
• все слова рядом.
Вывод результатов осуществляется в зависимости от степени соответствия найденных документов запросу. Количество выводимых на каждой странице ссылок задается в поле Число возвращаемых документов.
На странице результатов поиска, изображенной на рис. 3.18, Tela показывает число найденных ресурсов в поле Найдено документов. Каждая запись о найденном документе сопровождена опцией предварительного просмотра (ссылка Предосмотр страницы), позволяющей до загрузки исходной страницы оценить ее содержание по имеющемуся в системе фрагменту.
Рис. 3.18. Страница результатов запроса Tela
Самостоятельная регистрация ресурсов в системе Tela не предусмотрена.
Rundex
Поисковая машина Rundex (http://rundex.ru/) – это поисковая система с ограниченным объемом информационной базы. Страница поиска Rundex (рис. 3.19) позволяет задать поисковую фразу, а также сузить область поиска, выбрав опции переключателя: