Рис. 2.100. Рабочее окно программы Retrieve
Перед началом работы следует произвести некоторые настройки. Например, если требуется проверить внешние ссылки, то есть ссылки на внешние серверы, выберите пункт меню Options → Check external link (Параметры → Проверять внешние ссылки).
В поле корневой URL введите стартовый адрес страницы (на локальном или удаленном компьютере), с которого программа начнет проверку гиперссылок. Если проверка начинается с файла, расположенного на вашем ПК или на компьютере в локальной сети, то для ввода полного пути к файлу воспользуйтесь кнопкой Обзор. В открывшемся диалоговом окне Open root HTML document (Открыть корневой HTML-документ), показанном на рис. 2.101, выберите нужный файл. После этого нажмите кнопку Открыть.
Рис. 2.101. Окно
Open root HTML documentВ поле поиск в глубину введите число страниц, которые требуется проверить.
Переключатель на семь положений – Auto, English, Windows, KOI-8, DOS(866), ISO-5, Mac – предназначен для указания кодировки, в которой выполнен документ. Это необходимо для корректного поиска по ключевым словам, так как страницы, написанные на русском языке, кодируются множеством способов. Если обследуются страницы, написанные на английском языке, или нужна только проверка гиперссылок, можно установить переключатель в положение English – при этом программа будет работать немного быстрее. Заметим, что английские слова будут декодироваться правильно при любом выборе кодировки.
Работа программы начинается со щелчка по кнопке Пуск. Рабочее окно выглядит так, как показано на рис. 2.102.
Рис. 2.102. Вид рабочего окна программы Retrieve после щелчка по кнопке
ПускВ нижней части окна в строке состояния Текущая страница отражена динамика просмотра страниц. Более детальная информация о работе программы сосредоточена в консольном окне, изображенном на рис. 2.103, переключиться в которое можно при помощи кнопки ® (стрелка вправо). Правда, автору книги сделать это не удалось, но поскольку обычное переключение между окнами Windows затруднений не вызывает, то замеченный недостаток, по сути, неважен и никак не сказывается на работе Retrieve.
Рис. 2.103. Консольное окно программы Retrieve
Программа тестирует все внутренние ссылки (если указано, то и внешние) на отмеченной в поле корневой URL странице, исследуя все основные адресные тэги: HREF, SRC, BACKGROUND, ACTION и USEMAP. Обрабатываются, в частности, HTML-документы, фреймы, изображения, формы и т. д. Retrieve проверяет правильность написания ссылок и наличие документов, которые в них указаны. Если в гиперссылке указан документ типа text/html, программа рассматривает его, проверяя ссылки и метаданные, имеющиеся в его тексте. Retrieve работает до тех пор, пока все ссылки из связанных HTML-страниц (включая те, что указывают на внешние Web-серверы) не будут проверены или не исчерпается заданный лимит страниц. Найденные ошибки записываются в файл Errors.html, размещаемый в том же каталоге, что и проверяемая страница.
На обследуемых страницах собирается информация о ключевых словах из специально предназначенных для этого тэгов: META NAME="keywords", META HTTP-EQUIV="keywords", META NAME="description" и TITLE.
В любой момент можно приостановить работу программы щелчком по кнопке Стоп. Позже вы сможете продолжить обработку страниц с помощью кнопки Restore (Возобновить).
В завершение обработки информации появляется окно Result of searching (Результат поиска), показанное на рис. 2.104.
Рис. 2.104. Окно
Result of searchingВ верхней части окна в строке Visited links: … Errors links … Found keywords: … (Обнаружено ссылок: … Ошибочных ссылок … Найдено ключевых слов: …) сообщаются количественные результаты поиска. Отчеты программы
Чтобы подготовить отчеты об ошибочных гиперссылках и ошибках в оформлении метаданных, включите в окне Result of searching флажки Generate error's report и Generate design's report соответственно и щелкните по кнопке OK. После того как формирование отчетов будет завершено, в нижней части окна появится надпись: View result in file RESULT.HTML (Результат смотрите в файле RESULT.HTML), как показано на рис. 2.105.
Рис. 2.105. Вид окна
Result of searching после подготовки отчетов
Если вы не подготовили отчеты, но уже закрыли окно Result of searching с помощью кнопки Close (Закрыть), запустите Retrieve снова, щелкните по кнопке Restore, дождитесь появления окна Result of searching и выполните описанные выше действия.
Файл Result.html, как и Errors.html, располагается в каталоге, где находится стартовая страница для проверки. Кроме этих двух файлов программа Retrieve в том же каталоге создает еще девять: goodSearch.html, hardIndex.html, hardSearch. html, notFriend.html, notParsed.html, Search.html, slowIndex.html, dBase.kkw и forResume.kkw. Наверное, такое решение не самое лучшее, тем более что два последних файла – это служебная информация Retrieve, а не файлы отчетов, но это, скорее, отдельный вопрос к разработчикам программы.
Найденные ошибки в гиперссылках и оформлении метатэгов сгруппированы в файле Result.html по доступности их поиска, как показано в следующем примере (здесь обследован локальный компьютер, намеренно отключенный от Internet для генерации ошибок по внешним ссылкам):
–
The result of searching (Результаты поиска)
–
Visited links (Проверено ссылок): 34 Errors links (Ошибочных ссылок): 7 Found keywords: (Найдено ключевых слов): 4
Tue Oct 10 23:02:04 GMT+03:00 2000
Hard to search (Трудные для поиска)
The pages that are hard to search (no title) (Страницы, которые трудно найти)
Hard index (Трудные для индексирования)
The pages that are hard to index correctly (title – yes, keywords – no) (Страницы, у которых трудно правильно выбрать ключевые слова)
Slow index (Медленные для индексирования)
The pages that are good but slow to index (title – yes, keywords – yes, content – yes, http-equiv – no) (Страницы, которые в целом правильно оформлены, но замедляют работу поисковых машин) Not friend pages (Недружественные для поиска)
The pages that are not friendly for those who search (title – yes, keywords – yes, content – no) (Страницы, которые недружественны к тому, кто их ищет)
Good search pages (Хорошие для поиска)
The pages that are good to search (Страницы, удобные для работы поисковых машин)
Not parsed pages (Необследованные)
The pages that were not parsed (because they are not html, or links are broken, or other reasons). (Страницы, которые не анализировались либо потому, что они не html, либо из-за ошибки в ссылке, либо по другим причинам)
–
Errors links (Ошибочные ссылки)
Ссылки на показанной странице открывают доступ к детальной и сгруппированной по результатам анализа информации; возможен переход на страницу с описанием обнаруженных ошибок в гиперссылках (Errors links), фрагмент которой выглядит следующим образом:
Errors
–
Линк взят из (локально): 6.html
Линк взят из (сервер): file:/E:Internet~sound/sound.htm Линк (локально): null
Линк (сервер): file:/E:Internet~sound/index.htm
Ошибка: Failed to connect: IOException:
java.io.FileNotFoundException:E:Internet~soundindex.htm, URL:
file:/E:Internet~sound/index.htm
–
Линк взят из (локально): 2.html
Линк взят из (сервер): file:/E:Internet~sound/index.html
Линк (локально): 3.html
Линк (сервер): file:/E:Internet~sound/midi.htm
Нет заголовка
Нет ключевых слов
Нет аннотации
Нет HTTP-EQUIV
Ошибка: No title
–
Поиск по ключевым словам Для локального поиска по ключевым словам, собранным как с удаленного, так и с локального серверов, воспользуйтесь окном
Result of searching. Если информация уже была собрана ранее, достаточно снова запустить программу Retrieve, щелкнуть по кнопке
Restore и дождаться появления указанного окна. Введите в поле
Input keywords (Введите ключевые слова) слова для поиска, разделяя их пробелами; щелкните по кнопке
OK и дождитесь появления в строке состояния надписи:
View result in file RESULT.HTML (Результат смотрите в файле RESULT.HTML). Откройте данный файл в браузере. Щелкните по ссылке
The result of searching (Результат поиска), расположенной вверху отчета об ошибках. В окно браузера загрузится страница, примерный вид которой представлен ниже (в данном случае поиск велся по строке «gaap ias»):
Inotec: accounting software (GAAP, IAS)– Contents
The integrated accounting software systems allow to keep parallel accounting under both Russian and any international (like GAAP and IAS) standards as two independent charts of accounts, MSFO, msfo, GAAP, gaap, IAS, ias, accounting software, parallel accounting, law, LAW, justice, soft, moscow, Moscow, MOSCOW, inotec, inotek file:/E:InternetInotecwww.inotec.ru/indcnte.htm
Inotec: Последние новости
The integrated accounting software systems allow to keep parallel accounting under both Russian and any international (like GAAP and IAS) standards as two independent charts of accounts, Разработка и сопровождение программ для аудита и бухгалтерского учета по российскому законодательству и международным (GAAP и IAS) стандартам финансовой отчетности, gaap, ias, accounting software, parallel accounting, accountancy, free, soft, moscow, гаап, иас, мсфо, аудит, бухучет, отчетность, право, налог, бухгалтер, бухгалтерский учет, программы, правовые, системы, финансы, отчетность, новости, сети, закон, работа, российское законодательство, международные стандарты, архив, подписка, рассылка, курс usd, погода, москва, цены, бензин, календарь, инотек, inotec, inotek file:/E:InternetInotecwww.inotec.ru/inotec.htm