Софтерра: Введение в ConTEXt
Автор: Владимир Лидовский
Мы продолжаем знакомить читателей с компонентами меритократически[Меритократия — власть достойных. — Прим. ред.] элитарной издательской системы TEX, основы которой заложены одним из самых авторитетных людей в области ИТ — Дональдом Кнутом. Эта система весьма сложна и хорошо развита, хотя круг ее пользователей — в основном научных сотрудников — относительно невелик. Она использует некоторые уникальные форматы данных и имеет ряд особенностей (описание почти всей TEX-терминологии, а также основных TEX-компонентов см. в предыдущей статье на эту тему[" Современная TEXнология " («КТ» #6 от 25.02.03)]).
Система pdfTEX вместе с неразрывно связанным с нею макропакетом[Макропакет вводит дополнительный набор макросов в систему. Без базового макропакета (plain, LaTEX, ConTEXt или др.) TEX функционировать не может] ConTEXt — наиболее бурно растущая с 2001 года ветвь на почти тридцатилетнем дереве TEXнологии. За 2005 год появилось семь обновлений pdfTEX и 33 ConTEXt (несколько обновлений уже вышло и в нынешнем году). В каком-то смысле это революционные разработки. Они меняют почти все: цели системы, ее фундаментальные основы, географические координаты центров поддержки. Все нововведения, однако, стоят на крепком фундаменте полной совместимости с традиционными TEX-системами.
Напоминание
Для читателя, не знакомого с TEX’ом, напомню некоторые основные факты. В отличие от визуальных (WYSIWYG) издательских систем TEX является компилятором, преобразующим исходный текст документа в файл формата dvi (Device Independent), пригодный к распечатке на совместимом оборудовании. Изначально TEX был ориентирован на работу исключительно с печатающими устройствами, — до середины 90-х даже предпросмотр dvi-файлов на экране дисплея был либо слишком неудобен, либо требовал дорогостоящей немассовой аппаратуры. Конечно, о включении каких-то интерактивных элементов, вроде гиперссылок, тогда не могло быть и речи. До появления pdfTEX были лишь две попытки «сменить ориентиры».
В первую очередь это система Texinfo, представляющая собой макропакет к TEX и являющаяся стандартом для документации проекта GNU. Она позволяет из одного документа получать распечатку или гипертекст (в частности, html). Сама идея получать из одного документа данные в форматах совершенно разного назначения присутствует в TEX изначально — редактор и его основные компоненты написаны на языке WEB, тексты на котором преобразуются либо в программы на Паскале, либо в документ-описание в формате plain TEX. Код pdfTEX частично связан с WEB, поскольку основан на исходных кодах TEX.
С середины 90-х предпросмотр результатов работы TEX в формате dvi стал обычной практикой. Программы просмотра простейшим образом поддерживают гиперссылки — для работы с ними просто-напросто вызывается интернет-браузер. Помимо Texinfo, веб-ссылки поддерживаются, в частности, популярнейшим макропакетом LaTEX.
Но радикальный поворот к интерактивным электронным документам произошел только в связке pdfTEX+ConTEXt. Именно в ней создание, например, электронных учебников (ConTEXt разрабатывался для нужд сферы образования) или справочников стало не побочной возможностью, но одним из приоритетов развития.
pdfTEX сохраняет совместимость с dvi, но позволяет также использовать pdf, что, с одной стороны, ставит его в зависимость от этого формата (и косвенно от разрабатывающей его компании Adobe), а с другой — предоставляет ряд дополнительных возможностей. В pdfTEX, однако, произошел полный отказ от расширений на языке PostScript, встречающихся в некоторых макропакетах.
Центры разработки pdfTEX и ConTEXt расположены в Европе, в основном в Нидерландах. Участие в этих проектах принимают и разработчики из Восточной Европы.
TEX и dvi
Формат dvi превосходно отображает документы, содержащие только текст с масштабируемыми шрифтами, математические формулы и таблицы. Реализация работы с формулами в TEX до сих пор является наилучшей среди всего существующего программного обеспечения. Таблицы тоже реализованы на достаточно высоком уровне, но чуть хуже, чем в ряде коммерческих программ. В представлении текстов уже появляется ряд проблем: нет возможности менять межбуквенные интервалы при работе с одним шрифтом; текст можно размещать только по горизонтали; улучшенный алгоритм разбиения абзаца на строки поддерживается не всеми реализациями TEX. Для работы с графическими изображениями есть только одно примитивное средство — резервировать на бумаге место для последующего помещения туда графики. Цветов только два — черный и белый. Впрочем, в 80-х годах любой продукт такого класса не был способен на большее. Однако отказ от продолжения разработки METAFONT[METAFONT — компилятор масштабируемых шрифтов TEX], а затем и самого TEX их автором и быстрое наращивание ресурсов персональных компьютеров сделали эти слабости очевидными. Конечно, не следует забывать, что TEX создавался не как система общего назначения, а скорее как средство для написания Кнутом знаменитого «Искусства программирования для ЭВМ»[Кстати, эту книгу рекомендует прочитать всем, кто считает себя хорошим программистом, небезызвестный Билл Гейтс и добавляет: «Если вы сможете ее одолеть, вам определенно следует направить мне резюме»].
Все перечисленные и некоторые другие недостатки TEX обусловлены примитивностью формата dvi — передового для 80-х, но явно устаревшего уже в 90-х. Наращивание возможностей этого формата или даже поддержание его «на плаву» — чрезвычайно трудоемкая задача. По идее, для каждого нового устройства вывода нужно писать свой dvi-драйвер. Понятно, что в современных условиях это практически невозможно. Вместо постоянного сопровождения dvi сообществом пользователей TEX был выбран другой путь — путь разработки универсального драйвера, конвертирующего dvi в стандартный для полиграфических систем язык PostScript. Параллельно с развитием GNU-системы Ghostscript, которая обеспечивает трансляцию текстов PostScript в форму, непосредственно воспринимаемую устройствами вывода, это решило проблему совместимости с устройствами печати.
PostScript и dvips
PostScript очень интересный и привлекательный универсальный язык программирования. Теоретически на нем можно решать любые алгоритмизируемые задачи, хотя обычно он воспринимается скорее как формат векторной графики. Использование постфиксной (польской обратной) записи, ассоциативных массивов и поддержка на базовом уровне работы со сложной графикой выгодно отличают его от многих других языков. К сожалению, в абсолютном большинстве случаев он используется как язык для взаимодействия непосредственно с печатающей аппаратурой (PostScript-принтерами и др.), что, с одной стороны, делает нежелательным наличие в нем обычных программных конструкций типа циклов, присваиваний и т. п. (поведение совокупности которых невозможно предсказать, не выполнив код), а с другой — требует внесения дополнительной информации (в виде комментариев) для устройств вывода. Кроме того, специфическая узкая направленность PostScript обусловила почти полное отсутствие в нем средств для взаимодействия с пользователем.
Система dvips, существующая в нескольких вариантах, конвертирует файлы в формате dvi в PostScript-программы. Возможности PostScript (вставка картинок, трансформация текста, цвет) значительно шире, чем у dvi, и естественно, что для их использования были разработаны макропакеты. Формат dvi, благодаря наличию в TEX команды special, позволяет вставлять указания, специфические для выбранного драйвера, в частности программы на PostScript.
Файл в формате PostScript (или PDF, о котором ниже) не зависит от программного обеспечения компьютера, тогда как dvi-файл требует наличия всех шрифтов, использованных при его создании.
Этот формат (portable document format) — прямое развитие PostScript, хотя он и не является «настоящим» языком программирования. В pdf нельзя, например, вычислить 2+2. Данные в этом формате в основном бинарные, но даже текстовая часть связана абсолютными ссылками, что не позволяет ее изменять.
Зато pdf обладает неплохими средствами для организации диалога с пользователем. Фактически pdf по этому параметру не уступает html (поддерживаются гиперссылки, формы, которые могут обрабатываться самим документом или веб-сервером, а также javascript) и может использоваться вместо него. В отличие от html, языка обобщенной (логической) разметки, pdf жестко фиксирует способ показа каждого элемента документа.
Структура pdf-файла весьма проста — это список занумерованных объектов, после которых следует каталог ссылок на них, а затем — ссылка на этот каталог. Часть данных в pdf-формате (содержимое объектов), как правило, упакована по известным алгоритмам сжатия. Одним из недостатков pdf, отсутствующим у PostScript, является необходимость считывания всего документа перед показом любой его части, что обусловлено местом расположения каталога объектов.