Такова в самых общих чертах лингвистическая модель, которая реализуется в глобальном информационном пространстве. Она проста, оперативна, замкнута относительно операции поиска и действительно глобальна: в поисковом индексе Google на сегодня около девятнадцати миллиардов документов на всех языках мира.
В этом глобальном информационном пространстве действуют люди. Они создают ресурсы, они формируют поисковые запросы, они же пишут поисковые системы — то есть создают инструменты навигации по этому океану. И все они взаимодействуют друг с другом и с информационным пространством.
О некоторых моментах этих взаимодействий я хочу сегодня поговорить.
Яндекс на страже нового русского языка. В Яндексе есть сервис проверки орфографии — Query-based speller (можно перевести название примерно так: “Уточнение правописания на основании анализа запросов”). Первоначально он работал таким образом: если в запросе содержалось слово, отсутствующее в базовом словаре, Яндекс брал на себя смелость предлагать исправить это “плохое”, по его мнению, слово на “хорошее” — близкое по написанию и словоупотреблению. В этом случае под строкой поиска появлялась фраза: “Опечатка? возможно, имелось в виду: [предлагаемое „хорошее” слово]”.
Затем сервис был несколько модифицирован, поскольку, с точки зрения Яндекса, этого сегодня уже недостаточно. Один из разработчиков сервиса Алексей Пяллинг так объяснил происшедшие изменения: “„Обычный” словарь — это, конечно, хорошо. Но в наше время, когда новые слова появляются чуть ли не каждый день, поддерживать актуальность словаря невозможно. Сами посудите, ежедневно регистрируются новые фирмы, появляются новые музыкальные группы, новые спортсмены выигрывают новые соревнования. Возникающие при этом новые слова часто бывают непроизносимыми, нечитаемыми и даже непечатными. Разбором и анализом таких ситуаций в Яндексе как раз и занимается новый алгоритм, автоматически строящий словарь исправлений. Запросы пользователей собираются и анализируются, обрабатывается статистика. Если оказывается, что по какому-то слову есть много вариантов исправлений, то из кластера выбирается похожее слово из наиболее распространенных в Интернете. Таким образом, появляется база пар „плохих” и „хороших” слов — слов с ошибками и исправленных, и каждое слово в запросе пользователя теперь проверяется по такому „народному” словарю”.
“Афтар” и “автор”. Инициатива — наказуема. И Яндекс начал получать письма возмущенных пользователей, которые обвинили поисковик в безграмотности. На одно из таких писем ответил директор Яндекса по технологиям и разработке Илья Сегалович: “Нам задают вопросы про Query-based speller, который наряду со словарным орфографическим корректором работает на поиске Яндекса. Автор письма пишет: „Однако меня все равно не устраивает, когда в ответ на запрос ‘афтор‘ с одной опечаткой мне говорят, что, возможно, следует писать ‘афтар‘, а не ‘автор‘”. Отвечаем: [автор] и [афтар] — два разных слова, они принадлежат к двум разным пластам языка, имеют разную сочетаемость. По ассоциациям запросов видно, что такую опечатку делают т. н. „падонки”, которые намеренно пишут это слово через „ф”. Нормальный человек не поставит случайно вместо „в” букву „ф” — и по звучанию не похоже, и расположена она на клавиатуре не рядом. Иными словами, замену [афтор] — [афтар] мы считаем вполне адекватной. Более того, по-видимому, орфографической ошибкой является написание [автор жжот]. Правильно [афтар жжот]””.
Если выполнить запрос “афтар” — Яндекс дает около полумиллиона упоминаний. Этого достаточно, чтобы сказать, что слово адаптировано языком. Впрочем, запрос “афтор” дает тоже немало — около двухсот тысяч ссылок. Причем контекст примерно тот же, что и у слова “афтар”, — сочетание “афтор жжот”, которое Илья Сегалович предлагает считать опечаткой, тоже широко распространено. Но с традиционным “автор” пока ни одно из этих написаний конкурировать не может — “автор” упоминается примерно 150 миллионов раз и побеждает за явным преимуществом.
Появление в русском языке большого количества намеренных искажений и даже возникающий языковой пласт — “новый русский язык, нах” — стал темой статьи “У языка есть афтар” в журнале “Русский NewsWeek”. Это явление исследовал известный филолог, профессор Боннского университета Гасан Гусейнов в статье “Берлога веблога. Введение в эрратическую семантику” <http://speakrus.ru/gg/microprosa_erratica-1.htm>.
“Эрратический” (англ. erratic) можно перевести как “переменчивый, непостоянный” (от латинского “erratum” — опечатка, недосмотр). Эрратическая семантика, как ее определяет Гусейнов, — это семантика, возникающая при намеренном искажении слова. Областью исследования известного филолога стала “эрратическая семантика” в ее бытовании в “Живом журнале” (“ЖЖ”). Но на сегодняшний день можно сказать, что “афтары” уже в изобилии разбрелись по всему русскоязычному Интернету.
Новый сервис Яндекса — проверка орфографии Query-based speller, чутко реагируя на перемены, возникающие в языке, в определенном смысле способствует нормализации и закреплению этих перемен. Норма возникает естественным образом — накоплением словоупотреблений. Выработанная Яндексом орфография ненавязчиво (как вариант запроса) напоминает, что нормой большинство носителей считает написание “афтар”, а не “афтор”. Но Яндекс тем самым как бы расщепляет традиционное слово “автор” по областям употребления и нормализует новое слово “афтар”. Это многим не нравится, поскольку происходит искажение традиционной лексики. То, что Яндекс сумел настолько оперативно отреагировать на языковые перемены введением нового сервиса — “гибкого” определения правописания, говорит о том, что технические средства сегодня, как никогда, совершенны. Но всегда ли стоит их настолько оперативно приводить в действие?
Много новых слов. Профессор брюссельского Открытого университета и сотрудник лаборатории Sony Computer Science в Париже Люк Стилз (Luc Steels) совместно с коллегами из римского университета “La Sapienza” опубликовал работу, посвященную динамике вхождения новых слов в язык. Ученым удалось построить простую математическую модель, которая описывает механизм распространения новых слов в сетевой среде, лишенной какого бы то ни было централизованного управления. Каким образом новое слово становится понятным всем членам большого социума, хотя никто не принимал закона о его применении? Но слова постоянно возникают и входят в язык, а последние десять — пятнадцать лет это случается едва ли не каждый день.
Во вступлении к своей работе авторы пишут: “Bluetooth, blogosphere, greenwash. Лексикографы каждый год добавляют тысячи новых слов в словари и анализируют использование гораздо большего количества новых лексем”. Все приведенные английские слова действительно являются новыми — им от силы три-четыре года, и они активно употребляются. “Bluetooth” — это вид радиосвязи на коротких расстояниях. Он стал популярен из-за широкого распространения наладонных компьютеров (и других мобильных устройств), которым необходимо связываться и с настольными компьютерами, и друг с другом. “Blogosphere” — это специфическая среда, которую в Интернете образуют блоги — интернет-дневники. А “greenwash” — это совсем не компьютерный термин. Буквально он означает “зеленая мойка” — так называют действия компании, которая пытается сделать вид, что она борется за чистоту окружающей среды. Greenwash необходим, чтобы повысить доверие к компании, а значит, и ее капитализацию. Чаще всего гринвош — это чисто внешние действия, которые, не меняя ничего по существу в работе компании, только подправляют ее имидж.
Это очень разные слова, но все они появились совсем недавно и, в общем, хорошо прижились.
Слово входит в язык. А как слово входит в язык? Компьютерная модель, предложенная учеными, представляет собой программную среду, в которой “обитает” большое количество программ-агентов и находится некоторое количество объектов. В реализованной на сегодня модели рассматривается всего один объект (Объект), который должен получить свое название. Это сделано для упрощения вычислений, но модель с большим количеством объектов будет работать точно так же. Задача агентов — придумать имя для Объекта. Они располагают неограниченным запасом слов (словарем), и каждый агент первоначально может назвать Объект любым словом из словаря. Так начинается “name game” — игра, целью которой является создание имени, понятного всем агентам — участникам коммуникации. Игра проходит по таким правилам: каждый агент может общаться с каждым, что вполне реалистично для сегодняшней коммуникативной ситуации, в которой каждый пользователь Сети может контактировать с любым другим. В контакте есть Говорящий и Слушающий. Когда Говорящий называет Объект тем словом, которое он для него придумал, например valem, Слушающий понимает его или не понимает. Слушающий не понимает, что сказал Говорящий, если не знает, что Объект можно назвать valem — так, как его назвал Говорящий. Тогда Слушающий добавляет это слово в свой собственный маленький словарь — теперь он знает, что объект, который он сам называл, например, aknorab, можно называть и по-другому. Если при одном из последующих контактов кто-то обратится к Слушающему и вновь назовет объект valem, Слушающий его поймет — после этого словари обоих участников успешного контакта будут очищены от всех других слов, кроме слова valem . Теперь они знают, как называть Объект, и при дальнейших контактах будут его называть только valem, инициируя распространение этого слова. Так строится языковая игра. Несмотря на свою простоту, она выглядит вполне реалистично для той языковой ситуации, которая возникает в глобальном информационном пространстве, когда требуется поименовать новое явление.