То есть в системе заложены главным образом связи между понятиями смысловой близости. Кстати, в нашей команде работают люди, мыслящие на нескольких языках; с ними мы пытаемся анализировать параллельные тексты. При этом мы стараемся вычленить из этой естественной формы языка все наблюдаемые семантические классы, отнести наиболее конкретные из них на более низкие уровни, более общие — на верхние ступени иерархии. Например, семантический класс «средство передвижения» расположен выше классов «наземный транспорт», «воздушный транспорт» и «другой транспорт». Конечно, выстраивание таких цепочек — творческий процесс. Скажем, есть множество возможностей для встраивания в иерархию омонимов: «тополь» — это ведь и растение, и средство вооружения. Собственно говоря, из-за большого числа значений каждого слова в системе семантических категорий так много горизонтальных связей.
В целом работа системы включает ряд сложных этапов: лексико-морфологический анализ, грубый и точные синтаксический анализ, семантический анализ, синтаксический синтез, синтез линейного порядка и, наконец, морфологический синтез. Не буду вдаваться в подробности, и без того очевидно, что задача очень сложная — и именно потому очень многие считают интерлингвистические подходы невозможными…
Д. З. Но ведь это — как спор математиков и инженеров: первым решение кажется всегда недостижимым, вторые — уверены, что найдут реальное решение, которое выполнит задачу на 99%.
Д. Я. В прикладной лингвистике действительно много «подводных камней». Например, появляются новые семантические концепты; то, какими они будут, никогда нельзя предсказать. Скажем, концепт «социальная сеть»: раньше только на каком-то высочайшем уровне абстракции его можно было сопоставить с концептом «средство общения», сегодня же в этом сочетании — вполне конкретный смысл.
Мы уверены, что, обработав таким способом критическое число параллельных текстов на двух языках, мы «устаканим» иерархии. Сейчас над этим работает команда из трёхсот человек; в общей сложности в такой масштабный проект компания ABBYY вложила уже более $70 млн.
Д. З. ABBYY развивает бизнес в двух направлениях — распознавание документов и перевод текстов. Смерть рынка OCR — наверное, вопрос 5–10 лет, а на глобальном рынке услуг перевода и лингвистических технологий вас ждёт Google. Нет ощущения, что впереди у ABBYY — бетонная стена?
Д. Я. Для нас уже давно вся эта сложная работа по созданию формализованных описаний различных языков — не самоцель; мы видим конкретные перспективы применения продуктов на основе этих технологий на рынке. И «Гугл» на самом деле семантика и лингвистика пока мало интересуют: здесь пока для него не слишком денежный рынок.
Начиная в 1995 году проект, мы поставили цель — создать один из лучших машинных переводчиков, способный помочь специалистам переводить большее количество текстов за счёт редактирования результатов машинного перевода, а не путём перевода всего текста целиком.
Рынок перевода уже сегодня оценивается в $20 млрд, а в ближайшем будущем для группы из 10 языков (в основном агнлоцентричных) он вырастет вдвое.
Но параллельно в процессе работы мы открывали новые направления монетизации нашей технологии, в частности в области понимания, поиска и анализа текстовой информации. Именно эта область для нас коммерчески целесообразна сегодня — и мы планируем активно заниматься ей. Но и о переводе мы не забываем. Здесь важно сказать, что с технологической точки зрения машинный перевод является чуть ли не вершиной искусственного интеллекта; получить очень хороший перевод — действительно сложная задача.
Например, то, что мы научились вычленять факты из текстов и проводить анализ документов, выводит нас на рынок «умного» корпоративного поиска. В качестве иллюстрации: в США огромное количество судебных процессов между крупными компаниями, в рамках которых каждая из сторон должна предоставить всю внутреннюю электронную переписку, всю документацию по бизнесу — в электронном виде. Наша система может производить анализ всего этого массива текстовой информации — и выводить юристам и экспертам лишь конкретные результаты. Только этот рынок уже на сегодняшний момент оценивается в несколько миллиардов долларов.
Д. З. Речь идет о семантическом поиске?
Д. Я. По сути, да. Адвокаты и прокуроры пока ищут в судебной документации важные факты, основываясь на key words search либо на поиске с учётом синонимов. Это неэффективно: с одной стороны, точность результатов поиска низка (основаная причина — многозначность слов) с другой — очень многие действительно важные вещи просто пропускаются.
Мы готовы предложить намного более эффективную альтернативу. Скажем, адвокат берёт текст искового заявления и просит нашу систему найти судебные разбирательства, схожие по предмету иска. То есть мы можем автоматизировать процесс поиска прецедента, на котором базируется вся англосаксонская правовая система. Другая сфера применения — патентный анализ, где количество заявок и выданных свидетельств о правах интеллектуальной собственности растёт бешеными темпами. И тому подобное.
Д. З. Очевидно, что следующий шаг вхождения таких технологий в жизнь — диалог с клиентом в семантических терминах. А для этого нужна публичная поисковая система. Вы хотите двигаться в этом направлении?
Д. Я. Мы всегда развивали ABBYY как технологическую компанию — больше были ориентированы на предоставление рынку базовых платформ, которые уже наши партнёры «упаковывали» бы в конкретные продукты. Такая стратегия открывает перед бизнесом огромные возможности масштабирования. Да, конечно, у нас есть свои продукты, но если появляется кто-то, кто хочет сделать конкурентные решения на основе наших технологий, — мы, скорее всего, «подвинемся». Это модель во многом схожа с тем, как работают дистрибьюторы: ведь вендор не выходит на один рынок со своими реселлерами…
Пока от партнерской модели из лидеров рынка отказывается разве что Apple: на данном этапе компания преуспела, но я думаю, что это временно. Если в ближайшие 5–10 лет Apple не станет технологически открытой корпорацией — она просто не сможет сдержать натиск Google, Samsung и Microsoft.
Д. З. Apple сейчас начинает лицензировать технологию Apple AirPlay: разве это не первый шаг к открытости? И, вообще говоря, может быть, модель Apple верна? Ведь Open innovation приводит к тому, что новые технологии начинают «допиливать» множество разработчиков — которые не чувствуют давления со стороны стандарта. В итоге на выходе (и это сейчас видно в ситуации c Android-приложениями) — масса плохих реализаций одной хорошей технологии.
Д. Я. Чтобы уйти от конкретных имен игроков рынка, я скажу, что истина, как всегда, посередине. Это как антагонизм демократического и тоталитарного политических режимов. Закрытый подход Apple очень похож на победу тоталитарного коммунизма в Сингапуре: премьер-министр Сингапура Ли Куан Ю доказал всем, что жесткими авторитарными методами можно вывести нищую страну без природных ресурсов из руин, избавиться от наркомафии и коррупции. Но я не уверен, что такое политическое устройство может быть успешным на очень долгое время. Весь мир ведь понимает, что если сейчас власти Сингапура не переведут страну к одной из форм управляемой демократии – государство может рухнуть.
На другом полюсе — естественное развитие рынка, «дикий» капитализм, где демократические инструменты развиваются стихийно. В каких-то странах это работает, в каких-то народ голосует за популистские реформы, что приводит к бегству капитала и сильных управленцев (почитайте недавнюю историю дефолта города Детройта, а также историю про кризис на юге Европы). Уверен, что истина, как и везде, — в противостоянии этих явлений. Экосистема Apple должна грамотно становиться более открытой, экосистема Android должна грамотно становиться более закрытой.
Еще пример. Цинь Шихуан-ди, китайский император III века до н.э., объединил отдельные провинции Китая, дал отпор кочевникам, построил Великую Китайскую стену и фактически создал единое государство Китая. Но одновременно он казнил тысячи людей, сжёг все книги в государстве, потому что считал: если в них написано то, о чём говорит он сам, — они не нужны, а если они противоречат тому, о чём говорит он, то не нужны тем более. Считать ли Цинь Шихуан-ди (или Ивана Грозного, с которым проводят параллели) однозначно положительными героями мировой истории? Вопрос чрезвычайно сложный. Они создавали великие государства, но убивали миллионы. Слава богу, что «технологические тираны» и «технологические религиозные лидеры», к которым можно отнести Джобса, никого не убивали. И в этом смысле я уверен, что появление Apple и Стива Джобса — огромное счастье для человечества, хотя я сам не причисляю себя к фанатикам Apple. Великие технологические лидеры действительно умеют мобилизовать все доступные ресурсы и «зажечь» своими идеями людей, пусть и навязав им фантастичный миф, — и это, несомненно, приводит к качественному скачку в развитии общества.