целого.
Ярким примером того, как статистика помогает выявлению системных отношений в языке на всех его уровнях, начиная с определения инвентаря единиц самого нижнего уровня и кончая установлением грамматики языка (морфологии и синтаксиса), является применение статистических методов при дешифровке неизвестных текстов [12]. Точкой опоры в данном случае служат количественные показатели, свойственные известным языковым системам, и данные, полученные в результате статистического исследования текстов на неизвестном языке. Общее число всех разных знаков и частоты появления новых знаков дают возможность установить систему письма, то есть набор исходных единиц языка. Каждая система письма имеет свои количественные характеристики: как правило, в алфавитном письме бывает до 30 знаков-букв; в системах письма, где знак соответствует слогу, насчитывается около 50 – 80 различных знаков. В иероглифическом письме их значительно больше – около 500. Письмо, в котором каждый знак обозначает отдельное слово, должно насчитывать несколько десятков или сотен тысяч знаков. Подсчет частоты повторения знаков и их сочетаний выявляет классы знаков. Например, при алфавитной системе письма для разделения на гласные – согласные применяется алгоритм Б.В. Сухотина, в основе которого лежит гипотеза о том, что в большинстве языков за гласной следует согласная, за согласной – гласная, а инструментом служит таблица частот двухбуквенных сочетаний [24, 7 – 9]. Грамматика дешифруемого языка строится на показателях частоты повторяемости знаков (букв, иероглифов) с привлечением позиционной статистики. В любом из известных нам языков мира присутствуют два вида морфем: корневые и грамматические, служебные. Среди самых частых знаков содержатся грамматические показатели, а среди редких – корневые морфемы. Поэтому предполагается, что редко встречаемые в дешифруемых текстах знаки обозначают неизвестные корни или основы, а знаки, которые находятся в их окружении и имеют относительно большую частоту, принадлежат к классу грамматических показателей. Позиция их по отношению к корневым определяет морфологическую структуру языка. Если грамматические знаки стоят перед корневыми, то они образуют класс префиксов или предлогов. Грамматические знаки, стоящие после корневых морфем, принадлежат к классу суффиксов или флексий. Возможно и вклинивание грамматических знаков в корневые, тогда они принадлежат к инфиксам.
Грамматические знаки сочетаются не только с корневыми, но и друг с другом. Определив, каким образом тот или иной грамматический знак сочетается с другими грамматическими знаками, можно выявить и синтаксис языка.
Системный подход к изучению языка позволяет выделить определенные наборы элементов языка, которые связаны системными отношениями и образуют определенные субсистемы, представляющие собой часть соответствующего уровня языка [11]. Так, при исследовании лексического уровня русского языка Э.Ф. Скороходько в отдельную субсистему выделяет терминологию [23]. В данном случае для нас представляет интерес способ установления связей и определение степени связности терминов в пределах выделенной субсистемы. Исследователь раскрывает качественные характеристики терминологии через установление количественных отношений между единицами субсистемы. Системность терминологии, по мнению автора, предполагает системность плана содержания, то есть системность семантического наполнения терминологии; системность плана выражения, то есть системность словесного наполнения терминологии, и системность соответствия плана выражения плану содержания.
Значения терминов соотносятся с соответствующими единицами действительности, взаимосвязанными между собой. Отсюда, значения лексических единиц тоже взаимосвязаны. Среди связей каждого предмета есть такие, которые однозначно выделяют данный предмет. Фиксируются эти связи в словарных статьях (определениях) толковых или терминологических словарей как отношения между значениями слов – семемами. Совокупность семем и существующих между ними отношений образует семантическую сеть языка. В качестве одного из признаков лексической системы языка, в частности ее терминологической субсистемы, может быть выбран показатель степени взаимосвязи между значениями ее единиц, определять который Э.Ф. Скороходько предлагает на основе соотношения количества семантически связанных пар терминов, то есть таких, значения которых, отраженные в определениях, прямо или опосредствованно производны от одного и того же значения (от одной и той же семемы), и общего числа терминов в системе. Сила семантической взаимосвязи терминов определяется длиной цепочки семем, связывающих в семантической сети сопоставляемые термины с общим компонентом в их значении. Указанные параметры, вычисленные для различных терминологических субсистем, могут свидетельствовать о степени однородности выбранных субсистем. Например, низкий показатель семантической связанности терминов означает или то, что система внутренне разнородна, то есть в нее включены термины других областей, или то, что при определении некоторых из ее терминов не отображены существенные связи внеязыковой действительности. Эти же показатели являются количественными характеристиками отличия любой терминологической субсистемы от общеупотребительной лексики. (В системе общеупотребительной лексики они будут значительно ниже.)
Метод установления смысловых связей слов на основе статистических показателей совместной встречаемости их в тексте, разработанный А.Я. Шайкевичем [27], оказался эффективным способом построения автоматических тезаурусов [10]. По этой методике семантическая связь слов (в тезаурусе такие слова объединяются в один класс) выводится на основе наблюдения их совместной встречаемости в текстах без обращения к значению этих слов. Для анализируемых слов вычисляется абсолютная частота их в тексте и относительная в заданном интервале, при этом фиксируются все слова, встретившиеся с анализируемыми. По формуле x = np вычисляется ожидаемая встречаемость этих же встретившихся слов в том же интервале (n – число случаев появления в тексте слов, которые встретились с заданными; p – вероятность встречаемости анализируемых слов в выбранном интервале). Сравнение наблюдаемой и ожидаемой встречаемости слов выявляет существенные между ними расхождения, настолько значительные, что считать их случайными некорректно, и поэтому может быть сделан вывод о наличии между данными словами определенной семантической связи. Чем больше величина указанных расхождений, тем теснее связь между словами. Содержательная интерпретация связей показала, что в большинстве случаев это смысловые связи.
Кэмбриджская группа, работающая над автоматизацией информационного поиска, применив подобную методику для выявления связей слов, предложила вычислять коэффициент интенсивности (Aab) связи между словами a и b как отношение частоты (f) совместной встречаемости слов в заданном интервале (f(ab)) и частоты контекстов, в которых присутствует хотя бы одно из этих слов:
Aab = f(ab) / (fa + fb – fab).
Изменение длины интервалов показало, что выявление формально определяемой связи зависит от величины интервала, в котором исследуется совместная встречаемость слов. Во всех интервалах обнаруживаются связи однокорневых слов с различными словоизменительными и словообразовательными показателями. Полученные с помощью описанного статистического анализа классы слов в большинстве случаев соответствуют логико-интуитивному представлению исследователя о семантической связи слов в пределах этих классов. Следовательно, количественные методы вполне правомерно применимы при выявлении формальным путем различных типов отношений на лексическом и грамматическом уровнях языка.
До сих пор речь шла об исследованиях с помощью статистических методов системных отношений или в пределах определенных уровней языка или межуровневых связей, то есть о тех случаях анализа, когда исследователь не выходит за рамки одного языка. Описание же любого объекта как