Доклад Алексея Касьяна на заседании кельто-анатолийского семинара 26 ноября

26 ноября в 13.00 состоится очередное заседание кельто-анатолийского семинара при секторе анатолийских и кельтских языков Института языкознания РАН (руководитель семинара — к.ф.н. А. В. Сидельцев). С докладом «Опыт применения биологических методов к генеалогической классификации языков. Успех или неудача?» выступит Алексей Касьян (Институт языкознания РАН / РГГУ, Москва).

Место проведения семинара: Институт языкознания РАН, Б. Кисловский пер., д.1, конференц-зал (2 этаж). Приглашаются все желающие. 
 

Аннотация
 

В докладе будут рассмотрены основные филогенетические методы, применяемые к генеалогической классификации языков. Методы делятся на два класса.

1) Дистантные (distance-based). Напр., метод ближайших соседей (NJ = Neighbor joining) и метод попарного внутригруппового невзвешенного среднего (UPGMA = Unweighted Pairwise Group Method with Arithmetic-mean). Дистантные методы анализируют таблицу расстояний между таксонами, различаясь алгоритмами кластеризации таксонов. Это относительно простые в реализации математические процедуры, благодаря чему дистантные методы чрезвычайно широко применяются в филогении.

2) Дискретные или символьные (character-based). Напр., метод максимальной бережливости (MP = Maximum Parsimony) и метод Монте Карло с цепями Маркова в рамках байесовского подхода к вероятностям (MCMC = Markov Chain Monte Carlo). Принцип метода максимальной бережливости заключается в презумпции минимального количества эволюционных событий, т.е. изменение конкретных признаков. Иными словами, из множества всех возможных деревьев выбирается то, которое требует минимального числа изменений при переходе от предполагаемого предкового состояния к наблюдаемому. Концепция метода Монте Карло с цепями Маркова предполагает оценку вероятности получить наблюдаемое дерево. Для это порождается огромное число случайных деревьев. Если эта случайная выборка будет достаточно большая (миллионы деревьев), то она должна быть по своей структуре совпадать со всем множеством деревьев. Таким образом, в нашей выборке процент деревьев, идентичных наблюдаемому, дает нам вероятность получить наблюдаемое дерево.

Входным материалом могут служить многозначные или бинарные матрицы, т.е. двумерные таблицы, где каждый таксон (язык) охарактеризован по всему набору признаков. Бинарные матрицы содержат только бинарные признаки (с состояниями 0 или 1), а многозначные матрицы имеют хотя бы один многозначный признак. Признаки могут быть самыми разными: от лексических до культурно-антропологических.

В докладе будут продемонстрированы принципы работы основных математических алгоритмов и опыт применения их к индоевропейским, семитским и северокавказским языкам.

Особое внимание будет уделено сравнительным тестам алгоритмов. В биологии и, возможно, уже и в лингвистике преобладает мнение, что дискретные методы в целом выдают более адекватные деревья, чем дистантные методы. Пока данный тезис обосновывался или на искусственных лингвистических симуляциях, или на реальном языковом материале, но с не очень качественными входными данными. Тестирование филогенетических алгоритмов на высококачественной 110-словной базе данных по 20 языкам и диалектам лезгинской группы показывает иную картину: почти все методы выдают деревья, не имеющие принципиальных различий между собой и при этом совпадающие с общепризнанной классификацией, а главным аутсайдером оказывается метод максимальной бережливости.

Таким образом рассмотренные лезгинские данные подтверждают некоторые положения, составляющие идеологическую основу проекта «Глобальная лексикостатистическая база данных»:

1) при классификации языков лучше воздерживаться от использования грамматических (фонетических, морфологических, синтаксических) признаков;

2) точность филогенетического дерева зависит в первую очередь не от математического метода, а от степени очистки входных данных, иными словами не от труда компьютера, а от труда лингвиста, кропотливо анкетирующего индивидуальные диалекты по принятому списку признаков (хотя отдельные филогенетические методы, вроде максимальной бережливости, вызывают сомнения).

Также в докладе будет рассмотрен алгоритм автоматической этимологизации по расстояниям Левенштейна или консонантным классам. Интересным результатом лезгинского теста, основанным на фонетическом сходстве, оказывается, что дистантные методы более устойчивы к некачественным и грязным входным данным. А вот дискретные методы более нежны и чувствительны к различным возмущающим факторам.
 

Материалы
 

Презентацию доклада можно скачать по этой ссылке.

Доклад во многом опирается на статьи автора: