Перейти к основному содержанию
  • Главная
  • Институт
    • Об Институте
    • Новости и анонсы
    • История Института
      • Воспоминания
      • Хроника
      • «Генеалогическое древо»
      • Адреса Института
      • Директора Института
      • История подразделений
      • Видеоматериалы
      • Исторические фотоальбомы
      • Значимые публикации прошлого
      • Исторические документы
      • Сотрудники-участники ВОВ
    • Администрация
    • Учёный совет
    • Диссертационные советы
      • График защит диссертаций
      • Прошедшие защиты
      • Авторефераты
      • Диссертации
      • Документы к защите
      • Подготовка внешних отзывов
    • Национальный проект «Наука и университеты»
    • Профсоюз
    • Совет молодых учёных
    • Конкурсы
    • СМИ об Институте
    • Фотоальбомы
    • Видео
    • Контакты
  • Научная деятельность
    • Научные подразделения
      • Отдел африканских языков
      • Отдел индоевропейских языков
        • Сектор анатолийских и кельтских языков
        • Сектор германских языков
        • Сектор иранских языков
        • Сектор романских языков
      • Лаборатория исследования и сохранения малых языков
      • Отдел кавказских языков
      • Сектор общей компаративистики
      • Лаборатория мультиканальной коммуникации
      • Научно-исследовательский центр по национально-языковым отношениям
      • Научный центр по сохранению, возрождению и документации языков России
      • Отдел прикладной лингвистики
      • Отдел теоретической лингвистики
      • Отдел теории и практики коммуникации имени Ю. С. Степанова
      • Отдел типологии и ареальной лингвистики
        • Сектор типологии
        • Сектор ареальной лингвистики
      • Отдел урало-алтайских языков
        • Группа финно-угорских языков
      • Отдел экспериментальных исследований речи
      • Отдел языков Восточной и Юго-Восточной Азии
    • Научные сотрудники
    • Конференции, семинары, защиты диссертаций
      • Календарь
      • Анонсы конференций
      • Лингвистический форум
        • Лингвистический форум 2023
        • Лингвистический форум 2022
        • Лингвистический форум 2021
        • Лингвистический форум 2020
        • Лингвистический форум 2019
      • Семинары
      • Дискуссионно-аналитический клуб по языковой политике
      • Защиты диссертаций
        • График защит
        • Прошедшие защиты
        • Авторефераты
        • Диссертации
      • Прошедшие мероприятия
        • Конференции (2019–)
        • Архив конференций (2010–2018 гг.)
        • Заседания семинаров
    • Проекты по грантам
    • Популяризация науки
      • Публикации в СМИ
      • Видео
      • Блог
    • Публикации
      • Публикации Института
      • Журнал «Вопросы психолингвистики»
      • Журнал «Урало-алтайские исследования»
      • Журнал «Родной язык»
      • Журнал «Российская тюркология»
      • Научный журнал «Социолингвистика»
      • Журнал «Language in Africa»
      • Журнал «Лингвистика и методика преподавания иностранных языков»
    • Научное сотрудничество
  • Языки России
    • Список языков России
    • Программа сохранения языков России
    • Концепция языковой политики
    • Дискуссионно-аналитический клуб по языковой политике
    • Малые языки России
  • Образование
    • Аспирантура
      • Направленности подготовки
      • Списки и расписания
      • Для поступающих
      • Библиотечные системы
      • Нормативные документы Института
      • Государственные нормативные документы
    • Докторантура
    • Прикрепление для подготовки диссертации
    • Кафедра иностранных языков
  • Издательство
Главная

Mobile logo Russian

Доклад Алексея Касьяна на заседании кельто-анатолийского семинара 26 ноября

вт, 12.11.2013 - 11:33 ( admin )
семинары
классификация языков
кельто-анатолийский семинар
популяризация науки

26 ноября в 13.00 состоится очередное заседание кельто-анатолийского семинара при секторе анатолийских и кельтских языков Института языкознания РАН (руководитель семинара — к.ф.н. А. В. Сидельцев). С докладом «Опыт применения биологических методов к генеалогической классификации языков. Успех или неудача?» выступит Алексей Касьян (Институт языкознания РАН / РГГУ, Москва).

Место проведения семинара: Институт языкознания РАН, Б. Кисловский пер., д.1, конференц-зал (2 этаж). Приглашаются все желающие. 
 

Аннотация

В докладе будут рассмотрены основные филогенетические методы, применяемые к генеалогической классификации языков. Методы делятся на два класса.

1) Дистантные (distance-based). Напр., метод ближайших соседей (NJ = Neighbor joining) и метод попарного внутригруппового невзвешенного среднего (UPGMA = Unweighted Pairwise Group Method with Arithmetic-mean). Дистантные методы анализируют таблицу расстояний между таксонами, различаясь алгоритмами кластеризации таксонов. Это относительно простые в реализации математические процедуры, благодаря чему дистантные методы чрезвычайно широко применяются в филогении.

2) Дискретные или символьные (character-based). Напр., метод максимальной бережливости (MP = Maximum Parsimony) и метод Монте Карло с цепями Маркова в рамках байесовского подхода к вероятностям (MCMC = Markov Chain Monte Carlo). Принцип метода максимальной бережливости заключается в презумпции минимального количества эволюционных событий, т.е. изменение конкретных признаков. Иными словами, из множества всех возможных деревьев выбирается то, которое требует минимального числа изменений при переходе от предполагаемого предкового состояния к наблюдаемому. Концепция метода Монте Карло с цепями Маркова предполагает оценку вероятности получить наблюдаемое дерево. Для это порождается огромное число случайных деревьев. Если эта случайная выборка будет достаточно большая (миллионы деревьев), то она должна быть по своей структуре совпадать со всем множеством деревьев. Таким образом, в нашей выборке процент деревьев, идентичных наблюдаемому, дает нам вероятность получить наблюдаемое дерево.

Входным материалом могут служить многозначные или бинарные матрицы, т.е. двумерные таблицы, где каждый таксон (язык) охарактеризован по всему набору признаков. Бинарные матрицы содержат только бинарные признаки (с состояниями 0 или 1), а многозначные матрицы имеют хотя бы один многозначный признак. Признаки могут быть самыми разными: от лексических до культурно-антропологических.

В докладе будут продемонстрированы принципы работы основных математических алгоритмов и опыт применения их к индоевропейским, семитским и северокавказским языкам.

Особое внимание будет уделено сравнительным тестам алгоритмов. В биологии и, возможно, уже и в лингвистике преобладает мнение, что дискретные методы в целом выдают более адекватные деревья, чем дистантные методы. Пока данный тезис обосновывался или на искусственных лингвистических симуляциях, или на реальном языковом материале, но с не очень качественными входными данными. Тестирование филогенетических алгоритмов на высококачественной 110-словной базе данных по 20 языкам и диалектам лезгинской группы показывает иную картину: почти все методы выдают деревья, не имеющие принципиальных различий между собой и при этом совпадающие с общепризнанной классификацией, а главным аутсайдером оказывается метод максимальной бережливости.

Таким образом рассмотренные лезгинские данные подтверждают некоторые положения, составляющие идеологическую основу проекта «Глобальная лексикостатистическая база данных»:

1) при классификации языков лучше воздерживаться от использования грамматических (фонетических, морфологических, синтаксических) признаков;

2) точность филогенетического дерева зависит в первую очередь не от математического метода, а от степени очистки входных данных, иными словами не от труда компьютера, а от труда лингвиста, кропотливо анкетирующего индивидуальные диалекты по принятому списку признаков (хотя отдельные филогенетические методы, вроде максимальной бережливости, вызывают сомнения).

Также в докладе будет рассмотрен алгоритм автоматической этимологизации по расстояниям Левенштейна или консонантным классам. Интересным результатом лезгинского теста, основанным на фонетическом сходстве, оказывается, что дистантные методы более устойчивы к некачественным и грязным входным данным. А вот дискретные методы более нежны и чувствительны к различным возмущающим факторам.
 

Материалы

Презентацию доклада можно скачать по этой ссылке.

Доклад во многом опирается на статьи автора:

  • Русская версия: «К формальной генеалогической классификации лезгинских языков» 
  • Расширенная английская версия: “Towards a formal genealogical classification of the Lezgian languages”
 

Строка навигации

  1. Главная
  2. Доклад Алексея Касьяна на заседании кельто-анатолийского семинара 26 ноября
  • English
  • Русский

User account menu

  • Войти

Федеральное государственное бюджетное учреждение науки Институт языкознания Российской академии наук
125009, Москва, Большой Кисловский пер. 1 стр. 1 (карта)
Тел.: (495) 690-35-85
Тел./Факс: (495) 690-05-28
E-mail: iling@iling-ran.ru
ВКонтакте | Telegram | Twitter | YouTube | RSS
Страница контактов и карта проезда

© 2011–2022 Федеральное государственное бюджетное учреждение науки Институт языкознания Российской академии наук