Главная страница
Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей
qrcode

Методическое пособие по курсу Основы математической лингвистики


Скачать 418.5 Kb.
НазваниеМетодическое пособие по курсу Основы математической лингвистики
АнкорMetodichka po osnovam matematicheskoy lingvistiki.doc
Дата03.10.2017
Размер418.5 Kb.
Формат файлаdoc
Имя файлаMetodichka_po_osnovam_matematicheskoy_lingvistiki.doc
ТипМетодическое пособие
#24763
страница3 из 3
КаталогОбразовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей
Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей
1   2   3

4. Отображения.

Пусть дано отображение из множества U во множествоV, A: UV. Образом отображения называется его область значений: ImA =. Рангом отображения называется размерность его образа: r(A) = dim (ImA). Ядром отображения Aназывается полный прообраз нулевого подпространства: KerA =. Дефектом линейного отображения называется размерность его ядра: d (A) = dim (kerA). Инвариантом называется множество элементов, не меняющихся при отображении, InvA =. Отображение, все элементы которого являются инвариантами, называется тождественным.

Отображение UV называется инъективным, если различным элементам из U соответствуют различные элементы в V. Отображение UV называется сюръективным, если каждый элемент из Vсоответствует какому-то элементу из U. Отображение UV называется биективным, если оно является и сюръективным, и инъективным. Размерностью конечных множеств является число их элементов.
Графиком отображения A: UV называется множество GrA=.
Если отображение A: UV является биективным, то существует обратное отображение A-1: VU.
Во многих лингвистических задачах (например, переводе фразы) встречается композиция нескольких отображений. Эти отображения связывают между собой различные языковые уровни: фонетический, лексический и грамматический (в котором можно выделить морфологический, синтаксический и словообразовательный подуровни), а также графический. Если в таком процессе участвует несколько языков, то уровни каждого языка следует учитывать отдельно.

Пример 1. Английское слово though транскрибируется как

[ðou]. Найти образ, ранг, дефект, ядро, инвариант и график отображения (слово → транскрипция). Проверить его инъективность и сюръективность.
Запишем отображение в развёрнутом виде: tð, h ð, oo, uu, g Ø, hØ, Ø означает нулевой элемент. Образом является транскрипция {ð, o, u}, ранг отображения равен количеству букв образа: r(A) = 3, ядро составляет множество нечитаемых букв {g, h}, а дефект – количеству букв ядра: d(A) = 2. Инвариантом является множество букв, сохраняющих своё чтение: InvA = {o, u}. Графиком отображения являются пары: tð, h ð, o o, u u, g Ø, h Ø. Отображение не является инъективным (а, значит, и биективным), так как два элемента t и h отображается в один элемент ð. А сюръективность выполняется, так как каждой букве транскрипции соответствует хотя бы одна из букв слова.
Пример 2. Дано задание: “Транслитерировать и транскрибировать латиницей слово с языка хинди: हैं ” Установить структуру отображения уровней этого задания.
При транслитерации слов один графический уровень отображается в другой графический уровень, а при транскрипции – в фонетический уровень. Поэтому это отображение является биграфо-фонетическим.
Пример 3. Дано задание: “Перевести письменно фразу İki saat sonra dönerim с турецкого языка на русский и французский языки”. Установить структуру отображения уровней этого задания.
Перевод фразы является задачей лексико-грамматической, причём учитывается количество языков. Поскольку перевод является письменным, то добавляются и два графических уровня (кириллица – для русского языка, латиница – для турецкого и французского языка). Значит, отображение является трилексико-триграмматическо-биграфическим.


Примеры для самостоятельного решения.

4.1. Румынское слово floare “цветок” родственно французскому слову fleur с тем же значением. Найти ядро, дефект и инвариант отображения.

4.2. Название верховного божества зороастризма на древнеперсидском языке звучит как Ahuramazdā, а на современном персидском как Ormozd.Найти образ, ранг, ядро и дефектфонетическогоотображения (древний язык → современный язык).

4.3. На японском языке название города Сыктывкар звучит как Сикутифукару. Найти инварианты отображения (русский язык → японский язык) и проверить его сюръективность.

4.4. Ассирийское слово lvaša “одевать” родственно арабскому слову labisa с тем же значением. Найти ядро, дефект и инвариант отображения (ассирийский язык → арабский язык).

4.5. На двух родственных языках дано по три слова с одинаковым значением (“6”, “7” и “9”): tis‘, ševa, sitt, šeš, teša, sib(‘ – гортанный смычный звонкий согласный). Разбить слова на два языка, построить между ними

фонетическое отображение, проверить его сюръективность и инъективность.

4.6. Придумать отображение, инвариант которого совпадает с образом, а дефект равен 2.

4.7. Придумать слово, отображение написания которого из древнерусского языка в современный русский язык является тождественным.

4.8. Придумать слово, отображение звучания которого из иврита в русский язык является тождественным.

4.9. Придумать французское слово, латинская транскрипция которого является тождественным отображением.

4.10. Отображением является замена долгих гласных ā, ī, ū их краткими коррелятами. Определить график отображения.

4.11. Определить вид графика отображения “перевод” на множестве двух языков.

4.12. Отображение сопоставляет каждому из 6 существительных 8 прилагательных. Сколько элементов содержит график отображения?

4.13. Отображениями являются транскрипция и транслитерация французского слова “dimanche”. Определить, существуют ли для них обратные отображения.

4.14. Отображением является “присоединение графемы слева”. В каком случае обратное и исходное отображения совпадут?

4.15. Может ли быть так, что d(A) = d(A-1)?

4.16. Дано задание: “Найти соответствия между древним и современным написанием китайских иероглифов для “воды”, “огня”, “солнца” и “луны””. Установить структуру отображения уровней этого задания.

4.17. Дано задание: “Сравнить образование императива в тагальском и кхмерском языке”. Установить структуру отображения уровней этого задания.

4.18. Дано задание: “Перевести устно слова с языка телугу:

gāli, tūrpu, vāramu на все современные восточнославянские языки”. Установить структуру отображения уровней этого задания.

4.19. Дано задание: “Исследовать фонетические изменения при сравнении глагольных основ тибетского глагола “делать”: наст. byed, прош. byas, повел. byos”. Установить структуру отображения уровней этого задания.

4.20. Дано задание: “Сравнить передачу гласных звуков при написании открытого слога в сингальском и эфиопском письме”. Установить структуру отображения уровней этого задания.

4.21. Дано задание: “Перевести письменно фразу “Я тебя люблю” с русского языка на любые девять языков, два из которых пользуются кириллицей, два – латиницей, а остальные – различными оригинальными письменностями”. Установить структуру отображения уровней этого задания.

4.22. Придумать задание, содержащее тетралексическо-фонетическо-биграфическое отображение.

5. Бинарные отношения и разбиения.

Отношение, связывающее между собой два любых элемента, называется бинарным.

Бинарное отношение P на множестве A называется рефлексивным, если .

Отношение P называется иррефлексивным, если .

Отношение P называется симметричным, если .

Отношение P называется антисимметричным, если .

Отношение P называется транзитивным, если

.

Отношение, являющееся рефлексивным, симметричным и транзитивным, называется эквивалентным.
Слова xi любой фразы A можно различным образом разбить на непересекающиеся классы с помощью некоторого разбиения B. Например, слова могут разбиваться на классы по частям речи: класс существительных (S), класс прилагательных (A), класс предлогов (Pr), класс глаголов (V) и класс остальных слов (Z) (назовём это неполное разбиение “пятичленным”). Тогда каждой фразе A = x1 x2xn может быть сопоставлена цепочка классов данного разбиения B (x1) B (x2) … B (xn), называемая B-структурой фразы, обозначаемой B (A).

Словаxi принадлежат одному классу эквивалентности при условии полного совпадения их грамматических категорий. Множество слов можно разбить на ряд непересекающихся классов эквивалентности, называемых семействами (S). Каждому слово соответствует одно такое семейство, а каждой фразе – последовательность таких семейств S (x1) S (x2) … S (xn), называемая S-структурой фразы, обозначаемой S (A).

Фраза, потенциально возможная для данного языка, называется отмеченной фразой данного языка. B-структура фразы называется отмеченной, если хотя бы одна фраза, ей соответствующая, является отмеченной.

Пример 1. Исследовать свойства бинарного отношения “антонимия”.
Не все слова являются антонимами самих себя – значит, отношение не рефлексивно. Более того, таких слов и вовсе нет – значит, отношение иррефлексивно. Если слово A антонимично слову B, то и слово B антонимично слову A, поэтому отношение симметрично. Но из этой антонимии не следует, что слова A и B совпадают, поэтому отношение не является антисимметричным. Если A антонимично B, а B антонимично C, то A не антонимично C, поэтому отношение не транзитивно.
Пример 2. Исследовать бинарное отношение сочетаемости букв румынского языка t, ş, u.
В исконных румынских словах согласные и гласные не удваиваются. Значит, бинарное отношение не является рефлексивным и является иррефлексивным. Отношение не является симметричным, так как сочетание şt встречается, а tş – нет. Отношение не является антисимметричным, так как из наличия сочетаний şu, uş не следует тождество букв ş и u. Отношение не является транзитивным, так как сочетания tu и uş не обеспечивают наличие сочетания tş.
Пример 3. Пусть разбиение слова на классы происходит по числу его слогов, B (xi)= s (xi), s – количество слогов. Тогда B-структура фразы “Она стоит на далёком берегу”: 22133.
Пример 4. B-структура “пятичленного разбиения” фразы “Любуюсь прекрасным цветком в саду”: V A S Pr S.
Пример 5. Придумать примеры из S-структуры фразы: “Утром Миша ест творог”.
При замене слов нужно помнить о полном сохранении их грамматической формы. Слово утром можно заменить на слово днём, вечером, ночью и т.д. Миша – на Никита, любовник, маляр и т.д. Ест можно заменить на пьёт, курит, но не на танцевал, кричат, так как тогда меняется число или время глагола. Творог можно заменить на сыр или виноград, но не на вино или хурму, так как тогда меняется род существительного. Поэтому можно привести следующие примеры S-структуры: “Вечером Ахмед пьёт айран”, “Летом сантехник чинит кран”, “Зимой жених приносит букет”.

Примеры для самостоятельного решения.

5.1. Проверить эквивалентность бинарного отношения “синонимия”.

5.2. Проверить эквивалентность бинарного отношения “синтаксическая однородность”.

5.3. Проверить эквивалентность бинарного отношения “рифма”.

5.4. Исследовать свойства бинарного отношения “изафет (поссесивно-атрибутивная конструкция)” для персидского языка, где маркировано вершинное слово: AEz. B.

5.5. Исследовать свойства бинарного отношения “конверсивность”.

5.6. Исследовать свойства бинарного отношения “являться праформой слова”.

5.7. Исследовать свойства бинарного отношения “конкатенация” для языка, допускающего образование без интерфиксов сложных слов, состоящих из нескольких корней, иногда совпадающих друг с другом.

5.8. Исследовать свойства бинарного отношения “быть собеседником” для пьесы, в которой все персонажи встречаются в одной из сцен, а монологи отсутствуют.

5.9. Среди 28 основных графем арабского письма существует 6 графем, не соединяющихся с последующей графемой. Исследовать свойства бинарного отношения “соединение с соседней графемой” для арабского письма.

5.10. Исследовать бинарное отношение сочетаемости букв русского языка с, н, д.

5.11. Определить, сколько разделов потребуется для составления трёхъязычного словаря, в котором бинарное отношение “перевод” на множестве языков было бы симметричным и транзитивным.

5.12. Придумать фразу на русском языке, отвечающую B-структуре “пятичленного разбиения”: Pr A S Z V Pr A S.

5.13. Придумать фразу на английском языке, отвечающую B-структуре “пятичленного разбиения”: Z S Z V Pr.

5.14. Придумать B-структуру “пятичленного разбиения” шестисловной фразы на арабском языке, зная, что порядок слов – VSO, а определение стоит после определяемого.

5.15. Дополнить “пятичленное разбиение” на части речи до “десятичленного” и придумать фразу на русском языке, содержащую все элементы нового разбиения.

5.16. Определить разбиение слов по места ударения, взяв в качестве элемента B-структуры номер ударного слога, и привести пример, отвечающий B-структуре 33143.

5.17. Определить разбиение слов русского языка по их этимологии, выделив три класса (исконно славянские слова, заимствования из западных языков и заимствования из восточных языков) и придумать фразу, содержащую не менее двух элементов из каждого из этих классов.

5.18. Придумать примеры из S-структуры фразы: “Студенты сбежали с занятия, не предупредив преподавателя”.

5.19. Придумать примеры из S-структуры фразы: “Даша отсела от назойливого пассажира, заглядывающего в её книгу”.

5.20. Придумать строфу, эквивалентную по метрике каждой строки и схеме рифмовки:

“Старый Город окутала тьма,

Огоньки осветили дома,

По ступенькам отвесной скалы

Вверх крадутся два смелых кота”.
5.21. Придумать на любом языке строфу, эквивалентную по числу строк и слогов в каждой из них японскому хайку:
“Kanashisa ya

Tsuri no ito fuku

Aki no kaze”.

6. Метрика.

Для любых элементов x и y множества A можно ввести неотрицательную функцию d(x, y), называемую метрикой и обладающую следующими свойствами:

для d(x, y) = 0 тогда и только тогда, когда x = y (“аксиома тождества”),

для d(x, y) = d(y, x) (“аксиома симметрии”),

для d(x, z) ≤ d(x, y) + d(y, z) (“аксиома треугольника”).
Для вычисления расстояния между словами (как множествами букв) используются три метрики: Хемминга, Левенштейна и Дамерау – Левенштейна. Расстояние Хемминга dHопределяется как число несовпадающих компонентов любых объектов одинаковой размерности. Расстояние Левенштейна dL определяется как число несовпадающих компонентов любых объектов произвольной размерности. Расстояние Дамерау – Левенштейна dDL определяется как число несовпадающих компонентов любых объектов произвольной размерности, допускающих перестановку.
Во всех приведённых выше определениях под компонентами имеются в виду буквы, а размерность означает длину слова. Расстояние Хемминга позволяет заменять одни буквы на другие для слов одинаковой длины. Расстояние Левенштейна позволяет не только заменять буквы, но и вставлять или исключать буквы. Расстояние Дамерау-Левенштейна позволяет, помимо перечисленных выше операций, менять буквы местами, хорошо описывая метатезу, а также ошибки при описках и опечатках. Для слов одинаковой длины все эти расстояния совпадают. Если расстояния между словами невелики, они могут быть родственными, хотя даже при нулевом расстоянии слова иногда оказываются омонимами!
Для вычисления синхронического генетического расстояния между родственными языками можно предложить следующую метрику. Введём обозначения: F – языковая семья, G – языковая группа, SG – языковая подгруппа. Тогда генетическое расстояние dG между языками A и B можно определить так:

Это расстояние названо синхроническим, так как генеалогическое древо языков может изменяться со временем. Кроме того, один язык может породить целую группу, включающую подгруппы. Поэтому генетическое расстояние имеет смысл для испанского и каталанского языков, но не для испанского языка и латыни.

В случае неясного статуса языка внутри одного из генетических образований расстояние считается максимальным. Например, авестийский язык, принадлежа к иранской группе, не включается ни в одну из двух её подгрупп – западную или восточную. Поэтому расстояние от авестийского до любого древнеиранского языка будем считать равным 2.

Для языков из макросемей расстояние будет больше 3, а для сторонников теории моногенеза генетическое расстояние может достигать больших, но конечных значений. Генетическое расстояние можно ввести и для диалектов, сдвинув на 1 всю “шкалу”: расстояние между разными диалектами будет равно 1, между разными языками одной подгруппы – 2 и т.д.
Кроме того, между языками можно ввести и функциональное расстояние dF. Если один язык оказывает на другой язык значительно влияние, выражающееся в лексическом, грамматическом или социолингвистическом аспектах, то будем считать, что между этими языками существует функциональная связь. Эта связь может быть как односторонней, так и двухсторонней. Наличие функциональной связи обозначим чёрточкой: например, “узбекский язык – русский язык”. Для всех языков мира можно составить функциональный граф, вершинами которого являются языки, а рёбра соответствуют функциональным связям. Тогда функциональное расстояние между языками можно определить как длину минимального пути в функциональном графе. Если же такого пути не существует, то будем считать, что dF не определено. А между одинаковыми языками будем полагать dF равным 0. Помимо функционального расстояния, можно ввести понятие функциональной степени языка mF – числа ребёр, инцидентных языковой вершине. Связи между языками меняются, поэтому со временем dF и mF могут изменяться. Во всех примерах по умолчанию имеются в виду функциональные связи, действующие в настоящее время.

Пример 1. Найти расстояния Хемминга, Левенштейна и Дамерау-Левенштейна между словами frahang (“культура”, среднеперсидский) и farhang (“культура; словарь”, совр. персидский).
У этих слов не совпадают только вторая и третья буквы. Для вычисления расстояний Хемминга и Левенштейна требуется две операции замены: a → r, r → a. А расстояние Дамерау-Левенштейна базируется на одной замене: a ↔ r.

Поэтому получается: dH (frahang, farhang) = dL (frahang, farhang) = 2, dDL (frahang, farhang) = 1.
Пример 2. Пользователь в спешке набрал сообщение: “Сгодняпрйти не супею, лавай совзонимся звтра”. Найти расстояния Левенштейна и Дамерау-Левенштейна и от набранного им текста до его правильной версии.
В первом, втором и последнем словах пропущена одна буква, между первыми двумя словами отсутствует пробел, в пятом слове одна буква написана неверно: оба расстояния равны 4. В четвёртом и предпоследнем словах буквы один раз поменяны местами, каждая замена местами равна 1 для dDL и 2 для dL (например, супею упею успею). Поэтому dDL = 7, dL = 9.
Пример 3. Найти генетическое расстояние между латышским и непальским языком.
Латышский язык относится к балтийской группе языков, а непальский – к индоарийской группе языков. Обе эти группы относятся к индоевропейской семье языков. Поэтому d G (латышский язык, непальский язык) = 3.
Пример 4. Найти функциональное расстояние между татарским и нивхским языком.
Эти языки не оказывают друг на друга никакого влияния, но на оба этих языка значительно влияние оказывает русский язык. Поэтому образуется функциональная цепочка: “татарский язык – русский язык – нивхский язык”. Значит, d F (татарский язык, нивхский язык) = 2.
Пример 5. Найти функциональную степень ненецкого языка.
Поскольку на ненецкий язык существенное влияние оказывает только русский язык, m F (ненецкий язык) = 1.
Примеры для самостоятельного решения.
6.1. Проверить “аксиому треугольника” для расстояния Хемминга применительно к словам “слово”, “слава” и “олива”.

6.2. Придумать четыре родственных слова русского языка, расстояние Хемминга между любыми парами которых равно 1.

6.3. Придумать пять пар родственных слов русского языка, расстояние Левенштейна которых от корней больше 6.

6.4. В процессе диахронии слово потеряло однобуквенный префикс, двухбуквенный суффикс, и в нём произошла метатеза. Найти расстояние Левенштейна-Дамерау между двумя формами слов.

6.5. Придумать четыре слова, рифмующихся со словом “бродить”, расстояние Хемминга от которых до этого слова одинаково.

6.6. Придумать слова английского языка, расстояние Левенштейна между написанием и транскрипцией которых отличается не менее, чем на 3.

6.7. Придумать английский глагол, все расстояния Хемминга между тремя формами которого равно 1.

6.8. Секретарша печатает бумагу, где в разных падежах трижды упоминается фамилия Крошечкин, дважды фамилии Богославская и Затямина. Фамилию Крошечкин она печатает как Кошечкин, Богославская как Богословская, а Затямина как Замятина. Найти расстояние Дамерау-Левенштейна от правильного текста, если другие ошибки при печатании исключаются.

6.9. Найти генетическое расстояние между армянским и исландским языком.

6.10. Найти генетическое расстояние между японским и монгольским языком.

6.11. Найти генетическое расстояние между берберским и мальтийским языком.

6.12. Привести пример трёх языков, все генетические расстояния между которыми равны 3.

6.13. Найти генетическое расстояние между грузинским и эстонским языком в рамках ностратической гипотезы.

6.14. Найти генетическое расстояние между абхазским и бирманским языком в рамках сино-кавказской гипотезы.

6.15. Найти функциональное расстояние между персидским и арабским языком.

6.16. Найти функциональное расстояние между маратхи и китайским языком.

6.17. Привести пример языков, функциональное расстояние между которыми в 19 и 20 веке различается.

6.18. Найти функциональную степень эстонского языка.

6.19. Привести пример трёх языков одного региона, обладающих разной функциональной степенью.

6.20. Привести исторический пример языка с нулевой функциональной степенью.

6.21. Определить понятие функциональной степени для искусственных языков и вычислить её для языка эсперанто.




1   2   3

перейти в каталог файлов

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей

Образовательный портал Как узнать результаты егэ Стихи про летний лагерь 3агадки для детей