WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     || 2 |
-- [ Страница 1 ] --

В. Ф. Выдрин

Электронный глоссированный корпус текстов языка бамана: первый этап[1]

0. Введение

В предыдущих публикациях, посвящённых электронному корпусу бамана [Выдрин 2008а; Выдрин 2008б; Vydrine 2008], были высказаны предварительные соображения о необходимости и возможности создания такого корпуса, а также намечались пути решения некоторых конкретных трудностей, которые неизбежно должны были возникнуть в этой работе. Эти идеи стали предметом обсуждения на Второй Международной конференции по языкам манде (СПб, сентябрь 2008) и были поддержаны коллегами из разных стран; обсуждение было продолжено на VI6 Всемирном конгрессе по африканской лингвистике (Кёльн, август 2009). Осенью 2009 года в Петербурге была создана рабочая группа по разработке модели электронного корпуса текстов бамана, в которую, помимо автора, вошли лингвист-программист Кирилл Александрович Маслинский и специалисты по языкам манде Анна Владимировна Эрман и Артём Витальевич Давыдов. К систематической работе группа приступила в марте 2010 года (после окончания очередной зимней экспедиции российских лингвистов в Гвинею и Кот-д’Ивуар). В качестве метаязыка корпуса был выбран французский, который является официальными языком и основным языком образования в Мали.

В данной статье мы постараемся представить обзор конкретных проблем, решением которых занималась рабочая группа в течение полугода (с марта по сентябрь 2010 г.), и обоснования принятых решений.[2]

Общие соображения о значимости электронного корпуса текстов на языках манде были высказаны в уже упомянутых публикациях, что позволяет не излагать их здесь и сразу перейти к более техническим вопросам.

Напомним принцип действия всех программ автоматического анализа текста, предназначенных для создания языковых корпусов. Несколько упрощая ситуацию, можно сказать, что программное обеспечение состоит из «словарного» файла, а также из программы автоматического анализа (морфологического, синтаксического и др.), т. е. рабочего файла (или, скорее, совокупности файлов), содержащего в себе правила построения словоформ, их сочетаемости между собой и т. д.; «движок» связывает текстовый и словарный файлы. В словарный файл вносятся морфемы (или лексемы, или словоформы[3] ) описываемого языка; при каждой морфеме (или словоформе), в другом поле, даётся её эквивалент на метаязыке (который может совпадать с описываемым языком, – в таком случае мы получаем одноязычное глоссирование, – а может быть иным; в нашем случае метаязыком является французский). Для служебных слов и морфем, как правило, даётся условный эквивалент, в соответствии с принципами Лейпцигских правил глоссирования. В особом поле даётся частеречная помета.

Несколько упрощая картину, принцип автоматического анализа можно описать так. Когда даётся команда «анализировать текст», программа-«движок» находит в словарном файле каждую лексему и морфему, представленную в тексте (при этом она членит слова на морфемы), создаёт в текстовом файле строку «парсинга» (поморфемной разбивки) и подставляет к каждой морфеме исходной фразы её эквивалент на метаязыке. Если же морфема в словарном файле не обнаруживается, то программа сигнализирует об этом, предлагая лингвисту различные варианты выбора: создать новую карточку в словаре; отметить слово как иноязычное вкрапление; устранить орфографическую ошибку в тексте.

Организационные структуры всех трёх компонентов корпуса – программы-анализатора, словаря и проанализированного текста – тесно взаимосвязаны. Тем не менее, в целях удобства изложения, эти компоненты и связанные с ними проблемы будут рассмотрены раздельно.

1. Программа-анализатор (парсер)[4]

На предварительном этапе я склонялся к тому, что компьютерная программа Toolbox – наиболее подходящее средство для создания электронного корпуса текстов на языках манден [Выдрин 2008б]. Однако в ходе дальнейших обсуждений с коллегами и в рамках рабочей группы стало очевидно, что некоторые недостатки этого программного продукта создают труднопреодолимые препятствия в работе над большим корпусом, насчитывающим миллионы словоупотреблений. Назовём лишь три таких недостатка:

1) закрытый характер этой программы, т. е. недоступность её исходных текстов. Это делает невозможным для разработчиков корпуса вносить изменения в программу парсинга для устранения конструктивных дефектов (с которыми доводилось сталкиваться, по-видимому, всем пользователям Тулбокса), а также с целью её приспособления к особенностям конкретного языка;

2) невозможность парсинга без ручного снятия омонимии. Эта особенность Тулбокса автоматически сводит его функцию к созданию микро-корпусов и делает невозможной обработку больших массивов текстов;

3) отсутствие в Тулбоксе средств для обработки внеязыковых вкраплений в текст на анализируемом языке – таких как слова или фразы из других языков (французские вкрапления нередки в текстах на бамана; в мусульманской религиозной литературе могут встречаться неадаптированные арабские слова и т. п.) и окказионализмы.

В результате было принято решение о создании специальной программы-анализатора текста на бамана; разработкой этой программы занимается К. А. Маслинский, в режиме постоянных консультаций с остальными членами рабочей группы. В качестве языка программирования был избран Python, при этом рассматривается возможность перевода программы в дальнейшем на другой, более экономный язык.

На данном этапе речь идёт о разработке морфологического анализатора; разработка синтаксического анализатора текста на бамана – значительно более сложная задача, к решению которой предполагается перейти на более позднем этапе работы.

Для проверки работы парсера используется «пилотный корпус» разножанровых текстов на бамана, записанных в старой орфографии, объёмом в 102 тыс. слов (ок. 455 тыс. знаков). Этот файл был любезно предоставлен в наше распоряжение Жераром Дюместром.

В ходе разработки морфологического парсера были созданы следующие продукты:

1.1. Правила преобразования старой орфографии бамана в новую

Старая орфография основывалась на принципах, выработанных на совещании экспертов западноафриканских стран в Бамако в 1963 году и была официально принята в Мали в 1967 году. В 1986-1990 гг. она была замещена новой системой, основанной на африканской версии МФА. Эти две системы различаются в обозначении четырёх фонем (или шести, если учитывать вокалическую долготу):,, e, oo, ny, ng в старом написании соответствуют,,,,, в новом. Трудность представляют два диграфа, которые в старой орфографии не различали релевантные фонологические сущности: ny в серединной позиции в слове мог обозначать как носовой сонант //, так и сочетание носового гласного с последующим палатальным сонантом, /Vy/; ng в начале знаменательной морфемы обозначал как носовой сонант //, так и преназализованный велярный смычный /ng/. Эта неоднозначность не позволяет конвертировать тексты, имеющиеся в старой орфографии, путём простых автозамен. В то же время программа, предусматривающая обращение к словарю, решает эту проблему почти без остатка: в словаре Ш. Байоля обнаруживается только одна минимальная пара, демонстрирующая оппозицию // и /Vy/ – k ‘препятствовать; терпеть неудачу’ : kny ‘выравнивать’ (поскольку тоны ни в старой, ни в новой орфографии бамана на письме не обозначаются, следует учитывать и тоновые квазиомонимы: k 1. песок, k 2. лобок, k 3. воск).[5] Минимальных пар на оппозицию // : /ng/ в словаре нет.

1.2. Правила обозначения тонов на письме

В ныне действующей практической орфографии бамана тоны не обозначаются,[6] а в научных публикациях в этом отношении царит анархия: практически каждый автор придерживается своих собственных правил.

В создаваемом корпусе предполагается сплошное тонирование текстов (за исключением, разумеется, иноязычных вкраплений), поэтому весьма актуальным становится формулирование правил, по возможности экономных, но в то же время не допускающих утраты релевантной для языковой системы информации.

Некоторые идеи относительно принципов тональной нотации в корпусе текстов на бамана были высказаны в статье [Выдрин 2008а]. Не повторяя здесь всей аргументации, ограничимся изложением самих правил.

Предлагается использовать следующие тональные диакритики: акут – высокий тон, гравис – низкий тон, гачек – восходящий тон (последний используется редко, только в словах трёх маломестных миноритарных классов,[7] для восходящего тона перед высоким – но не перед низким; в последнем случае обходимся грависом, исходя из правила: «низкий перед низким реализуется как восходящий»).

В словах «стандартных» тональных классов обозначается только тон первого слога (высокий или низкий), вне зависимости от длины слова.

В префиксных глаголах тон (высокий или низкий) обозначается и на префиксе, и на первом слоге глагольной основы: lakolo ‘воспитывать’, lakirin ‘вызывать обморок’, mamin ‘бронировать; обручаться’, magan ‘стараться’, majira ‘показывать’.

Этот же принцип применяется и в причастиях (образуемых суффиксами -len/-nen, -t, -ta, -bali ), которые сохраняют тоны исходных глаголов (lakirinnen, mamint, lakirinbali, majirata), – но не в отглагольных именах (образованных по конверсии или при помощи суффикса -li/-ni), тоны которых становятся компактными (lakirinni ‘вызывание обморока’, maminli, mamin ‘помолвка’, magan ‘усилие; прилежание’).

Для глаголов-компаундов (типов N+V, [N+Pref.]+V) тон обозначается и на первом слоге именной части, и на первом слоге глагольной основы: knnafili ‘тревожить’, knmiiri ‘размыш­лять’, kunkrta ‘способствовать успеху’, kunnada ‘попрекать’.

В бамана, помимо глаголов-компаундов, менее 10% всех слов имеют нерегулярные тональные схемы; это почти исключительно существительные, наречия и служебные слова. Многие слова с нерегулярными тональными схемами малочастотны в текстах (в основном это названия биологических видов), и нередко их тональный контур варьируется от диалекта к диалекту (или даже идиолекту). Ниже даётся список тональных классов по [Dumestre 1987]; примеры также даются из диссертации Дюместра, при этом формы нередко отличаются от тонов соответствующих слов в словаре Ш. Байоля (H – высокий тон, L – низкий тон, R – восходящий тон).

Таблица 1. Тоновая нотация для слов различных тональных классов

Структура слова и тон. схема Пример (в «полной» записи) Предлагаемая орфография Комментарий
CV: L ka показатель инфинитива, a 3ед. ka, a только эти два слова
Двусложные:
CV-CV: HL bawo ‘потому что’, kunun ‘вчера’ bawo, kunun не бывает на существительных
CV-CV: R-R gelu, geelu ‘маленький африканский филин’, teenda, tenda ‘молотоглав’ gelu, tenda долгота гласного автоматическая
CVV-CV: R-L laala ‘возможно’ laala редкий
Трёхсложные:
CV-CV-CV: H-L-H bamanan ‘бамана’, tasalen ‘чайник для омовений’ bamanan, tasalen самый многочисленный тип
CV-CVV-CV или CVV-CVV-CV: H-H-R naanaalen ‘ласточка’, baknin ‘большая ржанка’ naanaalen, baknin
CV-CV-CV: H-R-H nkarange ‘ловушка’, drm ‘5 франков’ nkarange, drm
CV-CVV-CV: L-H-R bojaara ‘колючий молочай’, baaandi ‘сенегальский ткачик’ bojara, baandi долгота второго гласного автоматическая
CVV-CV-CV: R-B-H jnkmi ‘чёрный скорпион’, maangoro ‘манго’ jnkmi, mangoro долгота первого гласного автоматическая
Четырёхсложные (все - CV-CV-CV-CV):
H-H-L-H kesekele ‘зоб (птицы)’, fogonfogon ‘лёгкое’ kesekele, fogonfogon частотный тип
H-H-R-H babugunin ‘муравьиный лев’ babugunin редкий тип; некоторые слова реализуют тон факультативно как H-R-H-H
H-H-H-R bununkooro ‘шпорцевый гусь’, klbooro ‘коричневый цвет’ bununkooro, klboro редкий тип; долгота предпоследнего гласного автоматическая
H-L-L-H wanjalaka ‘жираф’ wanjalaka редкий тип
H-L-H-H cobajiri ‘храбрец’ cobajiri редкий тип
L-H-L-H dununkale ‘оса-строительница’, kolokolo ‘ощипанная курица’ dununkale, kolokolo частотный тип
L-H-R-H kankaliba ‘напиток кенкелиба’, faburema ‘мелкий сорт батата’ kankaliba, faburema редкий тип
L-H-H-R gingerenin ‘дневная хищная птица’, kakilaka ‘фараонова курица’ gingerenin, kakilaka редкий тип
L-L-H-R torimaana ‘пиявка’, ngorobaanin ‘капская горлица’ torimana, ngorobanin редкий тип; долгота предпоследнего гласного автоматическая

К сожалению, нельзя быть уверенным, что этот список исчерпывает все возможности, допустимые в различных диалектах бамана. С другой стороны, поскольку подавляющее большинство подлежащих анализу исходных текстов не будет иметь тоновой нотации, для них эта проблема будет нерелевантной.

Если от существительного с нерегулярной тональной схемой образуется дериват или если такое существительное входит в составное слово, оно переходит в регулярный тональный класс (тон первого слога определяет тональный контур всего слова). Например: nkarange ‘ловушка’ nkarangenin ‘ловушечка’, bamanan ‘бамана’ bamanankan ‘язык бамана’.

В бамана выделяется особый класс существительных-композитов, которые, вслед за Жераром Дюместром [Dumestre 1987/1994, 261-285], принято называть «конгломератами». Эти существительные (в отличие от «обычных») образуются не по моделям именных групп и могут сохранять тоны своих компонентов. По наблюдению Ж. Дюместра, более краткие конгломераты (до 3 слогов) имеют сильную тенденцию к приобретению компактных схем, а более длинные – к сохранению исходных тонов компонентов. Нередко в произнесении конгломератов наблюдаются колебания между компактной и некомпактной тоновыми схемами, например: siginfe (предлагаемая орфография: sigi-n-f ) ~ siginf (siginf) ‘мигрант’, taakasegin (предлагаемая орфография: taa-ka-segin) ~ taakasegin (taakasegin) ‘хождение туда и обратно’, jenikaimi (предлагаемая орфография: jeni-ka-imi ) ~ jenikaimi (jenikaimi ) ‘благоприятный случай’.

Конгломераты образуют открытый список; они образуются по различным моделям, причём каждая модель имеет самые разные варианты наполнения, в связи с чем исчисление тональных схем, допустимых для конгломератов, представляется невозможным.

Серьёзный вопрос представляет собой обозначение на письме тонового артикля бамана. В статье [Выдрин 2008а] он уже обсуждался и обосновывалась необходимость его фиксации. Однако реальность такова, что в огромном большинстве имеющихся текстов артикли (как и тоны в целом) не обозначены; соответственно, расстановку артиклей должен осуществлять или парсер, или человек (очевидно, тот, кто занимается ручным снятием омонимии). Однако правила употребления артикля ясны далеко не во всех деталях[8] (их выявлению препятствует как раз малое количество имеющихся текстов, в которых артикли были бы обозначены), так что программировать автоматическую расстановку артиклей в настоящее время невозможно – парсер отразил бы, в лучшем случае, неполноту наших знаний по этой части и создал бы ложную иллюзию у пользователя. Очевидно, расстановку артиклей мог бы осуществить носитель языка бамана (обученный соответствующим образом) или лингвист, обрабатывающий текст при содействии носителя языка. Поэтому надеяться на то, что в обозримом будущем удастся получить значительное количество текстов с обозначенными тоновыми артиклями, вряд ли приходится.

Как уже говорилось в статье [Выдрин 2008а], игнорирование тонового артикля ведёт, в частности, к неразличению разных видов синтаксических отношений в рамках именной группы, что весьма нежелательно. Однако в письменной практике бамана можно отметить следующую тенденцию: именные группы генитивного типа, характеризующиеся компактным типом связи между своими составляющими (лексический тон не-начального компонента устраняется, тон первого компонента распространяется на всю синтагму), часто пишут слитно, в одно графическое слово. Иначе говоря, такие ИГ трактуются скорее как сложные слова. При всей теоретической спорности такой трактовки,[9] подобное написание имеет практический смысл, указывая на отсутствие тонового артикля у первого компонента ИГ. Орфографическое правило слитного написания для тонально-компактных ИГ такого типа можно было бы предложить, по крайней мере, для нетонированных текстов.

1.3. Усовершенствование практической орфографии бамана

Как это ни удивительно, при всём внимании к вопросам орфографии со стороны малийских лингвистов, этот интерес фокусируется в основном на составе графем и лишь минимально затрагивает проблем слитного/раздельного написания и использования дефиса [Guide 1979; Guide 1993]. Во всяком случае, никакого детального свода правил орфографии, где затрагивались бы эти вопросы, по-видимому, опубликовано не было.[10]

Очевидно, что для автоматического анализа текста унификация орфографии необходима. Можно рассмотреть вопрос и с другой стороныпоставить вопрос и другой стороной: разработка корпуса глоссированных текстов на бамана  –  это хороший повод для стандартизации орфографии.

В ходе работы над Корпусом весной 2010 года в международной электронной рассылке прошла дискуссия относительно правил использования дефиса в бамана. Участники дискуссии сошлись во мнении, что дефис следует употреблять в двух случаях:

– при редупликации глаголов и прилагательных со значением интенсивности: ti ‘портить’ – ti-ti ‘портить сильно и много’; uman ‘хороший’ – uman-uman ‘очень хороший’. Дефис не употребляется при немотивированной редупликации (т. е. в тех случаях, когда соответствующая нередуплицированная форма в языке отсутствует), например, woroworo ‘шуметь (о ветре)’ (в отсутствие соотносимой лексемы *woro);[11]

– для соединения компонентов конгломерата, если эти компоненты сохраняют свои исходные тоны (см. примеры в предыдущем разделе).

В ходе дальнейшей работы, несомненно, будут сформулированы и другие правила.

1.4. Упорядоченное представление словоизменительной и деривативной морфологии

Составление полного списка словоизменительных морфем абсолютно необходимо для автоматического анализа текста; без этого невозможно опознание очень многих текстовых словоформ даже в таком преобладающе-изолирующем языке как бамана. Однако, с точки зрения задач парсинга, различие между словоизменительными и регулярными словообразовательными морфемами (такими как суффиксы причастий и номинализации, суффиксы диминутива и огмантатива и др.) оказывается несущественным: регулярные дериваты также, как правило, не даются в словаре, и парсер должен уметь членить их на аффиксы и основы, даже если и не ставить задачи полного морфологического разбора словоформ.

Таким образом, стала очевидной необходимость полного списка аффиксов бамана, с указанием их алломорфов и правил сочетаемости, а также их стандартных глосс на метаязыке. Составление инвентаря аффиксов существенно облегчалось тем, что словоизменение и деривация в бамана изучены достаточно хорошо (можно упомянуть, в первую очередь, работы [Dumestre 1987/1994, 187-233, 281-321; Dumestre 2003]). Оставалось лишь свести аффиксы в таблицы, более формально представить их алломорфы и снабдить каждый аффикс глоссой. Кроме того, была составлена таблица служебных слов и их унифицированных глосс. Отдельная задача – выявление допустимых и запретных сочетаний аффиксов друг с другом и с основами, что позволяет существенно сократить количество вариантов разбора, предлагаемых парсером. Для непродуктивных аффиксов были составлены максимально полные (в идеале – исчерпывающие) списки образуемых с их помощью дериват. Таблицы служебных морфем и слов, с предлагаемыми стандартными глоссами (см. приложение к данной статье), выносились на обсуждение в международную электронную рассылку, так что предлагаемые глоссы можно теперь считать, применительно к бамана, международным стандартом.[12]

1.5. Представление композитов

Большую сложность для автоматического анализа текста на бамана представляет обилие композитов, образующихся по продуктивным моделям (особенно если последовательно применять правило слитного написания всех тонально-компактных комплексов, о котором шла речь в 1.2) – и, соответственно, не представленных в словаре. Если парсеру ставится задача не только вычленять деривативные и словоизменительные аффиксы, но и пытаться анализировать каждую словоформу как композит (при этом в каждой его компоненте, в свою очередь, также могут выделяться деривативные аффиксы), то количество теоретически допустимых вариантов морфологического разбора словоформы резко возрастает. Чтобы сократить их количество (и, таким образом, повысить качество работы парсера), необходимо найти и сформулировать реально существующие ограничения на словосложение – или попытаться исчислить допустимые в бамана модели словосложения. Попытка такого исчисления была сделана; её результаты не приводятся здесь лишь из соображений экономии места. Однако следует быть готовым к умеренной результативности работы по этой модели – она осложняется, во-первых, возможностью рекурсивности в применении моделей словосложения, во-вторых – уже упоминавшейся анархией в отношении словоделения в большинстве публикуемых текстов на бамана. В целом композиты, по-видимому, будут представлять одну из главных трудностей для автоматического анализа баманского текста.

1.6. Поморфемное глоссирование

Как правило, в электронных корпусах различных языков программа автоматического анализа выдаёт, в качестве конечного продукта, лемматизированный текст, т. е. такой текст, где каждая словоформа снабжена пометами, отражающими её словоизменительные характеристики. Это совершенно оправдано для индоевропейских и иных языков с развитым словоизменением и достаточно чёткими словесными границами.[13] Бамана же относится к языкамДля языков же типа бамана, где (а) словоизменение минимально, причём крайне немногочисленные словоизменительные морфемы – это аффиксы, присоединяемые агглютинативно; (б) очень развито словосложение, при этом провести границу между сложным словом и словосочетанием часто очень непросто., – в В таких языках лемматизация оказывается малоэффективной.

Поэтому наша рабочая группа приняла решение о двух уровнях глоссирования – лексемном (с представлением словоизменения) и поморфемном, в котором будет систематически отражаться морфемный состав каждого графического слова бамана. Таким образом, во-первых, отчасти снимается проблема разграничения словосочетаний и композитов; во-вторых, пользователь корпуса получает возможность поиска не только по лексемам, но и по морфемам (как служебным, так и знаменательным).

2. Словарное обеспечение

2.1. Основной словарь

Шарль Байоль, автор наиболее популярного бамана-французского словаря, неоднократно переиздававшегося в Мали (последнее издание – [Bailleul 2007]), предоставил электронную версию этого словаря в формате Toolbox в распоряжение рабочей группы по созданию корпуса, что существенно облегчило её задачу. В то же время, довольно быстро стало очевидным, что для использования в качестве программного продукта для электронного корпуса бамана этот словарь нуждается в весьма существенной доработке. Перечислим те параметры, которые затронула эта доработка.

2.1.1. Орфографическая конверсия. В словаре Ш. Байоля используется авторская версия тоновой нотации: низкий тон обозначается (знаком грависа) над каждой гласной; высокотоновые слоги остаются без тональных диакритик; восходящий тон (который фактически является аллотоном низкой тонемы на односложном сегменте, если за ним следует другая низкотоновая тонема) маркируется гачеком. Существительные и прилагательные даются в своей «артиклевой» форме (т. е. с повышением тона на конце низкотоновых слов), глаголы – с тоновым контуром позиции перед паузой (без повышения тона на конце низкотоновых слов).

Автоматическая трансформация такой нотации в принятую у нас оказалась возможной только для слов, принадлежащим двум основным тональным классам – «высокотоновому» и «низкотоновому». Автоматизация конверсии для миноритарных тональных классов потребовала бы такого сложного алгоритма, что более простым решением оказалась ручная замена.

2.1.2. Фонетические варианты и отсылочные статьи. Даже в письменной форме «стандартного бамана», на которую, в первую очередь, ориентируется проект по созданию электронного корпуса текстов, сохраняется достаточно высокая вариативность. Так, многие корни могут выступать в виде вариантов Ci и Ciyn (ti ~ tiyn ‘правда’, bi ~ biyn ‘печень’ и т. д.);[14] неустойчивой может быть назализация (dila ~ dilan ‘изготавливать’, bunte ~ bunten ‘размалывать в муку’ и т. д.) и гласные ( ~ a ‘глаз’, mg ~ maa ‘человек’) – при этом одна лексема может иметь достаточно большое количество вариантов. Конечно, в большинстве случаев фонетические варианты – диалектного происхождения,[15] однако их встречаемость в текстах на бамана (как устных, так и письменных) требует приведения таких вариантов в словаре. В то же время, учёт в словаре всех диалектных вариантов невозможен: во-первых, очень многие слова будут представлены в таком случае десятками вариантов, что, к тому же, резко увеличит омонимию и затруднит парсинг. Во-вторых, надеяться на полное представление в словаре всех диалектных вариантов всё равно не приходится – хотя бы потому, что диалекты бамана для этого недостаточно полно описаны. В-третьих, в диалектном континууме манден трудно провести границы между говорами бамана, манинка, дьюла и т. д., так что стороннику тотального включения диалектных вариантов в словарь было бы провести границу между языками.

В словаре Байоля последовательно представлены формы трёх локальных диалектов бамана; разумеется, отражён и стандартный бамана. Наша рабочая группа приняла решение сохранять имеющиеся в словаре варианты, но с некоторыми оговорками. В частности, иногда словарь Байоля даёт формы из периферийных диалектов, появление которых в текстах на стандартном бамана маловероятно, при этом такие формы создают омонимию с употребительными словами. Например, среди форм лексемы dila, dilan ‘изготавливать’ даётся и южная форма bila. Последняя оказывается омонимичной (в отсутствие тоновой нотации) весьма употребительному глаголу bila ‘класть’. Если учесть, что словоформа bila может быть также проанализирована как сочетание основы bi (диалектный вариант глагола bin ‘падать’) с суффиксом прогрессива -la, то количество вариантов анализа каждой встретившейся в тексте словоформы bila превосходит все рамки здравого смысла. В то же время, словарь Байоля не даёт аналогичные диалектные формы для многих других слов, например, bl (стандартный бамана: dl) ‘пиво’, blki (стандартный бамана: dulkiI) ‘рубаха’ и др. В этой ситуации представляется предпочтительным убрать такие диалектные формы, которые сильно увеличивают «шум» и затрудняют работу парсера.

В словаре Байоля принят принцип подачи каждого фонетического варианта на своём алфавитном месте в виде особой статьи, с отсылкой к основной статье. Впрочем, в реальности тут много непоследовательного: по своему оформлению отсылочные статьи часто мало отличаются от основных и содержат полный набор информации о лексеме; иногда отсылочная статья содержит информацию, в главной статье не представленную. Не так уж редко лексема, имеющая фонетические варианты, оказывается представлена в словаре двумя полноценными статьями, не содержащими эксплицитных отсылок друг к другу.

Надо сказать, что для парсера отсылочные статьи не нужны вовсе, поскольку он может осуществлять поиск по всем фонетическим вариантам, упомянутым в основной статье, без обращения к отсылочной статье. Более того – упоминание фонетического варианта и в основной статье, и в отсылочной лишь осложняет его работу, продуцируя «фиктивную омонимию», поскольку парсер учитывает оба упоминания этого варианта (в главной и в отсылочной статьях).

В такой ситуации наиболее простым путём для упорядочивания информации было признано уничтожение всех отсылочных статей (а также дублирующих статей), с обязательным перенесением, в случае необходимости, всей содержательной информации в главную статью.

2.1.3. Подбор французских эквивалентов и проблема полисемии. Выбор переводного эквивалента при глоссировании нередко оказывается весьма непростым делом, особенно если идёт речь о большом корпусе текстов. Изначально рабочая группа приняла технически простое решение: если в статье в словаре Байоля поле \ge (предназначенное для французского эквивалента) встречается более одного раза,[16] то программа берёт в качестве глоссы для баманской лексемы содержимое первого по порядку поля \ge. При этом исходили из того, что при описании семантики полисемичного глагола лексикограф ставит на первое место, по умолчанию, наиболее прототипическое значение лексемы, из которого легче всего вывести все остальные.

В ходе дальнейшей работы выявились две главные трудности; первая из них (подбор эквивалента) – субъективного характера, вторая (проблема полисемии) – объективного.

2.1.3.1. Подбор эквивалента. В словаре Байоля (как, впрочем, и в очень многих других) граница между толкованием значения и собственно эквивалентом на метаязыке (т. е., в идеале, – слова, которое можно использовать в тексте на языке перевода) оказывается нечёткой, а распределение информации по полям базы данных (которой является программа Toolbox) – довольно произвольным. Очень часто обнаруживается, что в первом по счёту поле \ge оказывается не один эквивалент, а два, например:

\lx n.ra.da

\va nnada

\va nwna

\ps n

\ge cadet, puine

Там же может оказаться, помимо эквивалента, также и толкование или его часть – при этом вторая часть толкования оказывается нередко перенесённой во второе поле \ge:

\lx npana

\va pana

\ps v

\ge ecarter (les jambes

\ge les bras...)

Наконец, предлагаемый автором словаря эквивалент может быть просто слишком длинным и потому неудобным для глоссирования текста:

\lx npko

\va nfku

\ps n

\ge taon noir a la piqure cuisante

Эти и некоторые другие особенности организации исходного словаря заставили думать о необходимости его тотального просмотра и доработки с точки зрения потребностей парсера. В результате интенсивной работы всей рабочей группы в июле-августе 2010 г. было проведено упорядочивание словаря по перечисленным выше параметрам, а именно: в первое по порядку следования поле \ge внесён один эквивалент, по возможности краткий[17] и представляющий прототипическое значение лексемы, а все остальные данные из этого поля устранены; устранены отсылочные статьи.

2.1.3.2. Проблема полисемии. Если словарь показывает, что идентифицированное в бамана слово полисемично, то встаёт вопрос выбора между его значениями. Какое из значений должна отражать глосса? Всегда ли использовать в качестве глоссы данной лексемы один и тот же эквивалент или, в зависимости от контекста, использовать разные эквиваленты (отражающие разные значения)?

Технически несравненно проще считать одну глоссу «постоянным представителем» одной лексемы, в каком бы из своих значений эта лексема ни выступала в тексте. Исходя из потребностей глоссирования этого типа и проводилась адаптация электронной версии словаря Байоля. Иное решение потребовало бы разработки семантически чувствительного парсера, что практически эквивалентно созданию достаточно совершенной программы машинного перевода с бамана на французский. Конечно, о такой задаче можно и нужно думать, но вряд ли она стоит в ближайшей повестке дня.

Возможно и компромиссное решение (хорошо известное в компьютерно-интернетовской практике): лексема всегда представлена одной и той же глоссой, но пользователю предлагается опция «показать полисемию», при выборе которой во всплывающем окне показываются все зафиксированные в словаре значения лексемы (иначе говоря, содержимое всех полей \ge, имеющихся в словарной карточке). Так, для глагола dun в качестве основной глоссы фигурирует manger, а при включении опции «показать полисемию» будут продемонстрированы также значения depenser, rouler qn.

С точки зрения устройства парсера такое решение не представляет особых трудностей, но оно требует значительно более глубокой доработки словаря, чем та, которая была осуществлена на настоящем этапе, поскольку некоторые лексемы бамана имеют многие десятки значений, а их подача в словаре Байоля пока что очень далека от той, которая необходима для автоматизированного представления полисемии. Доработку словаря в этом направлении имеет смысл планировать на следующем этапе работы (предположительно, в 2011-2012 гг.).

2.1.3.3. Поморфемное членение. В словаре Байоля лексемы-дериваты и композиты обычно даются с указанием членения на морфемы, а в специальном поле, \lt, приводится покомпонентный перевод. Однако при более тщательном рассмотрении оказалось, что

1) морфемное членение приводится далеко не всегда – нередко в слове указывается только одна морфемная граница из двух или трёх (maakr.ba ‘vieillard’ – ср. полное членение: maa.kr.ba), и достаточно систематически не приводится морфемное членение в фонетических вариантах лексемы (что, действительно, может считаться избыточным для «бумажной» версии словаря, но совершенно необходимо для парсинга) – например:

\lx maa.dolo

\va mgdolo

\ge Orion;

2) иногда вычленяемые автором словаря знаменательные морфемы не представлены в словаре – таким образом, они оказываются «отсылками в никуда»;

3) предлагаемый в поле \lt покомпонентный перевод плохо соотносится с эквивалентами вычленяемых знаменательных морфем (см. раздел 2.1.3.1.).

Таким образом, мы пришли к необходимости второй систематической переработки словаря, которая и была осуществлена силами нашей группы в сентябре 2010 года. В результате все лексемы в словаре (в каждом из своих фонетических вариантов) теперь представлены с полным морфемным членением, при этом каждая вычлененная корневая морфема снабжена стандартным переводным эквивалентом, совпадающим с тем её эквивалентом, который даётся в основной статье, посвящённой этой морфеме. В качестве эквивалентов деривационных морфем даны стандартные глоссы из списка, который приводится в Таблице 3 в Приложении.

2.2. Дополнительные словари

В словаре Ш. Байоля представлены, за единичными исключениями,[18] только нарицательные существительные языка бамана. При этом очевидно, что в текстах имена собственные составляют достаточно большой процент всех словоупотреблений. На момент начала работы над Корпусом у меня имелись словари географических названий, личных имён и клановых имён бамана, в основном в рукописной форме. А. В. Давыдов осуществил компьютерный набор этих словарей (в формате Toolbox), а в ходе экспедиции в Мали в июне-июле 2010 года протонировал их.[19] На данный момент эти словари ни в коей мере не претендуют на исчерпывающий характер (насколько вообще возможно говорить о достижении предела в расширении таких словарей), они будут пополняться в ходе работы по ручному снятию омонимии.

Только предстоит создать словарь аббревиатур (отметим, что большинство аббревиатур, встречающихся в баманских текстах, – французские, а не собственно баманские: SIDA – syndrome de l’immunodficience acquise, CMDT – Compagnie malienne du dveloppement des textiles, ODIPAC – Office de Dveloppement Intgr pour les Productions Arachidires et Cralires и т. д.)

Ещё одна категория словоупотреблений, которые являются источником трудностей для парсинга, – неадаптированные французские слова (при том что адаптированные заимствования, по-видимому, следует включать в основной словарь). Для их частичной идентификации предполагается использовать метод поиска нетипичных в языке бамана позиций и сочетаний графем (сочетание двух гласных; согласные в конце слова и т. п.).

2.3. Пополнение словарей в ходе ручной разметки Корпуса

Странно было бы ожидать, что все лексемы из текстов бамана, включаемых в Корпус (даже если не учитывать неадаптированных иностранных слов), будут содержаться в уже имеющихся словарях. Поэтому предполагается, что работа над Корпусом станет важнейшим источником пополнения словаря языка бамана. Это пополнение может осуществляться на этапе ручного снятия омонимии в текстах – т. е. на том этапе, который следует за метаразметкой и автоматическим парсингом. Поскольку ручное снятие омонимии, по крайней мере на начальных этапах работы, предполагается проводить силами российских (или, шире – европейских) студентов и специалистов по языку бамана, т. е. теми, для кого бамана не является родным языком, можно предвидеть, что создание новых словарных статей в словаре может вызвать у них затруднение. По-видимому, имеет смысл предусмотреть такой алгоритм работы: 1) устанавливается, что слово, не опознанное парсером, не является скорее всего именем собственным, аббревиатурой, иностранным словом или результатом опечатки; 2) такое слово вносится в некий временный словарь; 3) слова из временного словаря (в контекстах, в которых они встретились в текстах Корпуса) проверяются с информантами, для которых язык бамана является родным, после чего принимается решение о внесении (или не-внесении) их в основной словарь.

3. Структурирование анализируемого текста:

Уровни представления текста и глоссирования

Обработанный и глоссированный текст – это то, с чем, в обычном случае, будет иметь дело пользователь Корпуса. Рассмотрим, каким образом предполагается организовать этот текст. Сразу оговоримся, что:

а) Корпус будет открытым для доступа любому пользователю Интернета;

б) пользователь не будет иметь доступа к полным текстам документов, включённым в Корпус (это ограничение связано с охраной авторских прав);

в) не планируется устанавливать ограничений на количество фразовых примеров, которые пользователь получает по запросу (ср. практику подобных ограничений, скажем, в Британском Национальном Корпусе). Доступ к полному списку примеров, обнаруженных в Корпусе, необходим для углублённых исследований.

Всякий текст в Корпусе будет представлен на нескольких уровнях анализа.

1) Исходный вид. Текст воспроизводится в том виде, в котором он представлен в источнике – с сохранением орфографии, пунктуации, опечаток и описок. Это необходимо для осуществления контроля: если программа-парсер или разметчик (человек, осуществляющий ручное снятие омонимии) допускает ошибку (например, принимает французское вкрапление за баманское слово, написанное с опечаткой), эта ошибка может быть обнаружена при обращении к исходной форме текста. Кроме того, особенности текста, в том числе опечатки и пунктуация, могут сами по себе являться предметом исследования лингвиста, и было бы неразумным закрыть эту возможность для пользователей Корпуса.

2) Запись в «нормализованной орфографии», с тоновой нотацией. При переходе на этот уровень осуществляется автоматическая конвертация старой орфографии в новую, ручное исправление орфографических ошибок, автоматическая идентификация словоформ, обозначение тонов в соответствии с принятыми принципами. Если в исходном тексте тоны указаны, то осуществляется автоматическое преобразование исходной тоновой нотации в ту, которая принята в Корпусе.

3) Представление текста с вычленением словоизменительных морфем.

4) Представление с полным поморфемным разбиением (отделение словообразовательных морфем, расчленение композитов на составляющие).

5) Представление текста с синтаксической разметкой: обозначение границ именных групп; связывание финитных глаголов с предикативными показателями; связывание глаголов (финитных и нефинитных форм) с управляемыми ими послелогами; обозначение границ клауз и т. д. Этот уровень представления предполагается обеспечить на более поздних этапах проекта.

6) Строка лемматизации: каждой лексеме и каждой словоизменительной морфеме бамана дан в соответствие французский эквивалент.

7) Строка глоссирования: каждой морфеме бамана (как словоизменительной, так и словообразовательной) дан в соответствие французский эквивалент.

8) Литературный перевод на французский.

Примечание: 1) В представлении пользователю уровни со 2 до 5 могут быть, по-видимому, объединены без ущерба для содержания. 2) Литературный перевод текста на французский может быть добавлен только вручную.

Корпус бамана планируется сделать неоднородным по степени анализа. Наименьшую его долю будут составлять тексты со снятой вручную омонимией и с проставленными тоновыми артиклями (как уже отмечалось, расстановка артиклей должна производиться теми, для кого язык бамана является родным, или, во всяком случае, с участием таких информантов). Небольшим будет также подкорпус с литературным переводом на французский. Следующий, более широкий круг, будет являть собой подкорпус со снятой вручную омонимией. Наконец, все остальные тексты в Корпусе будут только автоматически обработаны парсером; даже при сохранении неснятой омонимии такие тексты могут дать пользователю Корпуса много полезной информации.

Соответственно, пользователь сможет осуществлять поиск только по каким-то из этих подкорпусов или по всему корпусу в целом – в зависимости от того, нужно ли ему максимально возможное количество примеров (какое-то количество которых при этом может оказаться неправильным) или он предпочитает получить меньшее количество более надёжных примеров (без «шума»).

4. Некоторые перспективы проекта «Корпус текстов бамана»

В июне-июле 2010 мы с А. В. Давыдовым совершили поездку в Гвинею и Мали, главной целью которой был сбор материалов для Корпуса, а также налаживание контактов с лингвистами (и другими заинтересованными кругами) этих стран, которые могли бы быть полезными в ходе работы над проектом. Попытаюсь обобщить впечатления от этой поездки.

4.1. Мали

Реакция лингвистов была позитивной; идею создания Корпуса поддержали все наши собеседники. Особенно заинтересовала их перспектива использовать результаты корпусного проекта для упорядочивания орфографии языка бамана и, в перспективе, для создания программы автоматической проверки орфографии. Другое дело, что на нынешнем этапе участие малийцев в работе над проектом может быть лишь весьма ограниченным – в частности, требуется их помощь в получении электронных версий книг и газет, публикуемых на бамана. В дальнейшем, когда удастся добиться некоего минимального уровня качества работы парсера и приступить к созданию полноценного корпуса текстов, они могут быть привлечены к снятию омонимии. Очень желательной была бы помощь малийцев в транскрибировании аудиозаписей – это позволило бы создать подкорпус устной речи бамана.

Очевидно, что для налаживания сотрудничества в этой области потребуются дополнительные финансовые ресурсы, превышающие рамки исследовательского гранта РФФИ.

4.2. Гвинея

В Конакри, столице страны, и в Канкане, административном центре населённой манинка области Верхняя Гвинея, мы провели серию встреч с гвинейскими лингвистами, а также с активистами культурно-образовательного движения н’ко. В частности, мы присутствовали на специальном заседании Nko` Dunbu` ‘Академии н’ко’, по своим функциям сходной с Французской Академией. Члены Академии занимаются регламентацией орфографии н’ко, а также проводят большую лексикографическую работу: пополняют одноязычный словарь манинка (первое издание которого насчитывает около 32 500 словарных статей), готовят к изданию н’ко-французский словарь; они переводят на н’ко законодательные тексты Гвинейской Республики и т. д. – причём вся эта работа проводится без какого бы то ни было финансирования со стороны государственных органов или международных организаций.

Наш рассказ о проекте Корпуса вызвал у членов Академии большой энтузиазм; они выразили свою готовность к сотрудничеству. Но в данном случае речь идёт не просто о работе с текстами на другой графической основе, но и с другим языком: языки манинка и бамана, хотя и близки друг к другу, различаются всё же достаточно сильно для того, чтобы парсер и словарь бамана можно было применять к текстам на манинка (тем более если говорить о работе с текстами на «литературном н’ко», который отличается от письменного «стандартного бамана» ещё больше, чем разговорные варианты манинка и бамана). При этом, несомненно, наработки по баманскому корпусу сильно облегчат процесс создания корпуса манинка.

Если всё же иметь в виду перспективу создания корпуса текстов на манинка, то необходимо иметь в виду препятствия, которые имеются на этом направлении. На настоящий момент можно, в частности, упомянуть (помимо, само собой разумеется, проблемы получения финансирования) следующие трудности:

– плохая обеспеченность Конакри (и, тем более, других гвинейских городов) электроэнергией, что существенно затрудняет работу с компьютером;

– отсутствие манинка-французского словаря (аналогичного бамана-французскому словарю Шарля Байоля); это означает, что такой словарь надо создавать заново.

5. Заключение

В целом можно отметить, что работа над электронным корпусом текстов бамана пока что идёт по оптимистическому сценарию:

– к моменту написания данной статьи практически готова первая рабочая версия парсера и необходимый для её функционирования словарь;

– ясны конкретные задачи по совершенствованию этих инструментов, стоящие перед рабочей группой;

– имеется достаточно большое количество текстов в электронном виде, готовых для введения в Корпус;

– работа над Корпусом встречает понимание и поддержку коллег из разных стран, что открывает хорошие перспективы для международного сотрудничества в данной области.

Литература

Выдрин В. Ф. На пути к электронному корпусу языка бамана: обозначение тонов // Труды международной конференции «Корпусная лингвистика – 2008». СПб.: Санкт-Петербургский государственный университет, 2008а. С. 122–134.

Выдрин В. Ф. Электронные корпуса африканских языков: завтра или послезавтра? // А. Ю. Желтов (ред.). Петербургская африканистика. Памяти Андрея Алексеевича Жукова. СПб.: Санкт-Петербургский государственный университет, 2008б, C. 29–39.

Давыдов А. В. Электронный корпус языка бамана: Комплектование и принцип метатекстовой разметки // Настоящий сборник.

Bailleul Ch. Cours pratique de bambara. Bamako, Editions Donniya, 2000.

Bailleul Ch. Dictionnaire Bambara-Franais. 3e dition corrige. Bamako : Donniya, 2007.

Creissels D. Le malink de Kita. Kln: Rdiger Kppe Verlag, 2009.

Davydov A. Towards The Manding Corpus: Texts Selection Principles and Metatext Markup. Eds. Guy De Pauw, H. J. Groenewald, and Gilles-Maurice de Schryver. Proceedings of the Second Workshop on African Language Technology (AfLaT 2010). Valletta, Malta: European Language Resources Association (ELRA), 2010, P. 59–62. http://www.lrec-conf.org/proceedings/lrec2010/workshops/W5.pdf

Dumestre G. Le bambara du Mali: Essai de description linguistique. Thse de Doctorat d’Etat. INALCO. Paris, 1987. 2e dition : Paris : Les Documents de Linguistique Africaine, 1994, Tomes 1, 2.

Dumestre G. Grammaire fondamentale du bambara. Paris: Karthala, 2003.

Guide de transcription et de lecture du Bambara. Bamako: DNAFLA, 1979.

Guide de transcription et de lecture du Bambara. 2e dition, revise par Demba Konar, Moussa Diaby, Soumana Kan. Bamako: DNAFLA, 1993.

Vydrin V. Glossed electronic corpora of Mande languages: A perspective that we cannot avoid // Mande languages and linguistics. 2nd International Conference, St. Petersburg (Russia), September 15–17, 2008. Abstracts and Papers. V.Vydrin (ed.). St. Petersburg, 2008, P. 15–22.

Приложение. Стандартные глоссы для аффиксов и служебных слов бамана

Таблица 2. Словоизменение

Аффикс Алломорфия Глосса Частеречная сочетаемость Значение
-la/-na na после носового гласного, la в остальных случаях PROG v суффикс прогрессива (в сочетании с pm b (утвердительная конструкция), t (отрицательная конструкция))
-ra/ -la/ na -na если предшествующий слог содержит назальный звук; -la если предшествующий слог неносовой и содержит r, l; -ra во всех остальных случаях IPFV.INTR v (v.i) показатель имперфектива для интранзитивных глаголов
-w PL n, adj, dtm, prn показатель множественного числа (присоединяется к последнему слову ИГ)
-` проявляется как даунстеп последующего высокотонового слова ART n, adj артикль (присоединяется к последнему слову ИГ)

Таблица 3. Словообразование

Аффикс Алломорфия Глосса Частеречная сочетаемость Часть речи деривата Значение
Суффиксы
-ba AUGM n, adj, ptcp = исходной ауогментатив
-baa/-baga варианты -baa и baga в свободном варьировании AG.OCC v n, (adj) имя окказионального деятеля
-bali PTCP.PRIV v ptcp привативное причастие
-ka GENT n n суффикс имени жителя какого-л. места или выходца из этого места («гентильный»)
-la/-na -na после носового гласного, -la в остальных случаях AG.PRM v n суффикс имени деятеля
-la/-na -na после носового гласного, -la в остальных случаях LOC n n суффикс имени места
-la/-na -na после носового гласного (факультативно – и после слога «носовой согласный + неносовой гласный»), -la в остальных случаях PRICE num n суффикс имени стоимости («количество товара стоимостью в Х»)
-la/-na распределение между алломорфами отчасти факультативное, отчасти лексикализованное MNT1 v, n, pp n суффикс имени ментальной деятельности или её результата
-lata/
-nata
распределение между алломорфами отчасти факультативное, отчасти лексикализованное; отличия от MNT1 минимальны MNT2 v, n, pp n суффикс имени ментальной деятельности или её результата
-lama/
-nama
-nama после носового гласного, lama в остальных случаях STAT n adj суффикс отыменных прилагательных со значением «под видом Х», «в качестве Х», «сделанный из Х», «будучи Х»
-lan/
-nan
-nan после носового гласного, -lan в осталь­ных случаях; -ran – ред­кий лексически распре­делённый вариант -lan INSTR v n суффикс имени инструмента
-len/
-nen
-nen после носового гласного, -len в остальных случаях RES v ptcp суффикс результативного причастия
-li/-ni -ni после носового гласного, -li в остальных случаях NMLZ v n суффикс отглагольного имени
-ma COM n adj, (n) суффикс отыменного прилагательного с комитативным/орнативным значением
-ma RECP.PRN n n суффикс взаимности отношений
-ma DIR v v непродуктивный суффикс, сочетающийся главным образом с основами глаголов направленного действия, часто не меняя исходного значения
-man ADJ vq adj адьективизатор квалитативных глаголов
-nan ORD num adj суффикс порядковых числительных
-nin DIM n, adj, ptcp = исходной диминутив
-ntan PRIV n adj, (n) суффикс отыменного привативного прилагательного
-nci AG.EX n, adj, v n суффикс «имени неумеренного деятеля»
gn/ wan/ waan варианты – разного диалектного происхождения RECP v, n n суффиксоид «имени партнёра по деятельности»
-ta PTCP.POT v ptcp суффикс причастия с потенциальным значением
-t PTCP.PROG v ptcp суффикс прогрессивно-проспективного причастия (прогрессив – от непредельных глаголов, проспектив – от предельных)
-t PTCP.ST n n, adj имя субъекта состояния (чаще – неблагоприятного)
-ya DEQU vq n, v суффикс, образующий динамические глаголы и имена качеств от квалитативных глаголов
-ya ABSTR n, adj, (v) n, (v) суффикс имени статуса или состояния (от имён, обозначающих лиц и некоторых животных), имени качества (от производных прилагательных); (редк.) суффикс глаголов с инхоативным значением
Глагольные префиксы
la-/na- na- факультативно после носового гласного, la- в остальных случаях CAUS v v каузативный префикс (часто – с лексикализованным нерегулярным значением)
ma- ~ man- алломорф man- только в единичных глаголах SUPER v v префикс с затемнённой семантикой (этимологически, очевидно, суперэссивной)
ra-/r- не в стандартном бамана; фонетические варианты – разного диалектного происхождения IN v v префикс с затемнённой семантикой (этимологически, очевидно, инэссивной)
s- EN v v непродуктивный префикс (3 глагола перемещения), восходит к слову sn ‘сердце’

Комментарии:

В графе «Частеречная принадлежность деривата» в скобках указывается второстепенное образование по конверсии (более или менее лексикализованное).

Таблица 4. Служебные слова

Форма Глосса Часть речи Позиция Значение Алломорфия
a 3SG pers любая ИГ неэмфатическое местоимение 3 лица ед. числа
a 2PL pers любая ИГ неэмфатическое местоимение 2 лица мн. числа
anw 1PL.EMPH pers любая ИГ эмфатическое местоимение 1 лица мн. числа
an 1PL pers любая ИГ неэмфатическое местоимение 1 лица мн. числа
aw 2PL.EMPH pers любая ИГ эмфатическое местоимение 2 лица ед. числа
b BE cop после ИГ подлежащего копула неглагольного локативного предложения
b ~ bi ~ be IPFV.AFF pm после ИГ подлежащего показатель утвердительного имперфектива диалектные варианты
b ka PROG.AFF pm после ИГ подлежащего показатель утвердительного прогрессива
bka ~ bga ~ baga ~ buga PFV.TR.AFF pm после ИГ подлежащего показатель перфектива при переходном глаголе редкая диалектная форма, синоним y
bna ~ bina ~ bena FUT.AFF pm после ИГ подлежащего показатель утвердительного будущего
bilen ~ bile ~ belen COND.NEG pm после ИГ подлежащего; иногда сопровождается предикативным показателем ye или ma показатель отрицательного условного наклонения архаичный и редкий показатель
de FOC prt после фокализуемого слова показатель контрастивного фокуса
don PRES cop после ИГ подлежащего копула неглагольного презентативного предложения
dun TOP.CNTR prt следует за ИГ субъекта или иной ИГ, вынесенной в крайне левую позицию показатель контрастивной топикализации подлежащего
e` 2SG.EMPH pers любая ИГ эмфатическое местоимение 2 лица ед. числа
i 2SG pers любая ИГ неэмфатическое местоимение 2 лица ед. числа
i REFL pron любая несубъектная ИГ; субъектная ИГ придаточного предложения рефлексивное местоимение
in DEF dtm стоит после ИГ «новый определённый артикль»
ka INF pm перед ИГ прямого дополнения; в её отсутствие – перед глаголом показатель инфинитива
ka OPT pm после ИГ подлежащего показатель оптатива
ka POSS conj после ИГ посессора посессивная связка
ka QUAL.AFF pm после ИГ подлежащего показатель утвердительного квалитативного предложения
kana ~ kana PROH pm после ИГ подлежащего показатель прохибитива
kni TOP prt после топикализуемой ИГ показатель контрастивного топика
ma ~ maa DES pm после ИГ подлежащего, представленной словом Ala ‘Бог’; глагол присоединяет суффикс –ra/-la/-na PFV.INTR предикативный показатель в предложении, обозначающем благопожелание
ma PFV.NEG pm после ИГ подлежащего показатель отрицательного перфектива
man QUAL.NEG pm после ИГ подлежащего показатель отрицательного квалитативного предложения
mana ~ maa COND.AFF pm после ИГ подлежащего показатель утвердительного кондиционалиса maa – форма в северных диалектах
min REL dtm, pron после релятивизируемой ИГ в левосторонней придаточной клаузе; в позиции ИГ в правосторонней придаточной клаузе маркер релятивизации
na ~ na CERT pm после ИГ подлежащего показатель уверенного будущего
nin DEM dtm, pron вместо, перед или после ИГ указательное местоимение
gn RECP pron любая несубъектная ИГ взаимное местоимение
o` DISTR conj между двумя ИГ показатель дистрибутивной связи
o ANAPH pron замещает ИГ анафорическое местоимение
olu ANAPH.PL pron замещает ИГ плюральное анафорическое местоимение; эмфатическое местоимение 3 л. мн. ч.
t COP.NEG cop после ИГ подлежащего копула неглагольного отрицательного локативного предложения
t ~ ti ~ te IPFV.NEG pm после ИГ подлежащего показатель отрицательного имперфектива диалектные варианты
t ka PROG.NEG pm после ИГ подлежащего показатель отрицательного прогрессива
tka ~ tga PFV.TR.NEG pm после ИГ подлежащего показатель отрицательного перфектива при переходном глаголе редкая диалектная форма, синоним y
tna ~ tena ~ tina FUT.NEG pm после ИГ подлежащего показатель отрицательного будущего
tun PST prt чаще всего перед pm или cop показатель ретроспективного сдвига
wa Q prt в конце предложения частица общего вопроса
ye PFV.TR pm после ИГ подлежащего показатель утвердительного переходного перфектива
ye EQU cop после ИГ подлежащего копула в эквативном неглагольном предложении
ye IMP pm следует за ИГ подлежащего, выраженного местоимением 2 мн. показатель императива при подлежащем во 2 мн.
ye ka RCNT pm после ИГ подлежащего показатель недавнего прошлого малоупотребительный


Pages:     || 2 |
 




<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.