WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     | 1 | 2 || 4 | 5 |   ...   | 8 |

« ОБРАБОТКА ТЕКСТА И КОГНИТИВНЫЕ ТЕХНОЛОГИИ № 15 TEXT PROCESSING AND COGNITIVE TECHNOLOGIES ...»

-- [ Страница 3 ] --

Поясним, каким образом определялись оценки слов по словарям. Если слово получало в одном из словарей пометы жаргонное или просторечное, мы считали, что оно имеет соответствующий коннотативный компонент. Поскольку пометы разных словарей не всегда совпадают, мы позволили себе объединить некоторые пометы со сходным значением. Так, в одну группу локальное были объединены пометы областное (Словарь русского языка С.И. Ожегова, 1988) и диалектное (Большой словарь русского жаргона В.М. Мокиенко и др., 2000; Словарь современного русского города под ред. Б.И. Осипова, 2003), поскольку все они отражают местные явления речи. К словам с пометой разговорное были присоединены слова с пометой общеупотребительное (Словарь современного русского города, 2003). Мы считали, что слово можно отнести к сфере литературного языка, если оно встречалось в Словаре русского языка С.И. Ожегова (1988) без помет.

Кроме того, в таблице отдельными графами представлены количественные данные для слов, которые получают согласно словарям разную интерпретацию или вообще не встречаются в данных значениях в словарях.

Слова, которые по словарям получают разные интерпретации, есть среди всех групп слов. Например, слово тетка в значении ‘неуважительное обращение к особе женского пола’ в Словаре Б.Б. Максимова (2002) имеет помету жаргонное, а в Словаре С.И. Ожегова (1988) – просторечное; слово базарить в словаре Б.Б. Максимова (2002) и Большом словаре русского жаргона (2000) имеет помету жаргонное, а в Словаре современного города (2003) – общеупотребительное. Междометие блин и глагол завязывать ‘заканчивать’ даются студентами как разговорные, слова рычать ‘спорить’ и бычок ‘окурок’ – как просторечные, а слова быдло ‘необразованные люди’ и бухать ‘выпивать’– как жаргонные. В разных словарях все эти слова получают оценку либо как жаргонные, либо как просторечные. Именно эти две коннотации чаще всего смешиваются словарями.

Очевидно, что это неслучайно. По мнению Л.П. Крысина, современное просторечие активно жаргонизируется и вместо смешения по оси «диалект – литературный язык» в настоящее время, особенно в речи молодежи, происходит смешение по оси «разговорная речь – жаргон» (см.: Крысин, 1989; Современный русский язык…, 2003). Подтверждением этому служит и сам факт образования и функционирования относительно нового для русского языка промежуточного идиома – общего жаргона (см., например: Ермакова и др., 1999). Из названных студентами слов неопределенную просторечно-жаргонную коннотацию имеют 6,4% слов, упомянутых как просторечные, и такой же процент слов, упомянутых как жаргонные. Среди слов, названных разговорными, также есть подобные слова – их около 5%.

Кроме того, во всех группах слов встречаются лексемы, которые вообще не указаны в словарях. Среди названных разговорными это такие, как: выпуколки ‘глаза’, гипер (сокращение от гипермаркет), кошмаренок ‘ребёнок’ и др. Среди просторечных – фоткаться ‘фотографироваться’, хыркать ‘ругаться’ и др. Среди жаргонных – чувачело ‘хороший человек’, журналюги ‘журналисты’, видюха ‘видеокассета’, дэрэ ‘день рождения’ и др. Как видно из примеров, в большинстве случаев эти слова представляют собой реализации типичных словообразовательных моделей и, вполне возможно, имеют распространение в небольших группах или вообще окказиональны. Их доля весьма велика (от 20 до 30% в разных группах).

Помимо этого в нашем материале встретились слова, которые представлены в словарях в других значениях. Например, слово мохать в значении ‘прогуливать, пропускать’ в словарях не обнаружено, однако встречается другое значение этого слова – ‘вдыхать пары токсических веществ’ (Максимов, 2002: стр. 255). Слово слить в значении ‘опозорить’ не встретилось ни в одном словаре, но были представлены другие значения этого слова: ‘продать’, ‘передать информацию’ (там же: стр. 547); ‘отправить информацию’ (там же: стр. 391). Такие случаи были объединены в таблице со случаями отсутствия в словарях.

Охарактеризуем подробнее каждую из полученных от студентов групп слов.

1. СЛОВА С РАЗГОВОРНОЙ КОННОТАЦИЕЙ

Всего студентами было упомянуто 205 разных слов с разговорной коннотацией. Из них словарями как разговорные оцениваются только 6,8%. Из таблицы видно, что согласно словарям, среди слов, названных студентами, оказываются не только собственно разговорные, но и слова, имеющие все возможные коннотации. Этот результат можно объяснить по-разному. Во-первых, такое малое количество слов, имеющих совпадающие коннотации в разных социальных группах, связано с тем, что сам коннотативный концепт «разговорная речь/разговорный язык» не является актуальным для носителей языка. Это косвенно подтверждается и самым малым количеством слов, названных в этой группе. С другой стороны, это может быть вызвано тем, что данный концепт по-разному реализуется в разных социальных группах, вплоть до несовпадения ядерных лексических компонентов концепта.

Чаще всего в группу разговорных попадают слова, которые словарями признаются жаргонными (51,2% всех названных слов). Это такие слова, как бабло ‘деньги’, абзац ‘все плохо’, ботан ‘прилежный ученик’ и др. В силу своей широкой распространенности в разговорной практике молодежи и в общем жаргоне подобные слова теряют для студентов свою яркую жаргонную окраску и осознаются как общеупотребительные.

Также довольно часто студенты включают в группу разговорных довольно большое количество литературных (8,8% – буханка, беседа, еда и др.) и просторечных слов (5,9% – башка, морда и др.). Слова с другими коннотациями встречаются редко.



2. СЛОВА С ПРОСТОРЕЧНОЙ КОННОТАЦИЕЙ

Студенты назвали в качестве просторечных 281 разное слово. Среди этих слов словари как просторечные отмечают только 10,3% слов (больно ‘очень’, брюхо). Чаще всего слова из этой группы квалифицируются в словарях как жаргонные (23,5%), например: мажорно ‘замечательно’, обламывать ‘обманывать’ и др. Однако, в сравнении с группой разговорных слов, слова, которые студенты считают просторечными, словари определяют как жаргонные в два раза реже, т.е. смешение между разговорной речью и жаргоном у студентов сильнее, чем между жаргоном и просторечием.

Достаточно часто слова из группы просторечных определяются в словарях как литературные – 12,5% (поганка, кулек и др.) и разговорные – 10,6% (болтать, видно ‘видимо’ и др.). Как локальные они определяются в 7,4% (вехотка ‘мочалка’, жарёха ‘жареные грибы’ и др.).

Таким образом, можно отметить, что и в данном случае мы также наблюдаем довольно слабую актуальность коннотативного концепта «просторечие» для носителей языка или разницу в коннотативных концептах разных социальных групп.

3. СЛОВА С ЖАРГОННОЙ КОННОТАЦИЕЙ

В качестве жаргонных студенты назвали 404 разных слова, из них словарями как жаргонные оцениваются 59,7%. Как видим, большая часть названных слов действительно оказывается принадлежащей группе жаргонных, что в несколько раз превышает показатели по разговорным и просторечным словам: как уже говорилось, только 6–10% от всех названных студентами в этих группах слов совпали со словарным описанием.

Оставшиеся 40% слов, названных студентами просторечными, согласно словарям попадают в основном в группу со смешанными коннотациями (т.е. квалифицируются то как жаргонные, то как просторечные – 6,4%) или вообще не встречаются в словарях (29,%). Отметим, что слова последней группы чаще всего имеют ярко выраженный жаргонный характер и характеризуются типичными для жаргона словообразовательными моделями (падик ‘подъезд’, компарашка ‘компания’, задёр ‘человек, часто играющий в компьютерные игры’). Остальные словарные коннотации для слов этой группы встречаются довольно редко (до 2%).

Можно сделать вывод, что коннотативный концепт «жаргон» является достаточно определенным в языковом сознании носителей языка и важным с точки зрения их речевой деятельности. Кроме того, именно для данного коннотативного концепта наблюдается меньшая разница в его лексической наполненности между носителями рассмотренных социальных групп.

Таким образом, анализ трех групп лексики, полученной в ходе эксперимента, показал, что для студентов как носителей языка характерно смешение коннотативных концептов «разговорная речь», «просторечие», «жаргон». Четче всего они чувствуют принадлежность слова к жаргону. В то же время жаргонные, с точки зрения носителя литературного языка, слова достаточно часто осознаются студентами и как разговорные, и как просторечные. Особенно это характерно для слов, которые студенты считают разговорными. Очевидно, это связано с тем, что современная разговорная речь в значительной степени жаргонизирована и часть жаргонных слов осознается как общеупотребительная. Вообще размытость границ групп разговорных и просторечных слов, их смешивание с жаргоном и общеязыковая «разгерметизация» границ идиомов характерны для современной языковой ситуации (см., например: Ерофеева, 2005; Хорошева, 2002), что наглядно демонстрирует материал нашего исследования. Нечеткая функциональная дифференциация слов приводит к размыванию границ и между соответствующими коннотативными концептами. Поэтому, безусловно, должно проводиться специальное исследование актуальных для современного языкового сознания коннотативных концептов с учетом социально-культурного расслоения общества.

ЛИТЕРАТУРА

  1. Апресян Ю.Д. Лексическая семантика // Апресян Ю.Д. Избранные труды / Ю.Д. Апресян. – М.: Школа, Язык русской культуры, изд. фирма «Восточная литература» РАН, 1995. – Т. 1. – 427 с.
  2. Бабушкин А.П. Типы концептов в лексико-фразеологической семантике языка. – Воронеж: изд-во Воронежского ун-та, 1996.
  3. Блумфильд Л. Язык: пер. с англ. Е.С. Курбяковой, В.П. Мурат. – М.: Изд-во «Прогресс», 1968. – 607 с.
  4. Герд А.С. Введение в этнолингвистику: курс лекций и хрестоматия / А.С. Герд. – СПб.: Изд-во С-Петерб. ун-та, 2001. – 488 с.
  5. Долинин К.А. Стилистика французского языка: уч. пособие / К.А. Долинин. – М.: Просвещение, 1987. – 303 с.
  6. Ельмслев Л. Пролегомены к теории языка // Новое в лингвистике. Вып. 1. – М., 1960. – С. 369-373.
  7. Ермакова О.П. Слова, с которыми мы все встречались: толковый словарь русского общего жаргона: ок. 450 слов / под общ. рук. Р.И. Розиной / О.П. Ермакова, Е.А. Земская, Р.И. Розина.– М.: Азбуковник, 1999. – 320 с.
  8. Ерофеева Е.В. Вероятностная структура идиомов: социолингвистический аспект / Е.В. Ерофеева. – Пермь: изд-во Перм. ун-та, 2005. – 320 с.
  9. Карасик В.И. Языковой круг: личность, концепты, дискурс: монография / В.И. Карасик. – М.: Гнозис, 2004. – 390 с.
  10. Комлев Н.Г. Компоненты содержательной структуры слова / Н.Г. Комлев. – М., 2003.
  11. Крысин Л.П. Социолингвистические аспекты изучения современного русского языка / Л.П. Крысин.
  12. Курбякова Е.С. и др. Краткий словарь когнитивных терминов / Е. С. Курбякова, В.З. Демьянков, Ю Г. Панкрац, Л. Г. Лузина / под общ. ред. Е. С. Курбяковой. – М., 1996.
  13. Максимов Б.Б. Фильтруй базар: словарь молодежного жаргона города Магнитогорска. Ок. 31 500 слов и устойчивых словосочетаний / подготовка рукописи к изданию и вступит. Статья С.Г. Шулежковой. – Магнитогорск: МаГУ, 2002. – 506 с.
  14. Мокиенко В.М. Большой словарь русского жаргона / В.М. Мокиенко, Т.Г. Никитина. – СПб.: «Неоринт», 2000. – 700 с.
  15. Ожегов С.И. Словарь русского языка: ок. 57 000 слов / под ред Н.Ю. Шведовой – 20-е изд., стереотип. – М.: Рус. яз., 1988 – 750 с.
  16. Павилёнис Р.И. Проблема смысла / Р.И. Павилёнис. – М.: Мысль, 1983.
  17. Попова З.Д. Когнитивная лингвистика: монография / З.Д. Попова, И.А. Стернин. – М.: Восток – Запад АСТ, 2007.
  18. Словарь современного русского города / под ред. Б.И. Осипова. – М., 2003.
  19. Стернин И.А. Лексическое значение слова в речи / И.А. Стернин. – Воронеж, 1985.
  20. Стернин И.А. Существуют ли безэквивалентные концепты? / И.А. Стернин // Русский язык в языковом и культурном пространстве Европы и мира. Человек. Знания. Коммуникация. Интернет: тез. докл. IV Международной научной конференции. – Варшава, 2008. – С. 193-194.
  21. Сторожева Е.М. Компоненты коннотативного значения слова / Е.М. Сторожева // Проблемы социо- и психолингвистики. – Пермь, 2007. – Вып. 9.
  22. Сторожева Е.М. Коннотация и ее структура / Е.М. Сторожева // Вестник Челябинского государственного ун-та. – 2007. – Вып. 14. – № 13.
  23. Телия В.Н. Коннотативный аспект семантики номинативных единиц / В.Н. Телия. – М.: Наука, 1986.
  24. Телия В.Н. Типы языковых значений. Связанное значение слова в языке / В.Н. Телия. – М.: Наука, 1981.
  25. Шмелев Д.Н. Проблемы семантического анализа лексики / Д.Н. Шмелев. – М.: Наука, 1973. – 274 с.

WORD CONNOTATIOn as a component





of the conceptial system of language [25]

Yelena Yerofeyeva [26] & Yekaterina Storozheva [27]

ABSTRACT

One of aspects of problem of cooperation between the system of concepts and the lexical system of national language is observed in the article. Possibility of selection of concepts is based on separate components of lexical meaning. Basic interest lies in area of research of connotative meaning of words, examined as a connotative concept, and its understanding by language transmitters. It is noticed in the article, that connotative concepts are formed for the transmitters of language and describe stylistic and social differentiation. Research is made on material of three stylistic social linguistic formations: colloquial speech, low common speech, jargon. It is exposed with an experimental method, that concept «jargon» is the most clear for the transmitters of language.

KEYWORDS:

Cognitive linguistics, connotative concepts, lexical system, psychosemantics.

МНОГОЗНАЧНЫЕ ПРОЦЕССУАЛЬНЫЕ ФРАЗЕОЛОГИЗМЫ КАК СРЕДСТВО ВЫРАЖЕНИЯ КАТЕГОРИИ ОТНОШЕНИЯ [28]

Анастасия Соколова

Отношение как категория рассматривается в разных сферах науки: в философии, психологии, лингвистики и других. Категория отношения в языке – это предельно абстрактная категория, под которую подводятся все возможные факты проявления отношений в языке (Категория (1997: 8)).

Процессуальные фразеологизмы (ПФЕ), как и другие языковые единицы, могут выступать средством выражения категории отношения. На наш взгляд, ПФЕ способны выражать четыре типа отношений:

  1. межличностный (вставлять палки в колёса кому-л., брать/ взять на поруки кого-л., верить/ поверить на слово кому-л., вправлять/ вправить мозги кому-л., вступать/ вступить в брак с кем-л., выводить/ вывести на чистую воду кого-л., заговаривать зубы кому-л., крутить шашни с кем-л., ломать шапку перед кем-л., морочить/ заморчить голову кому-л., наступать на пятки кому-л., обвести вокруг пальца кого-л., рассыпаться мелким бесом перед кем-л., сесть на голову кому-л., утереть нос кому-л., ходить по пятам за кем-л., читать мораль кому-л.);
  2. межпредметный (входить/ войти в состав чего-л., вызывать к жизни что-л., выходить за рамки чего-л., лежать в основе чего-л., лечь бременем на что-л., наложить печать на что-л., бросать отсвет на что-л.),
  3. личнопредметный (встречать/ встретить в штыки что-л. беречь как зеницу ока что-л., вложить душу во что-л., закрыть глаза на что-л.)
  4. предметно-личный (оказывать влияние на кого-л., входить в душу кого-л., выводить из себя кого-л., вызывать интерес у кого-л.).

Единицы межличностного типа отношений преобладают над всеми остальными. Чаще всего возможность выражать лично-предметные, предметно-личные и межпредметные отношения появляется у процессуальных фразеологизмов с развитием нового значения. При этом каждое последующее значение является более отвлечённым, что сказывается и на абстрактном характере выражаемых единицей отношений.

Например, фразеологизм одержать верх над кем-чем-л. может выражать два типа отношений, т.к. является многозначным:

1) субъектно-личный, объектно-личный, межличн. отн. Одолеть, превзойти, победить противника в борьбе, битве, соревновании:

Окубо тогда одержал верх над своими оппонентами, потому что он умнее и хитрее. Б. Акунин. Алмазная колесница.

2) субъектно-предметный, объектно-предметный, межпредметн. отн. Иметь преимущество над чем-л., быть сильнее чего-л., быть предпочтительнее чего-л.

<...> стремление к истине еще раз одержало в Грацианском верх над личными влечениями сердца, если уж он решился назвать вещи своими именами. Л. Леонов Русский лес.

В первом значении фразеологизм одерживать/ одержать верх над кем-чем-л. выражает отношения между людьми, т.к. субъект и объект отношений выражены одушевлёнными существительными. Инициатор отношений – человек активный, сам добивается победы над противником. Во втором значении фразеологизм выражает отношения между неодушевлёнными предметами. При этом члены отношений выражены отвлечёнными существительными (стремление и влечение), что делает характер отношений более абстрактным.

Фразеологизм одерживать/ одержать верх над кем-чем-л. часто используется в заголовках современных новостных Интернет-изданий. При этом чаще всего актуализируется второе значение единицы. Фразеологизм служит средством выражения отношений между неодушевленными предметами.

В нашей картотеке обнаружено два употребления, где единица выражает отношения между одушевлёнными предметами:

Австралиец одержал верх над акулой (НТВ. Новости, 16.01.2006). Как видно из примера, вторым членом отношений является не человек, а рыба.

Дублеры "Ростова" одержали верх над пермяками (Спорт-экспресс. Футбол, 09.09.2005). Речь идёт о спортивных командах, соревнующихся между собой.

Употребления, где членами отношений являются спортивные команды, составляют особую группу. В них фразеологизм формально выражает отношения между неодушевлёнными предметами, но речь идёт об участниках соревнующихся спортивных команд, следовательно, уровень абстрактности значения единицы невысок:

"Металлист" одержал верх над "Харьковом" (Мои события, mysob.ru, 21.10.2007). Во втором туре чемпионата России по футболу "Зенит" одержал верх над "Москвой" (Независимая газета, news.ng.ru, 23.03.2008). Плохие известия не помешали "Ладе" одержать верх над ХК МВД. (РИА Новости, 12/ 10/ 2005)

Другие примеры свидетельствуют о том, что фразеологизм одерживать/ одержать верх над кем-чем-л. расширяет своё семантическое пространство, становится способным выражать отношения между странами, компаниями, веществами и т. д.

Шоколад одержал верх над поцелуем (news.bigmir.net, 18/07/2007). Honda одержала верх над Toyota на своей территории. (News.Battery.Ru - Аккумулятор Новостей, 2003-01-13). Китай одержал верх над США (N-T.ru, 14 декабря 2004). Российское кино одержало верх над США. (Дни.ру, 05.06.2006). Microsoft одержит верх над Sony? (DTF.RU, 15.07.2004).

Таким образом, развитие значений фразеологической единицы развивается от наиболее конкретного (отношения между лицами) к наиболее абстрактному (отношения между предметами). Один и тот же фразеологизм может быть средством выражения разных типов отношений.

ЛИТЕРАТУРА

Категория (1997). Категория отношения в языке / Р.М Гайсина, И.А. Захарова, Л.И. Иванова, А.Е. Родионова, Л.А. Самохина. – Уфа. – Изд-во Башкирского ун-та, 1997.- 174с.

POLYSEMANTIC PROCESS PHRASEOLOGICAL UNITS IS MEANS OF EXPRESSION CATEGORY OF RELATIONSHIP [29]

Anastasia Sokolova [30]

ABSTRACT

Process phraseological units can to express different relationship, such us: 1) between a person and a thing, 2) a person and a person, 3) a thing and a thing, 4) a thing and a person. For example, to have a deal with, to pay attention to and other. It can to have different meaning.

KEYWORDS:

Process phraseological units, semantics, category of relationship.

СЕМАНТИЧЕСКОЕ РАССТОЯНИЕ НА ЛИНГВИСТИЧЕСКОЙ БАЗЕ ДАННЫХ И WORDNET

Сергей Потемкин

ВВЕДЕНИЕ

WordNet в настоящее время принимается в качестве стандартного ресурса для систем обработки естественного языка (Fellbaum, 1998). Простота структуры позволяет сравнительно просто встраивать эту базу знаний в прикладные системы. Базовым структурным элементом WordNet являются синсет, синонимический ряд, кодирующий некоторое понятие. Между синсетами установлены немногочисленные ассоциативные отношения типа: гипоним, гипероним, синоним, голоним, мероним. В то же время даже для английского языка покрытие лексики в оригинальном WordNet (около 150000 синсетов) далеко неполно. Для языков, отличных от английского, имеющиеся ресурсы подобного рода значительно меньше по объему, составляя 70-20% от английского (Hofmann, Tjong Kim Sang, 2007). Ручное расширение национальных WordNet требует больших материальных затрат и привлечения квалифицированных специалистов. Поэтому имеется потребность в разработке методов автоматического расширения и совершенствования тезаурусов и таксономических систем. (Яблонский, Сухоногов, 2005)

В этой статье рассматриваются межъязыковые меры расстояния между понятиями, которые определяют расстояние между парой слов одного языка с использованием двуязычных словарей. Затем предлагается использовать корпус параллельных текстов для выделения семантического значения отдельных лексических единиц. Хотя русский не относится к языкам, бедным ресурсами, известно, что русский wordnet (RusNet) содержит приблизительно 100000 синсетов и менее развит, чем английский в отношении покрытия лексики языка и представленных семантических отношений. С другой стороны, имеются тщательно разработанные и существенные по объему толковые общелексические и терминологические словари на русском языке, двуязычные русско-английские словари, а также большие по объему (неразмеченные) корпуса параллельных текстов.

Однако применение алгоритмов, опирающихся на семантическое расстояние для большинства языков затруднено вследствие недостатка лингвистических ресурсов. Метод симметричен относительно пары языков, поэтому может быть применен к измерению расстояния между английскими словами для сравнения с существующими тезаурусами.

1. СЕМАНТИЧЕСКИЕ И ДИСТРИБУТИВНЫЕ МЕРЫ

При определении семантического расстояния используются два основных класса методов.

Семантические меры, типа предложенных в работах (Jiang, Conrath, 1997) и (Resnik, 1995), основанные на существующих тезаурусах типа Роже (Jarmasz, Szpakowicz, 2003), WordNet, применяются, чтобы определить расстояние между определенными в них понятиями. В обзоре семантических мер (Budanitsky, Hirst, 2006) приводятся подходы к определению семантических мер, применяемые для решения различных лингвистических задач.

Однако высококачественные тезаурусы и тем более WordNet-подобные ресурсы, которые требуются для применения этих методов, для большинства из 3000-6000 языков, существующих на сегодня, отсутствуют, а их создание являются дорогостоящим. В то же время, для большинства языков, которые были предметом академического изучения, имеется, по крайней мере, двуязычный словарь, связывающий основную лексику этого языка с одним из мировых языков и, хотя бы небольшой, корпус в электронном или печатном виде.

Дистрибутивные меры, типа нормированного скалярного произведения и асимметричного распределения вычисляются исходя из допущения, что два слова, семантически близки настолько, насколько часто они имеют сходное окружение в текстах (Yarowsky, 1992). Дистрибутивные меры основаны на сыром тексте, возможно с некоторой синтаксической обработкой (лемматизация, POS-разметка). Они не требуют никакого вторичного ресурса, и, как правило, обеспечивают большее покрытие лексики. Для измерения дистрибутивного расстояния также использовался латентный семантический анализ (ЛСА) (Landauer и др., 1998), однако применение ЛСА имеет высокую вычислительную стоимость, что снижает возможность масштабирования метода на тексты большого объема. Кроме того, сокращение размерности, обеспечиваемое ЛСА, приводит к преобладанию доминирующего значения при недооценке других значений.

В опубликованных экспериментах контекст целевого слова, то есть сопровождающие его слова задаются в пределах ±n позиций с обеих сторон, n = 2...5 (но без пересечения границы предложения). Корреляция целевого слова с окружающими его в контекстах обычно представляется дистрибутивным профилем (ДП) слова.

Для получения ДП подсчитывается число появлений целевого слова в сопровождении других слов в тексте и как часто все эти слова встречаются индивидуально. Затем применяется подходящая статистика, чтобы определить силу ассоциации между целевым и сопровождающим словом. (Zesch, Gurevych, Muhlhauser, 2007)

Дистрибутивные профили двух целевых слов представляются как вектора в многомерном пространстве слов. Подходящая дистрибутивная мера (например, косинус угла между векторами в этом пространстве) дает расстояние между точками, то есть оценку семантического расстояния между целевыми словами.

Дистрибутивные меры сами по себе дают недостаточную точность по сравнению с семантическими мерами, поскольку дают усредненное расстояния между всеми возможными парами значений. Скажем, если задана ассоциативно близкая целевая пара игра и актер, дистрибутивная мера даст результат, являющийся некоторым усреднением расстояний между преобладающими значениями. Существительное игра имеет преобладающее значение 'развлечения', а не 'исполнение' (роли, музыкального произведения), так что дистрибутивная мера ошибочно придаст целевой паре большую величину расстояния.

2 МЕЖЪЯЗЫКОВЫЕ ДИСТРИБУТИВНЫЕ МЕРЫ НА ОСНОВЕ ДВУЯЗЫЧНЫХ СЛОВАРЕЙ

Предлагаемый подход основан на использовании двуязычного словаря в качестве исходного корпуса, на котором определяется семантическая метрика. Ниже подход будет иллюстрироваться примерами на русском и английском языке, но сам алгоритм не зависит от используемых языков.

Словарь (лексическая база данных - ЛБД) в своей основе имеет англо-русские и русско-английские словари, доступные в электронном виде и частично введенные в компьютер с бумажных носителей – всего более 30 словарей. Таким образом собрано около 1.5 млн. записей ЛБД, имеющей структуру реляционной таблицы. Каждая запись включает следующие поля:

  • английское слово (словосочетание)
  • POS английского слова
  • русское слово (словосочетание)
  • грамматика русского слова (по А.А. Зализняку)
  • лексические и стилевые пометы
  • список словарей, зафиксировавших данную англо-русскую пару

Представление ЛБД в виде реляционной таблицы позволяет легко проводить всевозможные сортировки, индексирование, вводить новые поля для записи производных данных и составлять программы обработки, пользуясь языками программирования БД.

Расстояние между двумя русскими словами, aR и bR, связанными английскими эквивалентами можно определить как

(aR, bR) = 1/ni,

где сумма взята по всем английским эквивалентам, приписанных одновременно обоим русским словам, а ni - число словарей, зафиксировавших вышеуказанные эквиваленты.

Другой способ задания метрики над лексической базой заключается в вычислении нормированного скалярного произведения векторов, соответствующих aR и bR в пространстве английских слов:

(aR, bR) = nai — nbi /(||aR|| — ||bR||)

где nai, nbi - число словарей, зафиксировавших совпадающие эквиваленты для aR, bR соответственно, а ||aR||, ||bR|| - длина векторов, соответствующих aR, bR

После задания метрики становится возможным проводить различные виды количественного анализа ЛБД, включая кластеризацию и определение иерархических отношений между словами, что, в частности, поможет в построении развитого Тезауруса русского языка и установлении его связи с тщательно разработанной семантической сетью WordNet.

3 ГРАФИЧЕСКОЕ ПРЕДСТАВЛЕНИЕ СЕМАНТИЧЕСКОЙ СЕТИ, МНОГОМЕРНОЕ ШКАЛИРОВАНИЕ

Семантическая сеть с наложенной метрикой может быть представлена в виде графа, вершинами которого являются отдельные слова, а ребрами – связи между этими словами через двуязычный словарь. Такой граф может быть уложен без искажений только в пространство большой размерности (равной числу слов в ЛБД).

Дальнейшие примеры приводятся для английских слов, что позволить провести сравнение с WordNet. Семантическая -окрестность заданного слова aE включает все слова bEi, лежащие внутри многомерной сферы радиуса с центром в aE:

(aE, bEi) <

Для визуализации окружения данного слова требуется провести многомерное шкалирование, чтобы наилучшим образом отобразить на плоскости визуализации все расстояния (aE, bEi). (Толстова, 2006).

Рис. 1 Визуализация окрестности слова accolade (акколада) [31]

Рис. 2 Выделение доминанты окрестности слова acerbity(терпкость).[32]

Визуализация позволяет зрительно представить семантические расстояния между словами и в некоторых случаях выделить кластеры значений. Выбранное в качестве примера слово accolade имеет узкую семантическую область, что позволяет легко интерпретировать результаты, которые в случае большого семантического покрытия, дадут визуально нечитаемый граф.

3. ВЫДЕЛЕНИЕ ДОМИНАНТ

В синонимическом ряду, построенном в -окрестности данного слова, полезно выделить доминанту – если синонимический ряд представляет собой единственный кластер, или несколько доминант – если кластеров несколько. Для выделения доминант применяется метод Марковских цепей, где за вероятность перехода между состояниями принимается нормированная величина, обратная расстоянию между выделенными словами. При сходимости марковского процесса выделяются одна или несколько доминант. На рис. 2 в окрестности слова acerbity(терпкость) выделилась доминанта asperity (резкость). Можно продолжить процесс, взяв в качестве целевого слово полученную доминанту. К сожалению, этот процесс не приводит к построению таксономии, а зацикливается через 3-7 шагов.

При исследовании кластеров и доминант можно варьировать некоторые параметры:

- размерность отображаемого пространства;

- минимальное число словарей, через которые связаны синонимы;

- максимальное число шагов от целевого слова до синонимов

- максимальное число отображаемых слов

- слово, исключенное из синонимического ряда (часто бывает полезно исключить целевое слово, поскольку оно заведомо связано со всеми окружающими его словами и, следовательно, может давать ложную доминанту).

4 СРАВНЕНИЕ С WORDNET

Синсеты

Вернемся к рассмотрению слова акколада. Толкование этого слова дает 3 значения: муз. – скобка…, ист. - обряд посвящения в рыцари (расширенное значение «поощрение, награда» употребляется с 1852) стр. - архитектурное украшение

В двуязычных словарях найдено соответствие accolade = акколада, одобрение, одобрительный отзыв, похвала.

В WordNet синсет слова включает: award, accolade, honor, honour, laurels.

Само слово accolade отмечено как крайне редкое по употреблению (оценка встречаемости 1).

Анализ этого синсета приводится в табл. 1.

Запрашивая в WordNet каждый из членов исходного синсета, получаем число значений (столбец 2 таблицы), так для слова award имеем 3 значения существительных и 2 значения глаголов. Запрашивая каждое слово синсета в ЛБД, получаем число синонимов, содержащихся в ней (столбец 3). В столбце 4 выписаны эти синонимы для слова accolade.

Непосредственным гиперонимом для синсета в WordNet указан symbol -- (an arbitrary sign (written or printed) that has acquired a conventional significance).

В то же время для слова commendation, которое отмечено как менее редкое (оценка 2) непосредственным гиперонимом указан синсет с accolade. Получилось, что крайне редкое слово, согласно WordNet, оказалось гиперонимом для относительно употребительного слова.

С содержательной точки зрения акколада в смысле посвящения в рыцари (и, следовательно, метафорическое употребление слова), является частным случаем поощрения.

Действительно, для остальных слов, входящих в синсет, гиперонимы и гипонимы, возможно, построены правильно, но слово accolade, выбивается из этого ряда, как по частоте употребления, так и по семантической общности. Если мы попытаемся разрешить омонимию употребления в тексте слова accolade в смысле «скобка» или «поощрение» по гиперонимам, мы не сможем это сделать, поскольку гиперонимом того и другого является «символ».

Таблица 1

Синсет № значений по WordNet № синонимов по ЛБД Синонимы
award 3n+2v 80
accolade 1n 8 commendation, praise (поощрение), approbation, applause (одобрение), + honorable mention, mention, positive mention (похвальный отзыв)
honor=honour 4n+3v >100
Laurels 2n 15

Этот пример далеко не единственный, и он показывает недостатки принципа формирования синсетов. \

Ассоциативные отношения

Задача формирования отношений часть-целое, род-вид, которые установлены в WordNet, для национальных тезаурусов представляется более сложной, чем формирование синонимических рядов (Лукашевич, 2000).

Для автоматического формирования родовидовых понятий принят подход, основанный на поиске в корпусе заранее сформулированных синтаксических конструкций типа «А представляет собой В», «А есть некоторый В», «в число В входит А», и т.п., которые

регулярно встречаются в текстах и часто используются при построении определений типа «genus proximum + differentia specificae» в толковых словарях. В отдельных случаях трудно отличить их от синонимических (Азарова и др., 2003).

Нельзя также утверждать, что в текстах гиперонимы употребляются чаще по сравнению со своими гипонимами. Например, верхний уровень таксономии в WordNet «сущность», употребляется в 3.2 раз реже, чем его гипоним «вещь». (Шаров, 2001).

Кроме того, особенностью WordNet, на которую следует обратить внимание – это принцип формирования таксономии синсетов. Лежащая в основе древовидная структура не всегда соответствует реальному соотношению значений слов в языке; значительная доля понятий может быть расклассифицирована по разным признакам, т.е. иметь более одного вышестоящего понятия. (Лукашевич, Добров, 2001)

Так, слово dog, в первом значении WordNet – «домашняя собака» имеет гиперонимом canine, canid (псовые) и далее гиперонимы строятся согласно зоологичской классификации. В то же время ни слово animal, ни слово pet, являющиеся очевидными гиперонимами, оказываются никак не связанным с dog.

В толковом словаре русского языка (Ожегов, Шведова, 1997) дается более взвешенное определение слова : Собака - 1. Домашнее животное сем. псовых.

Возможно, семантическая структура лексики естественного языка, не допускает такого упрощенного представления, как иерархическое дерево и должна представляться сетью с множеством входящих и исходящих ветвей для каждого слова и даже для каждого его значения.

5. НАПРАВЛЕНИЕ ДАЛЬНЕЙШЕЙ РАБОТЫ

В отличие от методов разрешения омонимии на основе тезаурусов, в частности, WordNet, предлагается использовать подход, основанный частью на двуязычных словарях и частью на обработке двуязычных корпусов.

В качества отдельного значения полисемичного русского слова wR используется пара (w0R, w0E), где w0R – лемма русского слова wR и w0E – лемма английского слова (как приводится в двуязычном словаре).

Если у нас имеется выровненный по предложениям корпус параллельных текстов русского и английского языков, а также в каждом предложении проведено оптимальное сопоставление слов русского предложения словам параллельного ему английского предложения, (Кедрова, Потемкин, 2007), выделяются пары (w0Ri, w0Ej). Для каждой такой пары выделяется контекст – слова, окружающие w0Ri в русском и w0Ej в английском предложении.

Как в моноязыковых дистрибутивных мерах, по контекстам определяется ДП, но не для русского слова wRi, а для пары (w0Ri, w0Ej), которая задает отдельное значение wRi.

Следует отметить, что из всего состава ЛБД (порядка 1,5 млн. пар англо-русских эквивалентов) около 20% являются уникальными парами, то есть русское слово (словосочетание) имеет единственный английский эквивалент и наоборот. Для таких однозначных слов (словосочетаний) не требуется строить дистрибутивные профили.

С другой стороны, часто многозначные слова в одном языке имеют для большинства значений один и тот же эквивалент в другом языке. Напр., слово с ДП слова star:

star: space 0.28, movie 0.2, famous 0.13, light 0.09, rich 0.04,...

будет иметь аналогичный дистрибутивный профиль в русском языке

звезда: кино, эстрада, свет, небо

То есть значения согласно дистрибутивной метрике будут очень близки. Но такое смешение значений не приводит к ошибкам, скажем, при выборе эквивалента в машинном переводе.

Для остального массива слов требуется построение ДП, которые могут быть приписаны каждой паре R-E эквивалентов в ЛБД. Следует отметить, что такая работа может проводиться постепенно, по мере обработки все более обширных корпусов параллельных текстов различной тематики.

ЗАКЛЮЧЕНИЕ

В статье предлагается подход к определению семантического расстояния между словами одного языка на основе многоязычных ресурсов, параллельных текстов и двуязычных словарей. Приведены результаты кластеризации и выделения доминант в метрике, наложенной на лингвистическую базу данных, составленную из двуязычных словарей.

Проводится сравнение с подходами на основании тезауруса – WordNet и чисто дистрибутивным подходом на базе одноязычного корпуса. Делается вывод о несовершенстве подхода к построению тезаурусов в виде иерархических структур. Отдельное значение слова предлагается связать не с синсетом, или синонимическим рядом одного языка, а с парой слово-перевод. Дистрибутивные профили такой пары могут быть построены с использованием выровненного корпуса параллельных текстов.

ЛИТЕРАТУРА

1. Budanitsky A, Hirst G., 2006. Evaluating WordNet-based measures of semantic distance. Computational Linguistics, 32(1): 13—47.

2. Fellbaum C, 1998. WordNet An Electronic Lexical Database. MIT Press, Cambridge, MA.

3. Hofmann K., Tjong Kim Sang E.(2007), Automatic extension of non-english wordnets Proceedings of SIGIR’07, Amsterdam, The Netherlands.

4. Jarmasz M, Szpakowicz S, 2003. Roget's Thesaurus and semantic similarity. Proceedings of the International Conference on Recent Advances in Natural Language Processing (RANLP-2003), pages 212-219.

5. Landauer T.K, Foltz P.W., Laham D., 1998. Introduction to latent semantic analysis. Discourse Processes, 25(2-3):259-284.

6. Resnik P., 1995. Using information content to evaluate semantic similarity. Proceedings of the 14th International Joint Conference on Artificial Intelligence (IJCAI-95), pages 448-453, Montreal, Canada.

7. Yarowsky D., 1992. Word-sense disambiguation using statistical models of Roget's categories trained on large corpora. Proceedings of the 14th International Conference on Computational Linguistics (COLING-92), pages 454-460, Nantes, France.

8. Zesch T, Gurevych I, Muhlhauser M., 2007. Comparing Wikipedia and German WordNet by evaluating semantic relatedness on multiple datasets. Proceedings of Human Language Technologies: The Annual Conference of the North American Chapter of the Association for Computational Linguistics (NAACL HIT 2007), pages 205-208, Rochester, New York.

9. Азарова И.В., Митрофанова О.А., Синопальникова А.А. Компьютерный тезаурус русского языка типа WordNet Труды международной конференции Диалог'2003 "Компьютерная лингвистика и интеллектуальные технологии", (Протвино, 11-16 июня 2003 г.) М., 2003, с. 43-50.

10. Кедрова Г.Е., Потемкин С.Б. Выравнивание неразмеченного корпуса параллельных текстов. Международная научная конференция «Современные проблемы лексикографии», Lex 2007, Гродно, Беларусь, труды

11. Толстова Ю.Н., Основы многомерного шкалирования М, 2006, ISBN: 5-98227-100-4

12. Шаров С.А. Частотный словарь URL: http: www.artint.ru/projects/frqlist.asp13.

13. Яблонский С.А, Сухоногов А.М. Автоматизация построения англо-русского WordNet, XI Конгресс МАПРЯЛ, Варна, 17 – 23 сентября 2007, труды

SEMANTIC DISTANCE OVER LINGUISTICAL DATABASE AND WORDNET [33]

Serge Potemkin [34]

ABSTRACT

Methods of quantitative analysis are based on the fundamental concept of distance between entities. Application of these methods in semantics researches is possible only when the adequate metrics is imposed over the set of lexical units. An approach for defining such metrics is proposed in this paper. Lexical database is used for defining distance between Russian words. Monolingual and bilingual resources are used for words clustering and sense disambiguation in Machine Translation systems.

KEYWORDS:

Wordnet, semantics, distance, cluster, homonym, synonym, metrics.


Session B

COGNITIVE SCIENCE AND CONSCIOUSNESS

Author, Title
Pages
Tatiana Chernigovskaya LANGUAGE AND REASONING IN HUMANS AND OTHER ANIMALS v.2
Ekaterina Vasyukova THE NATURE OF EXPERTISE: KNOWLEDGE OR SEARCH? 90
Alla Belousova STYLE OF THINKING AS A FACTOR OF COGNITIVE VARIANT EDUCATION 103
Tatiana Petrova and Maria Gutman CONTEXT PREDICTABILITY OF WORDS IN NORM AND SCHIZOPHRENIA 113


Pages:     | 1 | 2 || 4 | 5 |   ...   | 8 |
 





<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.