WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

Pages:     || 2 |
-- [ Страница 1 ] --

Инструменты и приемы: 2

Части речи: 4

Морфологические и семантические признаки для английского: 5

Question>

Постановка задачи 9

О расширении статей толкованиями терминов и т.д. 10

Про модуль поиска фрагментов / статей (ответов на запрос). 13

Вариант использования фреймов для расширения фраз: 27

Другой вариант развития событий: 27

Метод обучения модели извлечения слотов фреймов 28

Вопрос: можно ли представитьпроцесс выделения NE, N-gramm и всего остального как оптимизационную задачу? 34

Инструменты и приемы:

  1. Использование неизвестных параметров при разработке и исследование эффективности в зависимости от их изменения
  2. Деревья решений и алгоритмы усечения деревьев решений (чтобы избавиться от излишней детализации)
  3. Поиск минимума ||Ах-у|| - норма Фробениуса, корень из суммы квадратов элементов матрицы, где х – входной вектор, у – выходной вектор (приближенное решение), А – искомое (аппроксимирующее) отображение
  4. Адаптивная линейная классификация (стр. 22 диссертации)
  5. Поиск разделяющей гиперплоскости в пространстве признаков (отделяющей положительные примеры от отрицательных)
  6. Наивная байесовская классификация
  7. Ансамбли независимо обученных классификаторов
  8. Автоматическое составление описания категории по ее названию с помощью WordNet
  9. Представление слов в документе синсетами
  10. Иерархические словари (в т.ч. на базе WordNet)
  11. Методы предметной классификации синсетов WordNet (определение области знания, стр. 34 диссертации)
  12. Разрешение лексической многозначности (стр. 45 – см. анализ эффективности)
    1. Выбор синсета, слова из которого чаще всего встречаются в тексте
    2. На основе скрытой модели Маркова
    3. Выбор синсета, дающего максимальное пересечение с предложением (алгоритм Леска)
    4. Оценка семантической близости синсета-кандидата с синсетами из контекста многозначного слова. Оценка семантической близости:
      1. Оценка расстояния (длины пути) между синсетами в иерархии WordNet
      2. Оценка информативности наиболее специфичного общего для двух синсетов узла иерархии WordNet (стр. 40)
      3. Оценка расстояния (длины пути) между синсетами в иерархии WordNet, где веса дуг = разности количества информации отцовской и дочерней вершины
      4. Синсеты сходны, если сходны контекстные векторы второго порядка для этих синсетов, построенные по дефинициям (**** - best)
  13. Построение расширенных дефиниций, чтобы не получилось непересекающихся контекстов для похожих слов
  14. Поиск словосочетаний путем: выделения участков предложения, ограниченных знаками препинания последовательно отбрасываем каждое первое слово из отрезка, пока не найдем синсет в словаре удаляем слова синсета из отрезка и заново, пока отрезок не опустеет
  15. отсечение слов по длине;
  16. отсечение шумовых слов;
  17. поиск ключевых слов и фраз (и их отсутствие), поиск наиболее часто встречающихся фраз:
    1. E3KWDCheck – общее число вхождений слова, повторяется ли слово в заголовках, стиль написания слова (жирный, курсив, …), вес и плотность слова или словосочетания;
    2. TextAnalyzer – сколько в тесте символов, строк; частотность слов;
    3. GetKeywords – часто встречающиеся слова, их сортировка, поиск слов, настаиваемый поиск по длине слова и повторению, добавление и удаление ключевых слов, загрузка ключевых слов из файла.
  18. приписывание веса словам (важность слова) (TF*IDF – см. новый автореферат);
  19. расстояние между словами (возможно, ключевыми), позиционирование фраз, порядок слов, распределение ключевых слов вопроса в тексте, синонимов, словосочетаний, их взаимное расположение;
  20. переход по частям речи (Москва московский);
  21. расшифровка аббревиатур;
  22. сo-reference;
  23. обработка имен собственных, слов с большой буквы, слов в кавычках;
  24. стемминг;
  25. выделение NE (в т.ч. для определения типа ответа), анализ частей речи, лексем (how hot temperature) (есть утилиты, см. Переломов)
  26. определение типа слова или N-gram (NE, вспомогательное слово и т.п.);
  27. таксономия вопросов (типы вопросов типы ответов, определение вопросительного слова и его типа);
  28. определение фокуса вопроса;
  29. переформулировка запроса (упрощение, разбиение на несколько, в большое количество запросов, в логическую форму, семантическую цепь);
  30. расширение запроса;
  31. WordNet и другие тезаурусы, расширение синонимами;
  32. анализ синтаксиса, семантики (построение семантических деревьев и отображение в поддеревья, например, таксономии вопросов определение типа ответа);
  33. машинное обучение;
  34. статистические методы;
  35. шаблоны (составляются на основании накопленной статистики) – для распознавания типов вопросов;
  36. использование избыточности Веб;
  37. выделение вариант термов (POS термы выделение для слов в термах морфологических и семантических вариант варианты термов по шаблонам);
  38. распознавание тематики станицы;
  39. распознавание некорректных данных;
  40. классификация ответов и вопросов по методу наибольшей энтропии (по обучающей статистике);
  41. индексирование:
    1. word-based + POS (с весами)
    2. NE-based, QA лексемами (лемматизация + раскрытие аббревиатур + раскрытие полных имен + NE + лексемы)
    3. Концептуальное (word-based + таксономии концептов)
    4. Индексирование термами
    5. Индексирование синсетами WordNet:
      1. морфологический разбор,
      2. поиск устойчивых словосочетаний
      3. устранение лексической многозначности
      4. уменьшение размерности пространства признаков, представленных синсетами, с использованием функции полезности (признака) на основе критерия «хи квадрат»: функция полезности f(t,c) характеризует значимость признака t в некотором документе для категории c: , где N — количество документов в обучающей коллекции, A — количество документов, в которых встречается t и которые определены в c, B — количество документов, в которых встречается t и которые не определны в c, C — количество документов, в которых не встречается t и которые определены в c, D — количество документов, в которых не встречается t и которые не определены в c. Чтобы вычислить значимость признака t для всех категорий c, необходимо найти максимальное значение .
      5. После уменьшения размерности пространства признаков осуществляется вычисление весовых коэффициентов признаков для документов обучающей коллекции. Для взвешивания используется один из вариантов статистических весовых функции TF*IDF (Salton G. et al., 1998): где wij — вес i-го признака в документе dj, tfij — частота встречаемости i-го признака в рассматриваемом документе, idfi — логарифм отношения количества документов в коллекции к количеству документов, в которых встречается i-ый признак. Веса, вычисленные по этой формуле, нормализованы таким образом, что сумма квадратов весов каждого документа равна единице. Документ dj после взвешивания представляется вектором . На этом построение классификатора заканчивается.
  42. Наблюдение: «нахождение возможных ответов наиболее вероятно в небольшой окрестности центра скопления ключевых термов вопроса, их вариант»
  43. использование классификатора для фильтрации релевантных документов (методы категоризации текстов — деревья решений, метод наименьших квадратов, адаптивные линейные классификаторы, метод ближайших соседей, метод опорных векторов и другие (Sebastiani F., 2002).)
  44. алгоритмы выбора синсетов WordNet (разрешение лексической неоднозначности слов на основе сравнения контекстных векторов слов и векторов-дефиниций синсетов) (автореферат новый)
  45. гипотеза: слова, встречающиеся в похожих контекстах, схожи по значению два контекстных вектора второго порядка, расположенные близко к друг другу, скорее всего обозначают одно и тоже значение слова
  46. В работе (Patwardhan S. et al., 2006) описывается метод оценки семантической близости синсетов с помощью контекстных векторов, использующий информацию о совместной встречаемости слов в тексте. Оценка эффективности этого метода проводилась на нескольких наборах слов. Данный метод показывает лучшие результаты среди других методов оценки семантической близости слов на базе ресурса WordNet.
  47. выбор синсетов на основе Скрытой Модели Маркова
  48. выбор того синсета, слова которого в документе встречаются чаще остальных

Части речи:

  1. Имена собственные (географические названия, названия фирм, имена людей; значимые, самостоятельные, самодостаточные объекты);
  2. Существительные (объекты, явления) – дополнять статьями, синонимами;
  3. Глаголы (действия, явления природы) – статьями, синонимами;
  4. Прилагательные (описательные, характеризующие признаки; объекты) – синонимами, возможно статьями;
  5. Наречия (характеристики действия) – синонимы, возможно статьи;
  6. Местоимения (заменители существительных) – анафоричные ссылки, определять, кто объект на самом деле, и его расшифровывать;
  7. Причастия (глагол + прилагательное) – перефразировка и расширение (статьи, синонимы);
  8. Деепричастия (глагол + наречие) – перефразировка и расширение (статьи + синонимы);
  9. Вспомогательные части речи – не надо;
  10. Числительные – «синонимы» (2 два) + преобразование в «много», «несколько», «мало» и т.д.
  11. Устойчивые N-grams – статьи, синонимы.

Морфологические и семантические признаки для английского:

  1. Существительные:
    1. Ед./множ. число;
    2. Детерминативности (определенный/неопределенный/частичный артикль)
      1. Определенный: предмет мыслится как известный, выделяемый из класса однород­ных с ним предметов (определенный артикль). Семы артикля the:
        1. сема индивиду­ализации: существительное, имеющее при себе ар­тикль the, выделяется из класса однородных с ним предметов: «The boy wants to clear the table.»
        2. сема уникальности: сигнали­зирует о том, что предмет, обозначенный соответствующим суще­ствительным, является единственным в своем роде; ср.: the sun — солн­це, the earth — земля (наша планета);
        3. сема указательности: является общей с соответствующей семой указательных местоимений; ср.: I saw the man, about whom you phoned me last night;
        4. сема обобщения: дает возможность воспринимать данный предмет как обобщенное обозначение всех предметов данного класса; ср.: The horse is a domestic animal — Лошадь (всякая лошадь) домашнее животное
      2. Неопределенный: обозначаемый существительным предмет мыслится как относящийся к данному классу предметов (неопределенный ар­тикль). Семы a, an:
        1. сема классификации: относит предмет, с которым она связана, к тому или другому классу предметов; ср.: a dog — собака (любая собака);
        2. сема единичности: существительные, имеющие неопределенный артикль a, an, всегда мыслятся в единственном числе; ср.: His gaze rested for a moment on Anthony, and the intense dark eyes filled with pity
      3. Частичный: предмет мыслится как взятый не во всем своем объеме, а лишь в некоторой своей части (партитивный, или частичный, артикль)
    3. Общий/притяжательный падеж (последний есть только у существительных одушевленных и существитель­ных семантического поля «время»; семы притяжательного падежа следующие: предметность, оду­шевленность, притяжательность, субъектность и объектность);
    4. Активные/пассивные существительные (заменили род)
      1. Активные: будучи субъектом предложения, управляют дополнением (это как лица, то есть люди, так и не-лица, то есть предметы, которые в силу сложившейся ситуации рассматриваются говорящими как активные). Соотносят­ся с личными местоимениями he, she по естественному полу, с относительным местоимением who и принимают аф­фикс притяжательное -'s.
      2. Пассивные: будучи субъекта­ми предложения, дополнения не требуют. Соотносятся только с лич­ным местоимением it и с относительным местоимением which. Также употребляются в предлож­ном обороте с of; ср.: «The first gentleman detached a slip of paper and gave it to her»
    5. Одушевленное/неодушевленное;
    6. Исчисляемое/неисчисляемое;
    7. Собственное/нарицательное;
    8. Конкретное (journal)/вещественное (sugar)/отвлеченное (reading)/собирательное (foliage)
    9. Простые/производные:
      1. К простым именам существительным относятся существительные, не имеющие в своем составе ни префиксов, ни суффиксов: boat, pen, water.
      2. К производным именам существительным относятся существительные, имеющие в своем составе суффиксы или префиксы или одновременно и те и другие: fitness, childhood, safety. К наиболее характерным суффиксам производных существительных относятся:
        1. - er: teacher (учитель), writer (писатель), producer (изготовитель, поставщик)
        2. - ment: agreement (договор, соглашение), settlement (колония, поселение)
        3. - ness: kindness (доброта, доброжелательность), weakness (слабость, склонность)
        4. - ion: collection (накопление, сбор), connection (связь, соединение)
        5. - dom: wisdom (мудрость, здравый смысл), freedom (независимость)
        6. - hood: childhood (детство), neighbourhood (близость, смежность)
        7. - ship: friendship (дружба, дружеские отношения)
  2. Глаголы:
    1. Общий/длительный вид ИЛИ основной/длительный/перфектный/перфектно-длительный разряды.
      1. Основной разряд (Indefinite) — единственная форма, способная передавать динамику, смену событий. Безразличен к категории вида, так как может, передавать значение однократности и многократности и по линии непредельных глаголов и двойственных глаголов синонимичен формам длительного разряда
      2. Длительный разряд — задает про­цесс в его протекании, а видовое содержание
      3. Перфект — задает действие в его выполненности.
      4. Все разряды, кроме основного, детализируют действие в плане од­новременности или предшествования, но не используются для пере­дачи смены действий во времени.
    2. Изъявительное/повелительное/сослагательное I/со­слагательное II/ предположительное/условное наклонение,
    3. Настоящее/будущее/прошедшее время,
    4. Действительный/страдательный залог
      1. Действительный (активный) залог: существует в формах индикатива и входящих в него форм времени и связан с прямым или предложным дополнением
      2. Страдательный (пас­сивный) залог, выраженный аналитическими формами, состоящими из форм глагола to be и причастия спрягаемого глагола, то есть Vbe+VpII
    5. Категории временной отнесенности, представленные формами перфекта
      1. абсолютные временные формы (формы группы Indefinite)
      2. относитель­ные временные формы (времена группы перфект и длительные)
    6. Переходный/непереходный,
    7. Возвратный/невозвратный
    8. Лицо (-s)
    9. Число
  3. Прилагательные:
    1. Качественные/относительные
      1. Качественные (big, strong):
        1. имеют степень сравнения: большой-больше, умный-умнее;
        2. сочетаются со словом «очень»: очень красивый, очень умный;
        3. могут иметь приставку «не»: нехороший, небольшой;
      2. Относительные (их мало, чаще всего относятся к науке): имеют отношение ко времени, месту, назначению предмета, материалу (chemical, biological)
    2. Степень качества (Обычная/сравнительная/превосходная)
  4. Наречия:
    1. Обычная/сравнительная степень
    2. состояние человека (на душе радостно, грустно, печально) / состояние природы (по утрам сыро, морозно) / оценку действий (можно, нельзя, надо, нужно, невозможно).
  5. Местоимения:
    1. Личные: I, me, you, he, him, she, her, it, we, us, they, them.
      1. Именительный/объектный падеж (основные семы – предметность, число и направленность).
    2. Возвратное: myself, yourself, himself, herself, itself, ourselves, yourselves, themselves.
    3. Притяжательные: my, your, his, her, our, yours, their.
    4. Вопросительные: who, whose, каков, который.
    5. Относительные (по форме совпадают с вопросительными)
    6. Неопределенные: somebody, something, какой-нибудь.
    7. Отрицательные: nobody, некого, нечего, ничей.
    8. Указательные: that, такой, таков, это.
    9. Определительные: сам, самый, каждый, любой, иной, другой, весь, всякий.
  6. Причастия:
    1. Действительное/страдательное
  7. Деепричастия:
    1. Настоящее/прошедшее время
  8. Числительные:
    1. Количественные (150)/порядковые (150-ый)/собирательные (двое)
  9. Прочие:
    1. Capitalized/NonCapitalized;
    2. Link Grammar connectors.

Question>



http://www.clres.com/trec8.html

The prototype system recognized six question types (usually with typical question elements):

(1) time questions ("when"),

(2) location questions ("where"),

(3) who questions ("who" or "whose"),

(4) what questions ("what" or "which," used alone or as question determiners),

(5) size questions ("how" followed by an adjective), and

(6) number questions ("how many").

Question phraseology not envisioned during the prototype development (principally questions beginning with "why" or non-questions beginning with "name the...") were assigned to the what category, so that question elements would be present for each question.

  1. Time Questions - The first criterion applied to a sentence was whether it contained a record that has a TIME semantic relation. The parser has specific mechanisms for recognizing prepositional phrases of time or other temporal expressions (e.g., "last Thursday"). During the analysis of the parser output, the database records created for these expressions were given a TIME semantic relation. After screening the database for such records, the discourse entity of such a record was then examined further. If the discourse entity contained an integer or any of its words were marked in the parser's dictionary as representing a time period, measurement time, month, or weekday, the discourse entity was selected as a potential answer.
  2. Where Questions - Each sentence was examined for the presence of "in" as a semantic relation. The discourse entity for that record was selected as a potential answer.
  3. Who Questions - There was no elimination of sentences for these questions. All sentences were continued to the next step. A potential answer was developed by searching for a record that had the same governing word as that of the unbound variable. (For example, "who created..." would show "create" as the governing word; a match would be sought for a sentence record with "create" as the governing word.) The head noun of the discourse entity would be the potential answer.
  4. What Questions - There was no elimination of sentences for these questions. All sentences were continued to the next step. A potential answer was developed by searching for a record that had the same governing word as that of the unbound variable. The discourse entity would be the potential answer.
  5. Size Questions - The first criterion applied to a sentence was whether it contained a record that has a NUM semantic relation. The parser has specific mechanisms for recognizing numbers. During the analysis of the parser output, the database records created for these expressions were given a NUM semantic relation. If these expressions were followed by a noun, the noun would be captured as the governing word. After screening the database for NUM records, the governing word of such a record was then examined further. If any of the words of the discourse entity were marked in the parser's dictionary as representing a measure, a unit, or a measurement size, the discourse entity, a space, and the governing word were constructed as a potential answer.
  6. Number Questions - The same criterion as used in size questions was applied to a sentence to see whether it contained a record that has a NUM semantic relation. In these cases, the number itself (the discourse entity) was selected as the potential answer.

Постановка задачи

Дано: запрос в виде одного или нескольких, возможно вопросительных, предложений.

Цель: выделить фрагмент текста или целую статью, релевантные запросу, и снабдить найденный фрагмент пояснениями к терминам и непонятным словам. Эти пояснения в свою очередь тоже можно расширить и т.д. Присоединение определений к предложению можно делать в виде гиперссылок на документы с определениями.

По запросу выдаем фрагмент текста, если ищем ответ на вопрос или определение-пояснение для термина-вопроса. Статью – если ищем текст, содержащий ключевую фразу.

То, будет искаться фрагмент или статья, зависит от желания пользователя – он может переключаться между типами поиска. Мы этого предугадать не можем!

Пояснения к терминам для расширения могут быть взяты из:

  1. Словарных статей;
  2. Статьи из Википедии – там расшифровки терминов еще могут осуществляться путем прохода по ссылкам на другие статьи;
  3. Прочие статьи из Интернета.

При этом все частотные и другие характеристики для фрагментов-ответов определяются по тексту – источнику фрагмента.

Итого два модуля:

  1. Поиск фрагментов-ответов на запрос / статьи, содержащей ключевую фразу;
  2. Модуль расширения текста пояснениями.

Смысл в этом всем:

  1. не будет необходимости искать определения непонятных слов – все будет включено;
  2. если воспринимать предложение как ситуацию, то получится более полное описание ситуации;
  3. можно использовать расширение предложения для сопоставления с запросом – оно может с большей вероятностью совпасть с запросом.
    1. Плюсы: больше вероятность совпадения с запросом.
    2. Минусы: больше вычислительных затрат на сопоставление с запросом, возможны ложные срабатывания, особенно если неправильно расширить, надо знать, какие именно слова расширять.

О расширении статей толкованиями терминов и т.д.

  1. чтобы не расширять термин в статье всеми его возможными толкованиями, можно определять его точное значение на основе контекста (как в автореферате) – вычислять контекстные векторы первого порядка (все слова, с которыми употребляется данное слово) и контекстные векторы второго порядка (сложение всех контекстных векторов первого порядка для слов, входящих в дефиницию данного слова):
    1. Разработанный алгоритм разрешения лексической многозначности основывается на предположении, что два контекстных вектора второго порядка, расположенные близко к друг другу, скорее всего обозначают одно и тоже значение слова. Таким образом, определение значения многозначного слова w в некотором предложении заключается в следующем:
      1. Вычисляется вектор для контекста слова w, который является суммой контекстных векторов первого порядка слов, находящихся на расстоянии в несколько позиций слева и справа от w в предложении.
      2. Производится оценка семантической близости всех возможных значений слова w с контекстом. Для каждого синсета слова w вычисляется косинус угла между вектором его дефиниции и вектором контекста.
      3. Самый близкий к контексту синсет выбирается в качестве значения слова

Имеет смысл дополнять только специфические, непонятные слова:

  1. Имена собственные (aka Named Entities, NE)
    1. Антропонимы (единичное имя собственное или совокупность имён собственных, идентифицирующих человека. В более широком смысле это имя любой персоны: вымышленной или реальной) (PERSONS):
      1. личное имя — имя при рождении
      2. отчество — патроним — именования по отцу, деду и т. д.
      3. фамилия — родовое или семейное имя
      4. прозвище
      5. псевдоним — индивидуальный или групповой
      6. криптоним — скрываемое имя
      7. антропонимы литературных произведений (литературная антропонимика), героев в фольклоре, в мифах и сказках
      8. эпоним (от греч. eponymos, «дающий имя») — бог, герой или человек, давший наименование городу, общине или году
      9. этноним — антропонимы, производные этнонимов (названий наций, народов, народностей, в английском – пишутся с большой буквы)
      10. теонимы — имена богов
      11. зоонимы — клички животных
    2. Топонимы (обозначающее название (идентификатор) географического объекта) (LOCATIONS):
      1. астионимы — названия городов;
      2. урбанонимы — названия внутригородских объектов;
      3. годонимы — названия улиц;
      4. агоронимы — названия площадей;
      5. дромонимы — названия путей сообщения;
      6. гидронимы — географические названия водных объектов, в том числе:
        1. пелагонимы — названия морей;
        2. лимнонимы — названия озёр;
        3. потамонимы — названия рек;
        4. гелонимы — названия болот, заболоченных мест;
      7. оронимы — названия поднятых форм рельефа (гор, хребтов, вершин, холмов);
      8. ойконимы — названия населённых мест;
      9. микротопонимы — названия небольших незаселенных объектов (угодий, урочищ, сенокосов, выгонов, топей, лесосек, гарей, пастбищ, колодцев, ключей, омутов, порогов и т. д., обычно известные лишь ограниченному кругу людей, проживающих в определённом районе);
      10. геонимы — названия дорог, проездов и т. п.
      11. хоронимы — названия больших областей, стран, обширных пространств.
    3. Названия уникальных природных явлений (ураган «Катрина»).
    4. Названия общественных акций, мероприятий и праздников (Хэллоуин).
    5. Именные события:
      1. войны
      2. битвы
      3. эпохи
      4. эры и т.д.
    6. Названия уникальных искусственных объектов и сооружений (кинотеатр «Москва»).
    7. Названия произведений литературы и искусства («Евгений Онегин», «Мона Лиза», «Восемь с половиной», «По волне моей памяти»).
    8. Названия радио- и телевизионных передач, программ и шоу («Большая разница»).
    9. Названия организаций, предприятий, учреждений, заведений и коллективов (Московский государственный университет, «завод «Кристалл», группа «Битлз»), а также их сокращения (ORGANIZATIONS).
    10. Названия товаров и торговых марок, брендов («Кока-кола», программные и др. продукты).
    11. Аббревиатуры
    12. Именные или нумерованные теоремы, тезисы, формулы, законы… (там должны быть термины той предметной области, к которой относится текст)
    13. Классификация NE по версии MUC:
      1. Persons
      2. Organizations
      3. Locations
      4. Plus “times” (dates, times) and “quantities” (monetary values, percentages)
  2. Специальные термины и сленг (термины той предметной области, к которой относится текст: возможно, что слово – термин в одной предметной области, и общеупотребительное в другой)
    1. По семантике:
      1. свободные словосочетания: справка с работы
      2. устойчивые словосочетания: всемирное тяготение
    2. По частям речи:
      1. термины-существительные
      2. термины-прилагательные
      3. термины-глаголы
      4. термины-наречия: пиано
  3. Низкочастотные и малоупотребительные слова
  4. Устойчивые словосочетания (синонимами – актуально для неанглоязычных пользователей);
  5. Даты;
  6. Все слова можно расширять синонимами, гиперонимами, наборами гипонимов.

Как определить:

  1. Имя собственное:
    1. Пишется с большой буквы, большими буквами или аббревиатура (аббревиатура – в любом случае это название)
  2. специальные термины:
    1. низкая частота в общей коллекции документов (или в разношерстной коллекции, или в коллекции неспециализированных, «обычных текстов»), и высокая частота употребления (его или его синсета) в некоторых документах (это документы по соответствующей тематике);
    2. могут содержаться в терминологических словарях;
    3. замечание: чтобы иметь общие частоты употребления слов (на коллекции неспециализированных слов, нужно составить пространство всех слов языка на основе коллекции текстов);
    4. можно заранее составить пространство слов таким образом, что в нем уже не будет общеупотребительных слов: на основе статистического анализа выкинуть лишнее (автор автореферата выкидывал стоп-слова и малоупотребительные слова);
    5. пространство слов можно составить на основе текстов Википедии и толковых словарей, в т.ч. дефиниций синсетов WordNet – хороший, разномастный корпус качественных, постоянно улучшаемых текстов;
    6. пространство терминов можно составить на основе ссылок Википедии (синих и красных), которые в середине текстов и после них в разделе «см. также»;
  3. сленг:
    1. сленговые (например, Ай-Ти-шные) словари
    2. низкая частота употребления в «официальных» текстах в сочетании с высокой частотой употребления в разговорной речи + значимые роли в предложении
  4. низкочастотные и малоупотребительные слова:
    1. очень низкая встречаемость в текстах (станет видно после построения пространства слов)
    2. отсутствие текстов (и тематик), где эти слова имеют высокую частоту встречаемости (это отличает их от терминов)
  5. устойчивые словосочетания (в т.ч. термины) должны быть методы
    1. ?????????????????????
    2. По связям Link или по шаблонам на основе связей???
  6. даты:
    1. изучить варианты их появления и использовать regexps (в районе появления цифр)
    2. на основе связей Link.

Про модуль поиска фрагментов / статей (ответов на запрос).

Чтобы выяснить, что множество предложений похоже на запрос, можно использовать фреймы Симакова. При этом запрос образует множество фреймов (из одного или нескольких фреймов), которые состоят из набора слотов (фреймы задают множество семантических отношений между элементами текстового фрагмента, а участники этих отношений (субъект, объект, действие, место и т.п.)) – слоты. В слотах могут быть слова или N-grams. Мы пытаемся означить фреймы в тексте.

Фреймы выделяем глагольные и именные. И те, и другие содержат главный слот (глагол или именную группу), а также множество зависимых слотов, каждый из которых имеет тип (соответствующий семантическому отношению между содержимым слота и главным слотом) и значение (N-gram). Слотов в фрейме может быть сколько угодно любых типов.

При этом можно следить за тем, чтобы какие-либо виды слотов не появлялись, или наоборот, появлялись в одном фрейме совместно.

Если запрос представлен вопросом, то вычисляем вопросительный терм и фокус вопроса и делаем его переменным слотом, значение которого ищем.

Глагольные фреймы – основные, соответствуют отдельным сегментам предложения, отдельным ситуациям.

Поэтому шаги выделения фреймов такие:

  1. Определение границ сегмента и глагола в сегменте;
  2. Означивание глагольного фрейма;
  3. В случае неполного покрытия сегмента глагольным фреймом, означивание именных фреймов.

Схожесть двух данных текстовых сегментов определяется похожестью фреймов.

Фреймы (семантические отношения, используемые в системе ДИАЛИНГ, http://www.aot.ru/docs/sokirko/sokirko-candid-4.html):

Название Примеры Структура
АВТОР Роман Толстого Указ Президента АВТОР(ТОЛСТОЙ,РОМАН) АВТОР(ПРЕЗИДЕНТ,УКАЗ)
АГЕНТ Мы сократили отставание АГЕНТ(МЫ, СОКРАТИТЬ)
АДР Я отдал стул отцу. АДР(ОТЕЦ,ОТДАВАТЬ)
В-НАПР указатель на Монино В-НАПР(МОНИНО,УКАЗАТЕЛЬ)
ВРЕМЯ Это произошло вчера. ВРЕМЯ(ВЧЕРА, ПРОИЗОЙТИ)
ЗНАЧ Высота дома – 20 метров. ЗНАЧ(20 МЕТРОВ, ВЫСОТА)
ИДЕНТ Дом N 20 ИДЕНТ (N 20, ДОМ)
ИМЯ Дворник Степанов ИМЯ(СТЕПАНОВ,ДВОРНИК)
ИНСТР резать ножом ИНСТР(НОЖ,РЕЗАТЬ)
ИСХ-Т яблоки из Молдавии ИСХ-Т(МОЛДАВИЯ, ЯБЛОКИ)
К-АГЕНТ купил у старьевщика К-АГЕНТ(СТАРЬЕВЩИК,КУПИТЬ)
КОЛИЧ два яблока КОЛИЧ(ДВА, ЯБЛОКО)
КОН-Т уехать в Москву КОН-Т(МОСКВА, УЕХАТЬ)
ЛОК жить в глуши ЛОК(ГЛУШЬ, ЖИТЬ)
МАСШТ Банк России МАСШТ(РОССИЯ, БАНК)
МАТЕР сумка из кожи МАТЕР(КОЖА,СУМКА)
НАЗН книга для детей НАЗН(ДЕТИ, КНИГА)
ОБ уничтожить мост ОБ(МОСТ,УНИЧТОЖИТЬ)
ОГРН выделять по возрасту ОГРН(ВОЗРАСТ,ВЫДЕЛЕНИЕ)
ОЦЕНКА хорошо относиться ОЦЕНКА(ХОРОШО, ОТНОСИТЬСЯ)
ПАРАМ высота дома ПАРАМ(ВЫСОТА, ДОМ)
ПАЦИЕН арест преступника ПАЦИЕН(ПРЕСТУПНИК, АРЕСТ)
ПОСРЕД закончить доклад анекдотом ПОСРЕД(АНЕКДОТ, ЗАКОНЧИТЬ)
ПРИЗН красивый шар ПРИЗН(КРАСИВЫЙ, ШАР)
ПРИНАДЛ дом отца ПРИНАДЛ(ДОМ,ОТЕЦ,)
ПРИЧ деревья повалены ураганом ПРИЧ(УРАГАН,ПОВАЛИТЬ)
РЕЗЛТ испечь пирог РЕЗЛТ(ПИРОГ,ИСПЕЧЬ)
СОДЕРЖ рассказать о весне СОДЕРЖ(ВЕСНА,РАССКАЗАТЬ)
СПОСОБ идти босиком СПОСОБ(БОСИКОМ, ИДТИ)
СРЕДСТВО красить белилами СРЕДСТВО(БЕЛИЛО, КРАСИТЬ)
СТЕПЕНЬ весьма преуспеть СТЕПЕНЬ(ВЕСЬМА, ПРЕУСПЕТЬ)
СУБ любовь отца СУБ(ОТЕЦ, ЛЮБОВЬ)
ТЕМА говорить о Москве ТЕМА(МОСКВА,ГОВОРИТЬ)
ЦЕЛЬ забастовка в целях повышения зарплаты ЦЕЛЬ (ПОВЫШЕНИЕ, ЗАБАСТОВКА)
ЧАСТЬ ножка стула ЧАСТЬ(НОЖКА, СТУЛ)

Таблица соответствия семантических отношений систем ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ и сем. ролей Е.В.Падучевой:

Падучева Пример ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ
Агенс Иван приехал АГЕНТ (Иван, поехать)
Конечный пункт приехал в Варшаву КОН-Т(Варшава, приехать)
Адресат сказать отцу АДР(отец, сказать)
Степень наполнить полностью СТЕПЕНЬ(полностью, наполнить)
Направление движения поехать направо В-НАПР(направо, поехать)
Исходный пункт приехать из Москвы ИСХ-Т(Москва, приехать)
Пациенс съесть яблоко ПАЦИЕН(яблоко, съесть)
Место банка кишела ЛОК(банка, кишеть)
Содержание чтение нравится ему СОДЕРЖ(чтение, нравиться)
Посессор борода Ивана ПРИНАДЛ(борода, Петр)
Инструмент открывать ключом ИНСТР(ключ, открывать)
Результат резать на куски РЕЗЛТ(куски, резать)

Приведем еще один перечень семантических отношений из книги Апресян[1995]:

Апресян Пример ФРАП-ПОЛИТЕКСТ-ДИАЛИНГ
Sub(субъект) поезд движется СУБ (Поезд, двигаться)
Contrag (контрагент) покупать у старьевщика К-АГЕНТ (старьевщик, покупать)
Cap (глава) вина перед коллективом
Obj (объект) гладить руку, стрелять в мишень ОБ(рука, гладить) КОН-Т (мишень, стрелять)
Content (содержание) знать об отъезде СОДЕРЖ(отъезд, знать)
Adr (адресат) сообщать президенту АДР (президент, сообщать)
Recip (получатель) давать детям, дарить людям АДР (дети, давать) АДР (люди, дарить)
Via (посредник) передовать через секретаря ПОСРЕД(секретарь, передавать)
Is (источник) брать в кассе ИСХ-Т (касса, брать)
Loc (место) находиться в лесу ЛОК(лес, находиться)
Ab (начальная точка) вывести из леса ИСХ-Т(лес, вывести)
Ad (конечная точка) везти в город КОН-Т(город, везти)
Itin (маршрут) идти по дороге
Med (средство) прибивать гвоздями СРЕДСТВО (гвозди, прибивать)
Instr (инструмент) резать ножом ИНСТР (нож, резать)
Mod(способ) обращаться плохо АСПЕКТ (плохо, обращаться)
Cond (условие) если P, то Q УСЛ (P,Q)
Motiv(мотивировка) награждать за храбрость ПРИЧ(храбрость, награждать)
Caus (причина) радоваться подарку, проистекать из-за Q ПРИЧ (подарок, радоваться) ПРИЧ(Q, проистекать)
Result (результат) превращать в воду РЕЗЛТ(вода, превращать)
Dest (цель) стремиться к общему благу ЦЕЛЬ (благо, стремиться)
Asp (аспект) превосходить по качеству ОГРН (качество, превосходить)
Quant (количество) пять человек КОЛИЧ(пять, человек)
Period (срок) отпуск на два месяца ВРЕМЯ (на два месяца, отпуск)
Temp (время) начаться в полночь ВРЕМЯ (полночь, начаться)

Если в тексте находим означивания слотов, их надо собрать в фреймы. При этом надо следить за целостностью и непротиворечивостью данных.

Подзадачи:

  1. Разрешение анафор (Греция… Эта страна….)
  2. Сопоставление многословных синонимов
  3. Выражение одной и той же ситуации совсем по-разному (Жесткий диск полетел – Начались проблемы с жестким диском)
  4. Целостность и непротиворечивость данных при сборе множества фреймов.

Стоит ли рассматривать предложение не как линейную последовательность слов, а как дерево, чтобы выделять семантические отношения? Нет, можно рассматривать как массив (линейную последовательность) слов, при этом связи между словами реализовать в виде объектов ссылок между словами.

Вопросы:

  1. Синтаксические (theta roles) и семантические (thematic relations) валентности
    1. Theta roles are largely limited to the Chomskyan versions of Generative grammar and Lexical-functional grammar.
    2. Many approaches such as Functional Grammar, and dependency grammar refer to thematic relations directly without an intermediate step in theta roles
    3. An argument can bear only one theta role, but can take multiple thematic relations. For example, in "Susan gave Bill the paper." Susan bears both Agent and Source thematic relations, but it only bears one theta role (the external "agent" role)
    4. Drawing on observations based in typological cross-linguistic comparisons of languages (Fillmore 1968), linguists in the relational grammar (RG) tradition (e.g. (Perlmutter & Postal 1984) observed that particular thematic relations and theta roles map on to particular positions in the sentence. For example, in unmarked situations agents map to subject positions, themes onto object position, and goals onto indirect objects. In RG, this is encoded in the Universal Alignment Hypothesis (or UAH), where the thematic relations are mapped directly into argument position based on the following hierarchy: Agent < Theme < Experiencer < Others. Mark Baker adopted this idea into GB theory in the form of the Uniformity of Theta Assignment Hypothesis (or UTAH) (Baker 1988). A different approach to the correspondence is given in (Hale & Keyser 1993) and (Hale & Keyser 2001), where there are no such things as underlying theta roles or even thematic relations. Instead, the interpretive component of the grammar identifies the semantic role of an argument based on its position in the tree.

Thematic (semantic) roles

In a number of theories of linguistics, thematic relations is a term used to express the role that a noun phrase plays with respect to the action or state described by a sentence's verb. For example, in the sentence "Susan ate an apple", Susan is the doer of the eating, so she is an agent; the apple is the item that is eaten, so it is a patient. While most modern linguistic theories make reference to such relations in one form or another, the general term, as well as the terms for specific relations, varies; 'participant role', 'semantic role', and 'deep case' have been used analogously to 'thematic role'.

Here is a list of the major thematic relations.

  1. Agent: deliberately performs the action (e.g., Bill ate his soup quietly.).
  2. Experiencer: the entity that receives sensory or emotional input (e.g. The smell of lilies filled Jennifer's nostrils. Susan heard the song. I ran.).
  3. Theme: undergoes the action but does not change its state (e.g., We believe in many gods. I have two children. I put the book on the table. He gave the gun to the police officer.) (Sometimes used interchangeably with patient.)
  4. Patient: undergoes the action and changes its state (e.g., The falling rocks crushed the car.). (Sometimes used interchangeably with theme.)
  5. Instrument: used to carry out the action (e.g., Jamie cut the ribbon with a pair of scissors.).
  6. Force or Natural Cause: mindlessly performs the action (e.g., An avalanche destroyed the ancient temple.).
  7. Location: where the action occurs (e.g., Johnny and Linda played carelessly in the park.).
  8. Direction or Goal: where the action is directed towards (e.g., The caravan continued on toward the distant oasis. He walked to school.).
  9. Recipient: a special kind of goal associated with verbs expressing a change in ownership, possession. (E.g., I sent John the letter. He gave the book to her.)
  10. Source or Origin: where the action originated (e.g., The rocket was launched from Central Command. She walked away from him.).
  11. Time: the time at which the action occurs (e.g., The rocket was launched yesterday.).
  12. Beneficiary: the entity for whose benefit the action occurs (e.g.. I baked Reggie a cake.).
  13. Manner: the way in which an action is carried out (e.g., With great urgency, Tabatha phoned 911.).
  14. Purpose: the reason for which an action is performed (e.g., Tabatha phoned 911 right away in order to get some help.).
  15. Cause: what caused the action to occur in the first place; not for what, rather because of what (e.g., Since Clyde was hungry, he ate the cake.).

There are no clear boundaries between these relations. For example, in "the hammer broke the window", some linguists treat hammer as an agent, some others as instrument, while some others treat it as a special role different from these.

http://sportlinguist.com/2011/01/23/sample-sentences-using-spradleys-nine-semantic-relations-from-the-ethnographic-interview/

Spradley, J.P. (1979). The Ethnographic Interview. Harcourt, Brace, Janovich

These semantics are best for modeling culture and the dynamics of a culture. After all, they were drawn up in a methodology for ethnography. In the sentences I present below you will find that they have a rigid and non-human sound to them; in fact, I think (and this is my opinion), that if you want to use Spradleys semantics for anything other than modeling culture, that they are best used in formal system modeling, such as an expert system.

        1. Strict Inclusion [X is a kind of Y]
          1. Tom is a kind of person.
          2. Love is a kind of emotion.
        2. Spatial [X is a place in Y] & [X is a part of Y]
          1. MoMA is a place in New York.
          2. ?Despair is a place in depression.
          3. Pittsburgh is a place in Pennsylvania.
          4. Failure is a part of success.
          5. This steering wheel is a part of this steering column.
        3. Cause-Effect [X is a result of Y] & [X is a cause of Y]
          1. A bruise is a result of a punch.
          2. A baby is a result of having sex.
          3. Sorrow is a result of loss.
          4. Success is a result of luck.
          5. You are a cause of concern.
          6. Fear is a cause of failure.
          7. Static electricity is a cause of gas station fires.
          8. Greed is a cause of overspending.
        4. Rationale [X is a reason for doing Y]
          1. Preventing your failure is a reason for doing homework.
          2. Debt is a reason for curbing spending.
          3. Fire is a reason for exiting a building.
        5. Location for Action [X is a place for doing Y]
          1. This is a place for doing that.
          2. This is no place for that.
          3. The jungle is a place for exploring.
        6. Function [X is used for Y]
          1. This tool is used for pounding.
          2. A tool is used for pounding.
          3. This red fiberglass handled hammer is used for pounding carpet tacks.
          4. Tools are used for working.
          5. This key is used for locking this door only.
          6. That is used for this. [deictic]
        7. Means-Ends [X is a way to do Y]
          1. Killing someone with kindness is a way to get revenge.
          2. This road is a way to get to town faster.
        8. Sequence [X is a step or stage in Y]
          1. Tightening this screw is a step to assembling the chair.
          2. Dying is a step or stage in living.
        9. Attribution [X is an attribute, or characteristic of Y]
          1. These scratches are characteristic of age.
          2. Silver is an attribute of this ring.
          3. Dead is an attribute of this skunk.
          4. Sans Serif is an attribute of Helvetica.
          5. Title is a kind of attribute: “Peter Pan” is the title for this book.
          6. Self-deception is a characteristic of the middle>

Summary

АВТОР Роман Толстого Указ Президента АВТОР(ТОЛСТОЙ,РОМАН) АВТОР(ПРЕЗИДЕНТ,УКАЗ)
АГЕНТ Агенс Agent: deliberately performs the action Force or Natural Cause: mindlessly performs the action Мы сократили отставание Иван приехал An avalanche destroyed the ancient temple АГЕНТ(МЫ, СОКРАТИТЬ) АГЕНТ (Иван, поехать)
АСПЕКТ Mod(способ) Manner: the way in which an action is carried out обращаться плохо АСПЕКТ (плохо, обращаться)
АДР Адресат Adr (адресат) Recip (получатель) Recipient: a special kind of goal associated with verbs expressing a change in ownership, possession. Я отдал стул отцу. сказать отцу АДР(ОТЕЦ,ОТДАВАТЬ) АДР(отец, сказать)
В-НАПР Направление движения Direction or Goal: where the action is directed towards указатель на Монино В-НАПР(МОНИНО,УКАЗАТЕЛЬ)
ВРЕМЯ Period (срок) Temp (время) Time: the time at which the action occurs Это произошло вчера. ВРЕМЯ(ВЧЕРА, ПРОИЗОЙТИ)
ЗНАЧ Высота дома – 20 метров. ЗНАЧ(20 МЕТРОВ, ВЫСОТА)
ИДЕНТ Дом N 20 ИДЕНТ (N 20, ДОМ)
ИМЯ Дворник Степанов ИМЯ(СТЕПАНОВ,ДВОРНИК)
ИНСТР Инструмент Instr (инструмент) Instrument: used to carry out the action резать ножом ИНСТР(НОЖ,РЕЗАТЬ)
ИСХ-Т Исходный пункт Is (источник) Ab (начальная точка) Source or Origin: where the action originated яблоки из Молдавии ИСХ-Т(МОЛДАВИЯ, ЯБЛОКИ)
К-АГЕНТ Contrag (контрагент) Obj (объект) купил у старьевщика К-АГЕНТ(СТАРЬЕВЩИК,КУПИТЬ)
КОЛИЧ Quant (количество) два яблока КОЛИЧ(ДВА, ЯБЛОКО)
КОН-Т Конечный пункт Ad (конечная точка) уехать в Москву приехал в Варшаву КОН-Т(МОСКВА, УЕХАТЬ) КОН-Т(Варшава, приехать)
ЛОК Место Loc (место) Location: where the action occurs Location for Action [X is a place for doing Y] жить в глуши The jungle is a place for exploring. ЛОК(ГЛУШЬ, ЖИТЬ)
МАСШТ Банк России МАСШТ(РОССИЯ, БАНК)
МАТЕР сумка из кожи МАТЕР(КОЖА,СУМКА)
НАЗН Beneficiary: the entity for whose benefit the action occurs Function [X is used for Y] книга для детей I baked a cookie for Jane This tool is used for pounding. НАЗН(ДЕТИ, КНИГА)
ОБ Obj (объект) Patient: undergoes the action and changes its state (e.g., The falling rocks crushed the car.). уничтожить мост ОБ(МОСТ,УНИЧТОЖИТЬ)
ОГРН Asp (аспект) выделять по возрасту ОГРН(ВОЗРАСТ,ВЫДЕЛЕНИЕ)
ОЦЕНКА хорошо относиться ОЦЕНКА(ХОРОШО, ОТНОСИТЬСЯ)
ПАРАМ Attribution [X is an attribute, or characteristic of Y] высота дома These scratches are characteristic of age. Silver is an attribute of this ring. ПАРАМ(ВЫСОТА, ДОМ)
ПАЦИЕН Пациенс Patient: undergoes the action and changes its state Theme: undergoes the action but does not change its state арест преступника The falling rocks crushed the car Theme: We believe in many gods I have two children I put the book on the table He gave the gun to the police officer ПАЦИЕН(ПРЕСТУПНИК, АРЕСТ)
ПОСРЕД Via (посредник) закончить доклад анекдотом ПОСРЕД(АНЕКДОТ, ЗАКОНЧИТЬ)
ПРИЗН Attribution [X is an attribute, or characteristic of Y] красивый шар These scratches are characteristic of age. Silver is an attribute of this ring. ПРИЗН(КРАСИВЫЙ, ШАР)
ПРИНАДЛ Посессор дом отца ПРИНАДЛ(ДОМ,ОТЕЦ,)
ПРИЧ Motiv(мотивировка) Caus (причина) Cause: what caused the action to occur in the first place; not for what, rather because of what Cause-Effect [X is a result of Y] & [X is a cause of Y] Rationale [X is a reason for doing Y] деревья повалены ураганом Preventing your failure is a reason for doing homework ПРИЧ(УРАГАН,ПОВАЛИТЬ)
РЕЗЛТ Результат Result (результат) испечь пирог РЕЗЛТ(ПИРОГ,ИСПЕЧЬ)
СОДЕРЖ Содержание Content (содержание) рассказать о весне СОДЕРЖ(ВЕСНА,РАССКАЗАТЬ)
СПОСОБ Mod(способ) Manner: the way in which an action is carried out Means-Ends [X is a way to do Y] идти босиком Killing someone with kindness is a way to get revenge. This road is a way to get to town faster. СПОСОБ(БОСИКОМ, ИДТИ)
СРЕДСТВО Med (средство) красить белилами СРЕДСТВО(БЕЛИЛО, КРАСИТЬ)
СТЕПЕНЬ Степень весьма преуспеть СТЕПЕНЬ(ВЕСЬМА, ПРЕУСПЕТЬ)
СУБ Sub(субъект) любовь отца СУБ(ОТЕЦ, ЛЮБОВЬ)
ТЕМА говорить о Москве ТЕМА(МОСКВА,ГОВОРИТЬ)
ЦЕЛЬ Dest (цель) Purpose: the reason for which an action is performed забастовка в целях повышения зарплаты ЦЕЛЬ (ПОВЫШЕНИЕ, ЗАБАСТОВКА)
ЧАСТЬ Strict Inclusion [X is a kind of Y] Spatial [X is a place in Y] & [X is a part of Y] ножка стула Tom is a kind of person. Love is a kind of emotion. MoMA is a place in New York Failure is a part of success This steering wheel is a part of this steering column ЧАСТЬ(НОЖКА, СТУЛ)
УСЛ Cond (условие) если P, то Q УСЛ (P,Q)
Experiencer: the entity that receives sensory or emotional input The smell of lilies filled Jennifer's nostrils. Susan heard the song. I ran.
Itin (маршрут) идти по дороге
Sequence [X is a step or stage in Y] Tightening this screw is a step to assembling the chair. Dying is a step or stage in living.
Cap (глава) вина перед коллективом


Pages:     || 2 |
 



<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.