WWW.DISUS.RU

БЕСПЛАТНАЯ НАУЧНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА

 

На правах рукописи

Чубинидзе Константин Александрович

МЕТОД СИНТАКТИКО-СЕМАНТИЧЕСКИХ ШАБЛОНОВ
И ЕГО ПРИМЕНЕНИЕ В ИНФОРМАЦИОННОЙ ТЕХНОЛОГИИ ИНТЕРПРЕТАЦИИ ТЕКСТОВ

Специальность 05.25.05 «Информационные системы и процессы,
правовые аспекты информатики»

А В Т О Р Е Ф Е Р А Т

диссертации на соискание ученой степени

кандидата технических наук

Москва – 2006

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность диссертационной работы определяется низкой полнотой и точностью компьютерной интерпретации текстов на естественном языке, а также высокой трудоемкостью настройки автоматизированных систем на предметные области интерпретации и формальные языки представления ее результатов. Существующие в настоящее время системы компьютерной интерпретации носят узкоспециализированный характер. Процессы их настройки и эксплуатации строго разделены. Настройка представляет собой длительный (до нескольких месяцев) процесс, выполняемый квалифицированными специалистами и тесно связана как с предметной областью, описываемой интерпретируемыми текстами, так и с форматом представления результатов интерпретации, который зависит от специфики их дальнейшей обработки.

Цель диссертационной работы: совершенствование информационной технологии компьютерной интерпретации текстов на естественном языке за счет:

  • разработки метода автоматизированного формирования синтактико-семантических шаблонов в процессе работы оператора, выполняющего интерпретацию текстов;
  • разработки алгоритмов применения синтактико-семантических шаблонов в информационной технологии компьютерной интерпретации.

Задачи научных исследований:

1) на основе анализа существующих решений в области формализации информации, содержащейся в текстах на естественном языке, разработать методы и алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;

2) провести экспериментальную проверку разработанных методов и алгоритмов на макете системы автоматизированной интерпретации текстов;

3) на основе анализа результатов опытной эксплуатации макета определить эффективность и область применения метода синтактико-семантических шаблонов, определить направления его совершенствования.

Объект исследования: информационная технология интерпретации текстов на естественном языке.

Предмет исследования: автоматизированная интерпретация текстов методом синтактико-семантических шаблонов.

Диссертационное исследование выполнено в соответствии с положениями п.п. 4, 5 и 7 областей исследований специальности 05.25.05: разработанный метод относится к методам семантического анализа текстовой информации с целью ее формализации для представления в базах данных и организации интерфейсов информационных систем с пользователями. Результаты исследования содержат новые подходы к формированию лингвистического обеспечения информационных систем и процессов в части его автоматизированной настройки на предметные области и формальные языки интерпретации.

Методы исследований. Результаты диссертационной работы получены на основе анализа и научного обобщения мирового опыта в разработке систем формализации текстов на естественном языке, использования научных положений теории графов, теории множеств, методов прикладной и структурной лингвистики.

Научная новизна. В диссертационной работе получены новые научные результаты:

  1. в человеко-машинной технологии интерпретации текстов предложено использовать промежуточный формальный язык, инвариантный к предметной области интерпретации и к формальному языку представления ее абстрактных состояний;
  2. разработаны методы формирования и применения синтактико-семантических шаблонов в человеко-машинной технологии интерпретации текстов на естественном языке;
  3. разработаны частные методики и алгоритмы применения, формирования, верификации и оптимизации синтактико-семантических шаблонов, предназначенных для автоматической интерпретации текстов в пределах ограниченной предметной области.

Практическая ценность работы заключается в возможности увеличения производительности человеко-машинных систем интерпретации текстов на естественном языке. Разработанные методы и алгоритмы рассчитаны на применение в составе инструментальных средств настройки систем автоматической формализации информации, содержащейся в текстах. Созданный макет системы интерпретации может использоваться при решении задач автоматизированного наполнения фактографических баз данных.

Апробация работы. Содержание отдельных разделов диссертационной работы было использовано в НТЦ «Атлас» при выполнении НИР «Услуга».

Разработанные в диссертационной работе методы, алгоритмы и макеты программных средств были использованы ФГУП «МНИИ «Интеграл» при исследованиях и разработках в области интеллектуальных информационных систем.

Созданный макет системы автоматизированной интерпретации внедрен в опытную эксплуатацию консалтинговой компанией IDS Scheer и используется для получения сведений об экономических показателях, содержащихся в текстах отчетных материалов в интересах Центрального банка РФ, ОАО «Лукойл», ОАО «Сургутнефтегаз», ОАО «Белгородэнерго», ОАО «Тюменьэнерго» и др.

Отдельные результаты исследования докладывались на международной конференции «Развитие и защита бизнеса: практика и технологии». Работа в целом доложена на семинаре кафедры информатизации структур государственной службы Российской академии государственной службы при Президенте РФ.

Публикации. Основные результаты диссертационной работы опубликованы в 4 печатных работах.

Структура диссертационной работы. Диссертационная работа состоит из введения, четырех глав и заключения, изложенных на 156 страницах, содержит 33 рисунка и список литературы из 78 наименований.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы диссертационной работы, сформулированы цель и задачи научных исследований.

В первой главе «Компьютерная интерпретация текстов на естественном языке» рассмотрена проблема преобразования содержащейся в текстах информации на формальные языки, проведен анализ отечественных и зарубежных систем автоматической интерпретации, выявлены их основные недостатки.

Необходимость эффективного использования информации, представленной в форме текстов на естественных языках, вынуждает исследователей разрабатывать методы ее обработки с использованием средств вычислительной техники. Поскольку данные средства обеспечивают содержательную обработку информации, представленной на формальных языках, возникает необходимость однозначного перевода информации с естественного языка на формальный и необходимости их эквивалентной интерпретации. Эквивалентная интерпретация достигается введением понятия абстрактных состояний предметной области, определенных формально и служащих однозначной интерпретацией описания информации как на естественном, так и на формальном языке. Описание состояния предметной области на естественных языках представляет собой высказывание L=(s1, s2, …, sn), где s – знак из алфавита языка. Формальное описание этого состояния А может быть представлено в виде <E,R>, где E={e1,e2,…,en} – объекты, а R={r1,r2,…,rn} – отношения между ними.

Рассмотрен процесс интерпретации в человеко-машинной системе (см. рис. 1). Работе оператора, выполняющего содержательную (семантическую) часть интерпретации Ih предшествует предварительная формальная процедура Vm, которая, в простейшем случае представляет собой визуализацию интерпретируемого текста, а в более сложных системах формальный лингвистический анализ, результат которого Lf содержит дополнительные лингвистические характеристики выражения L. Следующая за работой оператора формальная процедура Sm заключается в окончательной обработке и сохранении сформированного оператором выражения на формальном языке. Таким образом, A=Sm(Ih(Vm(L))).

Рис. 1. Человеко-машинная система интерпретации

Исключение работы оператора Ih в компьютерных системах автоматической интерпретации приводит к тому, что семантическая часть данного процесса распределяется между формальными процедурами Vm и Sm, что, в большинстве случаев приводит к их слиянию и, следовательно, к зависимости лингвистического анализа от предметной области интерпретации и формального языка представления его результатов. Между тем, некоторые виды компьютерного лингвистического анализа позволяют частично формализовать исходное выражение на естественном языке. Поскольку человек способен воспринимать как естественные, так и формальные языки, то при достаточной полноте и точности компьютерного лингвистического анализа Ih(L) Ih(Lf). Следовательно, формальное описание абстрактного состояния предметной области, формируемое при интерпретации текста, может быть таким же как и при интерпретации результатов его компьютерного лингвистического анализа. При этом оператор человеко-машинной системы получает и генерирует выражения на формальных языках, то есть может рассматриваться как «черный ящик». Таким образом, производительность системы интерпретации может быть увеличена за счет применения формальных методов для анализа и моделирования поведения оператора.

Проведена классификация основных видов компьютерного лингвистического анализа по форме представления его результатов: выделение ключевых слов, выделение ключевых семантических понятий с определением их весовых коэффициентов, построение ассоциативной семантической сети и построение сети синтактико-семантических отношений. Перечисленные виды неравнозначны по точности передачи информации, степени ее сжатия и удобству восприятия человеком, поэтому для решения задачи поиска и контент-анализа предпочтительным является формирование индекса семантических значений, а при выявлении фактографической информации – построение синтактико-семантических графов.

Описаны результаты анализа существующих систем автоматической формализации текстов на естественном языке, предназначенных для получения содержащейся в них фактографической информации. В эволюции сравнительно небольшого набора пригодных для промышленной эксплуатации универсальных систем выделено три направления.

Первое направление рассмотрено на примере системы FASTUS, представляющей собой набор многоуровневых недетерминированных преобразователей с конечных числом состояний и является классическим примером системы идентификации сущностей и событий с применением неполного грамматического анализа.

Второе направление рассмотрено на примере разработанного в ИПИ РАН семантико-ориентированного лингвистического процессора, предназначенного для выделения семантически значимой информации и ее характеристик с последующим преобразованием в требуемую форму, например, в таблицу базы данных. Интерпретация исходных текстов осуществляется в соответствии с шаблонами, каждый из которых соответствует определенному семантически значимому объекту и состоит из соответствующих ему позиций в выходной структуре данных и сопоставляемых с ними компонентов естественного языка, которые могут содержаться в обрабатываемом тексте. Все виды лингвистического анализа осуществляются на уровне специального вида семантических сетей в рамках языка ДЕКЛ, что позволяет разрабатывать и реализовывать структурные грамматики, ориентированные на реальные приложения.



К последнему направлению отнесены системы, выполняющие лингвистический анализ текстов на основе общих правил грамматики и словарей естественного языка, независимо от предметной области. В качестве примера рассмотрен набор программных библиотек RCO. Его отличием от предыдущего направления является универсальность и сравнительно низкая стоимость внедрения. Низкие характеристики полноты и точности анализа могут быть устранены путем формирования специализированных словарей и шаблонов, обеспечивающих качественную интерпретацию в пределах определенной предметной области.

Общим недостатком рассмотренных решений является отсутствие средств автоматической настройки на предметные области и формальные языки интерпретации. Данная процедура выполняется экспертным путем, является длительной и трудоемкой.

Во второй главе «Применение шаблонов для формализации текстовой информации» описаны применяемые на практике методы автоматической интерпретации на основе шаблонов и существующие методы их автоматизированного формирования.

Описаны задачи идентификации сущностей и событий, а также применяемые для этого шаблоны. Большинство методов автоматизированного формирования шаблонов базируется на анализе корпуса размеченных текстов и включает создание вероятностных моделей, решающих деревьев, применение метода максимум-энтропии и анализ цепей Маркова. Решение задачи идентификации событий рассмотрено на примере шаблонов, в которых используются результаты идентификации сущностей и поверхностного лингвистического анализа, включающего распознавание именных и глагольных групп. Методы автоматизированного формирования шаблонов, в которых применяются результаты глубокого лингвистического анализа, рассмотрены на примере использования метаправил. Описаны методы анализа корпуса размеченных текстов на основе существующих шаблонов с целью их оптимизации при минимальном участии человека.

Приведено описание метода интерпретации на основе синтактико-семантических шаблонов и предложен метод автоматизации процесса их создания. Результат компьютерного лингвистического анализа является выражением на промежуточном формальном языке интерпретации, который, с одной стороны пригоден для восприятия оператором системы, с другой стороны, позволяет фиксировать содержательную часть интерпретации в форме шаблона, который в дальнейшем применяется как средство формализации, и, тем самым, автоматизации содержательной части процесса интерпретации.

В основу метода положено два предположения. Первое из них заключается в том, что шаблон позволит автоматически интерпретировать аналогичные выражения на промежуточном формальном языке, даже если они были сформированы на основе иных по синтаксическому оформлению и лексическому составу предложений естественного языка. Второе предположение заключается в том, что для определенных предметных областей и типов документов на естественном языке сравнительно небольшой набор шаблонов обеспечивает достаточную полноту и точность автоматической интерпретации.

Промежуточный формальный язык интерпретации должен удовлетворять следующим требованиям:

– меньшее и конечное по сравнению с естественным языком количество способов представления одной и той же информации;

– совместимость со структурами данных, которые формируются в результате компьютерного лингвистического анализа;

– независимость от естественного языка;

– универсальность по отношению к формальным языкам описания абстрактного состояния предметной области интерпретации;

– удобство восприятия пользователем.

В качестве такого языка выбран граф синтактико-семантических отношений.

Шаблон описывает правила интерпретации предложения с определенной синтактико-семантической структурой и представляет собой набор соответствий между текстовыми единицами естественного языка и соответствующими элементами выражения на формальном языке представления результатов интерпретации.

Каждый шаблон представляет собой граф (см. рис. 2), узлами которого являются условия (si), которым могут соответствовать лингвистические свойства текстовых единиц естественного языка (nii). Некоторые узлы могут быть обязательными, то есть соответствующие им текстовые единицы обязательно должны присутствовать в предложении на естественном языке, в противном случае шаблон ему не соответствует. Часть узлов связана с определенными элементами выражения на формальном языке (fii), то есть семантические значения соответствующих этим узлам текстовых единиц естественного языка должны однозначно преобразовываться в эквивалентные значения соответствующих элементов выражения формального языка.

Рис.2. Синтактико-семантический шаблон интерпретации

Необязательные узлы выполняют либо вспомогательную функцию «связывания» обязательных единиц в единый граф, либо описывают соответствие между элементами выражения на формальном языке и теми текстовыми единицами, которые могут отсутствовать в предложении.

Ребрами графа являются условия, которым должны соответствовать синтактико-семантические связи между текстовыми единицами предложения на естественном языке.

Таким образом, каждый шаблон (Pi ) представляет собой множество условий (SD) на соответствие лингвистическим свойствам текстовых единиц (узлов графа), некоторые из которых связаны с элементами выражения на формальном языке, и множество условий на соответствие свойствам синтактико-семантических отношений (SSL) между текстовыми единицами из множества SD в интерпретируемом предложении (ребер между узлами графа), то есть Pi={SD;SSL}

Каждое условие на соответствие текстовой единице sdi={S;c;n;[fi]} состоит из:

S – множества свойств текстовой единицы из предложения, на основе которого был создан шаблон;

c – уровня обобщения sdi определяющего границы условий, которым должна удовлетворять соответствующая текстовая единица интерпретируемого предложения при его сравнении с шаблоном Pi;

n – признака необязательности присутствия текстовой единицы, соответствующей данному узлу в интерпретируемом предложении;

fi – привязки узла шаблона к элементу выражения на формальном языке. Для некоторых узлов привязка может отсутствовать.

Множество свойств текстовой единицы S определяется полнотой представления ее морфологических, синтаксических и семантических свойств в промежуточном формальном языке, описывающем результаты компьютерного лингвистического анализа, и ограничивается теми из них, которые обеспечивают необходимую полноту интерпретации при приемлемом уровне точности. Для рассматриваемого промежуточного формального языка множество свойств текстовой единицы представляет собой S={text;st;[sc];LO}, где

text – текстовая единица, в той форме, в которой она присутствует в предложении;

st – тип текстовой единицы (слово, словосочетание, знак препинания, специальная текстовая единица);

sc – семантическая категория текстовой единицы, если она определена, или код знака препинания;

LO – множество вероятных лингвистических описаний текстовой единицы, которое состоит из элементов loj={base; pd; pos}, где

base – нормальная морфологическая форма текстовой единицы text, соответствующая описанию loj;

pd – парадигма словоизменения текстовой единицы text, соответствующая описанию loj;

pos – часть речи, к которой относится текстовая единица text, в соответствии с описанием loj.

Значения некоторых свойств могут отсутствовать в S, так как они не всегда однозначно определяются в процессе лингвистического анализа.

Каждое условие на соответствие свойствам синтактико-семантических отношений из множества SSL представляет собой множество элементов ssli={sb;se;sst;sec;ssp;cl}, где

sb – ссылка на элемент множества S, который соответствует текстовой единице, выполняющей главную роль в отношении;

se – ссылка на элемент множества S, который соответствует текстовой единице, выполняющей зависимую роль в отношении;

sst – тип синтактико-семантического отношения между sb и se;

sec – семантический падеж текстовой единицы se;

ssp – допустимый предлог между sb и se;

cl – уровень обобщения ssli, определяющий границы условий, которым должно удовлетворять соответствующее отношение между текстовыми единицами интерпретируемого предложения при его сравнении с шаблоном Pi.

В форме алгоритма представлена последовательность операций, применяемых в человеко-машинной технологии применения метода синтактико-семантических шаблонов (см. рис. 3). Интерпретация каждого предложения начинается с лингвистического анализа с предварительной процедурой поиска и замены текстовых единиц, которые не подчиняются правилам грамматики естественного языка и их временной замены эквивалентными и грамматически правильными единицами.

На основе результатов лингвистического анализа формируется граф синтактико-семантических отношений, вершинами которого являются текстовые единицы, обозначающие определенные семантические понятия, а ребрами – синтактико-семантические отношения между ними. Затем выполняется поиск синтактико-семантических шаблонов, условиям которых удовлетворяет граф синтактико-семантических отношений, с помощью которых текущее предложение может быть автоматически проинтерпретировано.

 Информационная технология применения методасинтактико-семантических-2

Рис.3. Информационная технология применения метода
синтактико-семантических шаблонов

На основе каждого найденного шаблона производится автоматическое формирование выражения на формальном языке с проверкой его корректности. Если ни один шаблон не найден, или автоматическая интерпретация была выполнена некорректно или неполно, производится визуализация графа синтактико-семантических отношений и на его основе выражение на формальном языке формируется оператором. На основе сформированного выражения автоматически создается новый шаблон интерпретации, производится его верификация и оптимизация.

В процессе интерпретации оператор имеет возможность формирования иерархии терминов формального языка. Для этой операции применяются таксономические тезаурусы, в которых содержатся иерархические структуры родо-видовых отношений между теми понятиями формального языка, для которых существует однозначное соответствие с текстовыми единицами естественного языка.

В третьей главе «Алгоритмы метода синтактико-семантических шаблонов» приведены алгоритмы автоматизированного формирования, верификации, оптимизации и применения синтактико-семантического шаблона.

Описаны применяемые в процессе лингвистического анализа функции программной библиотеки RCO Syntactic Engine 2.1, этапы предсинтаксической обработки, синтаксического анализа и синтаксического синтеза интерпретируемого предложения, а также типы идентифицируемых синтактико-семантических отношений и их свойства.

Работа оператора по формированию синтактико-семантических шаблонов завершается после «привязки» текстовых единиц графа синтактико-семантических отношений к элементам формируемых выражений на формальном языке с последующим определением их синтаксической структуры. После этого для каждого сформированного выражения на формальном языке формируется синтактико-семантический шаблон.

– Производится добавление в формируемый синтактико-семантический шаблон узлов графа синтактико-семантических отношений, которые «привязаны» к выражению на формальном языке и тех узлов, которые их «связывают» кратчайшими путями. Так же в шаблон добавляются присутствующие между ними отношения.

– Для каждого включенного в шаблон узла графа синтактико-семантических отношений определяется уровень обобщения, определяющий диапазон лингвистических характеристик, которому должна соответствовать текстовая единица интерпретируемого данным шаблоном предложения. При минимальном уровне все лингвистические характеристики текстовой единицы должны совпадать с характеристиками соответствующего узла графа синтактико-семантических отношений. Максимальному уровню обобщения соответствует любая текстовая единица. Уровень обобщения определяется текущей стратегией оптимизации.

– Для лингвистических характеристик каждого отношения между узлами шаблона также определяется уровень обобщения. Максимальному уровню соответствует любое отношение между текстовыми единицами, при минимальном уровне обобщения лингвистические характеристики должны соответствовать графу синтактико-семантических отношений.

– Узлы шаблона, которые не являются главными ни в одном отношении, определяются как необязательные.

– Сформированный шаблон проверяется на точность и непротиворечивость. Проверка точности заключается в его применении к тому предложению, при интерпретации которого он был создан. Если в результате не будет автоматически сформировано выражение на формальном языке, которое создал оператор при ручной интерпретации, шаблон неточен. В большинстве случаев неточность шаблона является следствием ошибки компьютерного лингвистического анализа и приводит к необходимости пополнения лингвистических словарей системы. Проверка непротиворечивости шаблона заключается в его применении ко всем предложениям, на основе которых был сформирован используемой системой набор шаблонов интерпретации. Если созданный шаблон некорректно интерпретирует любое из них, то он требует уточнения.

Определены десять уровней обобщения лингвистических характеристик узла синтактико-семантического шаблона, распределенные по двум координатам: семантического и морфологического обобщения (см. табл. 1).

Выбор уровня обобщения зависит от условий, в которых работает алгоритм оптимизации набора синтактико-семантических шаблонов, и в основном определяется количеством отношений, которые связывают данный элемент шаблона с другими. Поскольку морфологическая форма текстовой единицы взаимосвязана с ее синтаксическими связями внутри предложения, при увеличении количества отношений предпочтительным оказывается направление морфологического обобщения, в противном случае – семантического

Таблица. 1. Уровни обобщения характеристик текстовой единицы.

Уровни обобщения Семантическое обобщение
I II
Морфологическое обобщение I Эталонная текстовая единица Любая морфологическая форма эталонной текстовой единицы
II Синоним эталонной текстовой единицы в эталонной морфологической форме Любая морфологическая форма синонима эталонной текстовой единицы
III Текстовая единица из тезауруса, в котором присутствует эталонная текстовая единица в эталонной морфологической форме Любая морфологическая форма текстовой единицы из тезауруса, в котором присутствует эталонная текстовая единица
IV Семантическая категория эталонной текстовой единицы в эталонной морфологической форме Любая морфологическая форма семантической категории эталонной текстовой единицы
V Любая текстовая единица в эталонной морфологической форме Любая текстовая единица

Определены пять общих уровней обобщения лингвистических характеристик отношений между узлами синтактико-семантического шаблона (см. табл. 2).

Таблица. 2. Уровни обобщения характеристик отношений между текстовыми единицами.

Общий уровень обобще-ния Уровни обобщения по лингвистическим характеристикам отношения
Тип отношения Cинтаксическая роль главной текстовой единицы Семантичес-кий падеж зависимой текстовой единицы Служебная текстовая единица в синтаксическом оформлении отношения
I эталонное эталонная эталонный эталонная
II эталонное эталонная эталонный любая
III любое (для предикативных отношений) эталонная любой
IV эталонное (для непредикативных отношений) любая
V любое любая

Описаны две стратегии оптимизации набора шаблонов, определяющие уровень обобщения элементов формируемых синтактико-семантических шаблонов. Стратегия «от частного к общему» заключается в уменьшении начальной избыточной точности шаблонов за счет постепенного увеличения уровней обобщения и последующего объединения подобных шаблонов с определением необязательными непересекающихся узлов. Стратегия от «общего к частному» заключается в увеличении точности существующего набора шаблонов в процессе их верификации как с применением методов оценки достоверности автоматической интерпретации, так и вручную оператором системы.

Выбор текущей стратегии оптимизации набора шаблонов определяется следующими факторами:

1) спецификой интерпретируемых текстов на естественном языке, в том числе:

– разнообразием употребляемых синтаксических конструкций;

– количеством употребляемых лексических единиц и особенностями их распределения по синонимическим группам;

– частотой повторяемости синтаксических конструкций и лексических единиц в наборе предложений, которые используются при формировании набора шаблонов;

2) спецификой формального языка, моделирующего предметную область интерпретации, которая определяется:

– разнообразием правил формального языка, определяющих структуру его выражений;

– объемом словаря формального языка и тем, насколько его термины соответствуют семантическим понятиям и, соответственно, синонимическим группам естественного языка;

– наличием заранее определенного словаря формального языка, до начала интерпретации содержащего фиксированный набор терминов формального языка, которым могут соответствовать лексические единицы естественного языка;

3) размером создаваемого шаблона (чем больше шаблон, тем больше может быть уровень обобщения его элементов);

4) связанностью элементов создаваемого шаблона, которая позволяет определить необходимый уровень обобщения для свойств отношений между элементами шаблонов (чем больше отношений имеет элемент шаблона с другими, тем больший уровень обобщения можно применять к их свойствам);

5) состоянием, в котором находится процесс формирования достаточного для автоматической интерпретации набора синтактико-семантических шаблонов (см. рис. 4), который тесно взаимосвязан с процессом наполнения таксономических тезаурусов предметной области.

 Достижение оптимального набора шаблонов Большое количество-3

Рис. 4. Достижение оптимального набора шаблонов

Большое количество перечисленных факторов, а также затруднения с их оценкой как по отдельности, так и с учетом взаимосвязей приводит к тому, что выбор стратегии оптимизации сводится к выбору той операции, которую оператор предпочитает выполнять вручную. При использовании стратегии «от частного к общему» он вынужден на этапе накопления избыточного набора шаблонов чаще выполнять интерпретацию, а на последующем этапе проверять результаты автоматического объединения шаблонов. При использовании стратегии от «общего к частному» в работе оператора будет преобладать исправление ошибок автоматической интерпретации.

Разработан алгоритм автоматической интерпретации текстов с помощью набора синтактико-семантических шаблонов. На первом этапе производится компьютерный анализ интерпретируемого предложения с построением графа синтактико-семантических отношений. В результате цикла по набору сформированных шаблонов интерпретации определяется, соответствует ли условиям текущего шаблона какой-нибудь подграф синтактико-семантических отношений. Если это так, формируется выражение на формальном языке, синтаксическая структура которого определяется шаблоном, при этом учитывается возможность построения нескольких выражений на формальном языке с помощью одного и того же шаблона (например, если предложение содержит однородные члены). Затем производится определение семантических значений элементов выражения на формальном языке. Если текстовая единица присутствует в тезаурусе, соответствующий ей термин формального языка помещается в выражение на формальном языке. В противном случае, эксперт должен определить этот термин самостоятельно, при этом в тезаурус автоматически добавляется его синоним на естественном языке, соответствующий текстовой единице графа.

После окончания цикла по существующим шаблонам проверяется полнота интерпретации. Если ни одно выражение на формальном языке не сформировано, производится визуализация графа синтактико-семантических отношений и интерпретация выполняется оператором. После окончания интерпретации в соответствии с описанным ранее алгоритмом создается новый шаблон. Для проверки полноты интерпретации предложено два критерия:

– среди узлов графа синтактико-семантических отношений не должно быть таких, текстовые единицы которых присутствуют в таксономическом тезаурусе, но соответствующие им термины формального языка отсутствуют в сформированных выражениях;

– если из графа синтактико-семантических отношений удалить узлы, соответствующие элементам примененных для интерпретации шаблонов, в нем не должно остаться связанного подграфа, содержащего предикат и превосходящего по своему размеру минимальный шаблон.

Если интерпретация выполнена неполно, производится визуализация графа синтактико-семантических отношений, при этом выделяются узлы, соответствующие примененным шаблонам. Оператор анализирует граф и при необходимости выполняет его интерпретацию.

В четвертой главе «Макет системы автоматизированной интерпретации и результаты его опытной эксплуатации» описан созданный макет системы интерпретации методом синтактико-семантических шаблонов, который состоит из четырех хранилищ и шести функциональных модулей, четыре из которых работают в автоматическом режиме, а два с участием оператора (см. рис. 5).

Рис. 5. Макет системы интерпретации

Приводится структура информационных объектов макета, к которым относятся исходные тексты на естественном языке, результаты их лингвистического анализа (графы синтактико-семантических отношений), синтактико-семантические шаблоны интерпретации, таксономические тезаурусы и окончательные результаты интерпретации.

В процессе макетирования в качестве предметной области интерпретации выбрана информация о происшествиях, формальным языком описания которых (абстрактных состояний предметной области) являются таблицы реляционной базы данных, содержащих фактографические сведения. Каждое происшествие описывается временем, местом, действиями и результатами. Действия характеризуются субъектами и количеством, результаты – объектами, количественной характеристикой и единицей измерения. Данная предметная область и формальный язык являются привычными для оператора, участвующего в опытной эксплуатации.

Представлены основные функции интерфейса пользователя системы, к которым относятся:

– выбор интерпретируемого предложения;

– визуализация графа синтактико-семантических отношений и лингвистических характеристик его элементов;

– трансформация графа синтактико-семантических отношений путем объединения его смежных узлов в многословные текстовые единицы;

– формирование выражения на формальном языке путем «привязки» узлов графа синтактико-семантических отношений к полям таблиц базы данных происшествий с последующим определением класса действия или результата;

– ведение таксономических тезаурусов, а также классификаторов действий и результатов;

– точная настройка сформированного синтактико-семантического шаблона (см. рис. 6), которая в дополнение к процедурам трансформации графа и привязки его узлов к полям базы данных происшествий содержит определение обязательности узлов шаблона, а также установку уровня обобщения лингвистических характеристик его элементов.

Описаны результаты опытной эксплуатации макета системы, которая проводилась с целью оценки эффективности предлагаемого метода, а также определения области его применения и путей дальнейшего совершенствования. Из текстов оперативной сводки МВД, единой новостной ленты ИТАР ТАСС, центральной прессы и новостных программ ОРТ было отобрано по 120 предложений, описывающих событие типа «взрыв». Для каждого типа текстов формировался индивидуальный набор синтактико-семантических шаблонов и тезаурусов. В процессе работы оператора фиксировалось время начала и окончания интерпретации. Эксперимент проводился в два этапа. На первом оператор выполнял интерпретацию традиционным способом, читая предложение и заполняя базу данных вручную, в результате чего было определено время интерпретации каждого предложения. На втором этапе интерпретация выполнялась путем визуализации графа синтактико-семантических отношений, «привязки» его узлов к полям таблиц, содержащих формируемое выражение на формальном языке.

Рис. 6. Интерфейс настройки шаблона в макете системы.

Проведено сопоставление сформированных наборов шаблонов. В процессе опытной эксплуатации было автоматически проинтерпретировано 105 предложений и сформировано 114 шаблонов. Шесть шаблонов оказались общими для каждого типа документов. Наименьшее число уникальных шаблонов было сформировано в процессе интерпретации оперативных сводок, наибольшее – центральной прессы. Около 75% шаблонов были применены однократно, 19% дважды, 4,5% трижды и только 1,5% четырежды.

Получены данные, свидетельствующие о повышении скорости интерпретации. На первом этапе эксперимента скорость уменьшилась, поскольку оператор обучался работе с системой и расходовал время на формирование и верификацию шаблонов. На последующих этапах, по мере достижения полноты набора шаблонов, скорость, и в случае автоматической интерпретации стала равна времени верификации результатов. Средняя скорость интерпретации предложений из оперативных сводок повысилась на 25-40%. Если предположить, что впоследствии будет исключена «ручная» верификация, то время оператора будет расходоваться только на формирование, верификацию и оптимизацию синтактико-семантических шаблонов.

Достижение оптимального набора шаблонов позволяет проводить интерпретацию в автоматическом режиме. Получена зависимость увеличения числа шаблонов от количества проинтерпретированных предложений (см. рис. 7), которая свидетельствует о том, что для интерпретации оперативных сводок может оказаться достаточно двадцати шаблонов. Для прочих типов текстов аналогичный вывод сделать затруднительно, особенно для текстов новостных лент и центральной прессы.

Анализ неудач в применении синтактико-семантических шаблонов показал, что вмешательство оператора в процесс автоматической интерпретации происходило по следующим причинам: отсутствие текстовых единиц предложения в таксономических тезаурусах (59%), некорректная обработка многословных текстовых единиц модулем компьютерного лингвистического анализа (26%), необходимость «ручной» конкретизации дат и количественных показателей (12%), а также общие ошибки синтаксического анализатора (13%).

 Увеличение набора шаблонов в процессе опытной эксплуатации Метод-6

Рис. 7. Увеличение набора шаблонов в процессе опытной эксплуатации

Метод синтактико-семантических шаблонов оказался наиболее эффективным при интерпретации текстов оперативных сводок. Среди направлений его совершенствования, которые могут позволить его применение при интерпретации новостных лент выделены:

– применение предварительной обработки интерпретируемых предложений с целью идентификации и приведения к правильной грамматической форме количественных характеристик, аббревиатур и многословных наименований;

– предварительное наполнение таксономических тезаурусов и словарей многословных понятий;

– применение обобщенного формального языка результатов интерпретации, менее чувствительного к недостатку информации в интерпретируемом предложении, а также применение логико-аналитической обработки, компенсирующей этот недостаток;

– разработка необходимого набора правил и методов верификации результатов автоматической интерпретации с оценкой ее достоверности;

– применение методов разрешения анафорических ссылок на этапе предварительной обработки интерпретируемых предложений, в первую очередь для увеличения полноты интерпретации.

В заключении сформулированы основные результаты диссертационной работы:

1. Разработан метод интерпретации текстов на естественном языке, который предусматривает автоматизированное обучение системы в процессе интерактивной интерпретации предложения оператором.

2. Предложен и применен промежуточный формальный язык представления лингвистических характеристик текста – граф синтактико-семантических отношений, инвариантный к формальному языку описания предметной области интерпретации.

3. Разработаны алгоритмы автоматизированного формирования и применения синтактико-семантических шаблонов в процессе эксплуатации человеко-машинной системы интерпретации текстов на естественном языке.

4. Предложены методы и алгоритмы автоматизированной верификации результатов интерпретации и оптимизации сформированного набора синтактико-семантических шаблонов.

5. Для экспериментальной проверки разработанных методов и алгоритмов создан макет программного комплекса. В результате его опытной эксплуатации определены область применения предлагаемого метода, его эффективность и пути дальнейшего совершенствования.

Основное содержание диссертации отражено в следующих печатных работах:

1. Чубинидзе К.А. Компьютерная интерпретация текстов на естественном языке на основе синтактико-семантических шаблонов. // НТИ Серия 2. Информационные процессы и системы. – 2005, № 2.

2. Чубинидзе К.А. Структурированная интерпретация сводок оперативной информации. // Межотраслевая информационная служба. – 2004, вып. 3-4 (128-129).

3. Чубинидзе К.А. Структура модели событий, описываемых текстами на естественном языке. // Компьюлог. – 2004, № 3 (63).

4. Чубинидзе К.А. Использование технологии динамической классификации для интенсификации аналитической деятельности. // Информационные технологии в проектировании и производстве. – 2005, № 3.

Автореферат

Диссертации на соискание ученой степени кандидата технических наук

Чубинидзе Константин Александрович

Тема диссертационного исследования

Метод синтактико-семантических шаблонов и его применение
в информационной технологии интерпретации текстов

Научный руководитель

Доктор технических наук, профессор

Шемакин Юрий Иванович

Изготовление оригинал-макета

Чубинидзе Константин Александрович

Подписано в печать _______ Тираж _____ экз.

Усл. п. л. ____.

Российская академия государственной службы
при Президенте Российской Федерации

Отпечатано ОПМТ РАГС. Заказ № ____

119606 Москва, пр-т Вернадского, 84



 



<
 
2013 www.disus.ru - «Бесплатная научная электронная библиотека»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.