KMSOFT / Статьи / Антология статей по менеджменту знаний / Библиотека статей по менеджменту знаний (и смежным областям) | В разделе также публикации по темам: Управление знаниями; Автоматизация документооборота и делопроизводства; Технологии менеджмента знаний; Управление документами; Управление корпоративной информацией (Системы класса ECM, ПО (программы) категории Workflow, Docflow, CRM)

Тема-рематическая лингвистическая модель для машинной обработки текстов

А. Елашкина, А. Красноусова, Н. Максимова, А. Русин

Содержание

1 Проблемы машинной лингвистической обработки текстов и постановка задачи
2 Модель для организации структуры текста
3 Оценка результатов экспериментальной разработки с позиции программиста
4 Планы и перспективы разработки
Л и т е р а т у р а

1. Проблемы машинной лингвистической обработки текстов и постановка задачи

Основные проблемы, возникающие при решении задач с содержанием - данными, изложенными в текстах на естественном языке, заключаются в необходимости отклонения от работы с исключительно формальными признаками, формализуемыми текстовыми последовательностями и подстроками. Это заставляет обращаться к работе с некоторыми объектами (сущностями), отсутствующими в тексте в явном формализованном виде, но описанными автором и несущими собственно реальное значение для решаемых задач.

В обобщенной и абстрактной формулировке стоит задача выделения смысла текста. В конкретной формулировке, приближенной к реальным возможностям современных систем, стоит задача восстановления отдельных объектов и их взаимосвязей, которые были описаны, либо упомянуты, либо подразумевались автором неявно.

В задаче построения информационно-поисковой Интернет-системы, решением которой занимаются авторы, описанная задача в первую очередь сводится к следующему. Машине необходимо составлять базу данных, в которой хранится информация о некоторых объектах, процессах и явлениях, описанных в текстах, и эти записи сопровождаются информацией о свойствах, качествах и взаимосвязях описанных в текстах объектах. При этом один и тот же объект может описываться с использованием различных слов (терминов), либо даже не описываться, а упоминаться косвенно. Кроме этого, в различных текстах (и даже нередко - в одном) одинаковыми словами могут описываться различные объекты (различные экземпляры, подклассы и т.п.).

Важность решения данной проблемы в информационно-поисковой системе продиктована необходимостью, с одной стороны, сузить поиск, исключив из него документы, упоминающие ненужные пользователю объекты/события, с другой стороны - застраховаться от излишнего сужения, традиционно возникающего за счет того, что пользователь может спрашивать об объекте (персоне, событии) совсем не теми словами, которыми пользовался автор при описании.

Таким образом, необходимо реализовать систему со следующим принципиальным устройством:

Рис. 1. Принципиальное устройство системы семантического поиска.

В действительности описанная задача является достаточно сильным упрощением от того, какими возможностями должна обладать полноценная семантическая поисковая система. Вслед за проблемой восстановления объектов (событий), описанных в тексте, возникают проблемы восстановления взаимосвязей, отношений, характеристик и так далее. Но, если задача в упрощенном виде в существенной степени решаема известными средствами - составление словарей объектов, словарей синонимов и т.д., то проблема восстановления связей, отношений и характеристик, особенно описываемых неявно и/или разрозненно - является весьма сложной задачей, не решаемой без применения интеллектуальных технологий, базируемых на проработанных моделях естественного языка, моделях построения текстов, моделях мышления.

В процессе разработки экспертной поисковой системы группа разработчиков "НооЛаб" столкнулась с рядом принципиальных задач в машинном анализе текстов.

Выстраивание за линейным текстом структуры рассуждения автора.

Создание базы данных целостного образа смысла текста.

Различение жанров текста.

Выделение из текста метатекстовых, коммуникативных и собственно содержательных составляющих.

При этом необходимо строить образ содержания отдельного фрагмента текста, удерживая образ текста как целого. По мнению разработчиков, этот процесс должен быть устроен подобно пониманию текста человеком. Иначе говоря, сначала выстраивается понимание нескольких первых фрагментов текста, затем делается предположение о возможном целостном содержании. После этого целостное содержание достраивается при разборе каждого следующего фрагмента и достраиваемое целостное содержание влияет на уже построенные образы первых фрагментов.

Проводя аналогии между физическими средами и текстами в машинной среде, построение образа смысла текста должно напоминать движение волны, ее обратных отражений и получения "интерференционной картины". Безусловно, для реализации в машинной среде такой сложный процесс понимания текста необходимо свести к более простому, редуцированному - к понятным для алгоритмизации правилам.

Самую большую сложность составляет несоответствие линейного текста объемному и структурно-процессуальному смыслу у автора: "Мысль не выражается в слове, но совершается в слове" (1). При чтении человек, пользуясь линейным текстом, с той или иной степенью точности воссоздает нелинейный образ того, что хотел сказать автор и это представляет особую трудность, так как "единицы мысли и единицы речи не совпадают" (2). Поэтому первым шагом необходимо было найти способ переводить "линейный" текст в "структурный" - выделять за синтагматикой парадигаматику, смысловую структуру текста и помещать преобразованный текст в машинную базу знаний для дальнейшей обработки.

2. Модель для организации структуры текста

2.1. Единичный структурный элемент

При разработке базы данных группа разработчиков пользовалась моделью акта познания.

К этому моменту программистами в машинной среде было сформировано векторное пространство, элемент которого можно схематически представить следующим образом

Рис. 2. Единичный структурный элемент в базе данных.

Необходимо отметить, что каждое поле вектора имеет свою собственную семантическую окраску. Эта структура имеет свои корни в модели В.Н. Елашкина (1938-1998 гг). (1) В основу модели положен особый квант - акт отражения (отражаемый объект, отражающий объект, след). Закон отражения - отражаемый объект на отражающем объекте оставляет след - является одним из наиболее общих среди накопленного Человеком знания. В конкретных случаях закон отражения представляет собой акт отражения. Акт отражения рассматривается как 3-х мерный базис ej ( j =1, 2, 3) пространства описания материального мира и мозга в частности. Любая из компонент акта отражения может рассматриваться в свою очередь как результат другого акта отражения. Акт познания - это первая рекурсия их акта отражения, когда одна из компонент заменяется на образующий ее акт отражения. В результате получается пять взаимосвязанных компонентов: объект, субъект, аспект, базис, след. Эти пять компонентов служат базисом ei (i =1, 2, 3, 4, 5) пространства знаний Е. При этом переходе продолжает действовать рекурсивное правило, согласно которому каждое значение, присвоенное ранее любой из координат xi, при необходимости может быть также описано, в том числе неоднократно, в качестве значения координаты x1 в том же базисе ei.

2.2. Соответствие структурного элемента лингвистическим и методологическим моделям

Для анализа текстов Интернета семантическая окраска полей структурного вектора была конкретизирована. Из всех аспектов отображения было выбрано "взаимодействие", а базисом выбран контекст и/или эталон наблюдения результата взаимодействия. Типы взаимодействия объектов, описанных в тексте не ограничены: разговор, сравнение, воздействие и пр. В результате получился каркас разбора для экспериментов с текстом. Объектами выбираются либо субъекты текста, либо предметы и лишь в исключительных случаях - процессы или качества, описываемые в тексте. При таком упрощении проделаны первые эксперименты с текстами.

Рис. 3. Мыслительная модель - каркас разбора текста.

На нескольких семинарах группы разработчиков НооЛаб при участии лингвистов, математиков, методологов, программистов был проделан анализ текстов "вручную" с использованием указанной на рис. 3 мыслительной модели. Участники семинара выделяли из текста объекты, выясняли о каком типе взаимодействия между ними хотел сказать автор. При этом каждая профессиональная позиция, представленная на семинаре, выполняла работу разбора и анализа так, чтобы выводы можно было оформить в техническое задание разработки.

Результаты разбора текстов были предложены лингвисту и методологу для поиска адекватных моделей получившегося разбора в соответствующих предметных областях.

С точки зрения лингвиста выяснилось, что все проделанные разборы текстов с большой точностью имеют отношение к тема-рематической модели текстов.

С точки зрения методолога, выяснилась возможность использовать структурированный текст для категориального анализа.

2.3. Лингвистическая модель

Можно сказать, что в разработке поставлена новая, не достигнутая пока современными исследователями (лингвистами, психолингвистами, логиками и др.) цель:

ухватить единство развертывания двух не сводящихся к одному, но в то же время коррелирующих процессов - мыслительного и текстообразующего;
выделить в качестве новой синтезированной целостности клеточку(и) и механизм(ы) единого процесса мысле-текстообразования.

За основу была взята разрабатываемая петербургской (ленинградской) лингвистической школой теория текста М.Я. Дымарского (2), а также работы лингвистов проблемной группы под руководством С.Г. Ильенко. Согласно этой теории текст рассматривается как динамическое образование и характеризуется целым рядом признаков.

С этих позиций раскроем сложившееся у нас понимание текста. Обозначим тезисно ключевые характеристики текста, ответив на четыре принципиально важных, на наш взгляд, вопроса.

Что такое текст?
Текст - это особая, развернутая форма осуществления речемыслительного произведения, выделяющаяся на основе противопоставления двум другим, свернутым формам - репликовой (например, афоризм) и предтекстовой (например, план, тезисы).

Что есть содержание текста?
Ключевым здесь является понятие "концепции текста" как развертывания концептуально значимых смыслов, а также понятие "нелинейных" (вертикальных) текстовых связей. Именно вопрос о содержании текста мы связываем с выходом в область развертывания мыслительных процессов, порождения и воплощения в тексте понятийных, категориальных моделей.

Что является формой существования концептуально значимых смыслов (КЗС)?
КЗС, или кванты смысла, оформляются в тексте рядом строевых единиц текста, принципиально не совпадающих с единицами языковых уровней (фонетического, лексического, морфологического, синтаксического). Иначе говоря, процесс текстообразования вырабатывает собственные строевые единицы, адекватные процессу мыслеобразования (но в то же время не тождественные ему). Основной строевой единицей традиционно считается сложное синтаксическое целое, а также выделяются еще три текстовые единицы (2).

Что является движущей силой текста?
В чем заключается динамический механизм развертывания КЗС и оформления в качестве единицы текста? В основе движущей силы развертывания текста лежит механизм тема-рематической организации текста. При этом ведущим понятием является понятие "рематической доминанты текста", позволяющей выявлять предикативный, актуальный для автора, смысл текста. А также понятие "тематической доминанты", отвечающей для читателя на вопрос об исходном предмете изложения, собственно - фоновой теме текста.

Примером лингвистического анализа, построенного на данных основаниях, может являться статья (3) о соотношении процессов тексто- и жанрообразования.

Если сопоставить клеточку мыслительной модели с процессом тестового движения, развертывания текста, то вектор на рис.3 можно переписать следующим образом.

Рис. 4. Вектор лингвистического анализа текста.

Данная модель опирается на трехкомпонентную тема-рематическую структуру: тема - связка - рема. И, расщепляя тему и рему, выделяет внутри них самостоятельные компоненты. Внутри темы: тематический объект и тематический предикат. Внутри ремы: рематический объект и рематический предикат.

Тематический объект (Х 1) - это компонент с объектным значением тематической природы.

Тематический предикат (Х 4) - это компонент со значениями места времени и другими значениями детерминирующего типа. Чаще всего это и есть детерминант или другой компонент с функциями детерминанта.

Рематический объект (Х 2) - это компонент с объектным значением рематической природы.

Рематический предикат (Х 5) - это компонент рематического происхождения со значением предиката.

Проведенные дополнительные исследования тема-рематического устройства текстов выявили правила, которые позволяют достаточно точно распределять текст по выделенным полям, не противореча при этом первоначальному наиболее общему философскому смыслу вектора (рис.2)

Итак, состоялось представление о соотнесенности мыслительных реалий - компонентов структуры мысли и текстовых реалий - компонентов структуры высказывания. А именно пятикомпонентная векторная мыслительная структура и коммуникативная структура высказывания соотносятся как рис. 3. (мыслительная структура) и как бы перпендикулярный ему рис. 4 (текстовая структура).

При этом внутри такой текстовой структуры устанавливаются, разумеется, трехмерные отношения:

Рис. 5. Трехмерные отношения в векторе лингвистического разбора текста.

Полученные правила заполнения структурных мест в векторах разбора используют а) синтаксические, лексико-грамматические характеристики слов текста и б) типы их комбинирования.

Для сборки концептуально значимых смыслов текста из полученных отдельных структурных единиц необходимо сформировать единую структуру. Правила связывания и правила машинной интерпретации получаемого "рисунка" текста - предмет дальнейших разработок авторов статьи.

2.4. Динамическое заполнение вакантных мест

Наиболее важной характеристикой получившихся правил перевода линейного текста в структурный является то, что они не фиксированы для каждого отдельного поля вектора. Правила зависят от некоторых характеристик предложений текста.

Поля вектора являются как бы вакантными местами и в зависимости от некоторых характеристик предложения заполняются разными словоформами. То есть структура предложения и его связей с соседями является для предложения "ситуацией", определяющей запуск конкретного алгоритма (из конечного числа возможных) на заполнение вакантных мест в структуре разбора.

Со стороны выяснения семантики текста, использование динамических алгоритмов означает, что в зависимости от текстовой "ситуации" по-разному определяется направление вектора внимания автора на объекты текста. Разные структуры предложений и разные связи между ними могут являться для автора средством точной настройки вектора своего внимания. Так в одном предложении одно и то же слово в одной и той же словоформе, поставленное в разные структуры текста (контексты, ситуации), для авторов может соответствовать разным полям в векторе.

Например, при разборах конкретных текстов существительное с оттенком процесса в именительном падеже (изменение, увеличение, взаимодействие) могло оказаться как тематическим объектом, так и связкой в зависимости от "ситуации" конкретного шага разбора.

Итак, метод динамического заполнения вакантных мест в структуре отражает передвижение вектора внимания автора текста - что автор считает содержательным объектом своего рассуждения.

Метод вакантного заполнения структурных мест нашел свою поддержку в лингвистическом аппарате. Частично он соответствует теории распространения предложений. Наиболее перспективным представляется соединение математического аппарата теории множеств и лингвистических представлений о пропозициональных отношениях. Группа разработчиков рассматривает гипотезу и возможном представлении пропозиций в виде частично упорядоченного множества. Такое представление может существенно облегчить алгоритмизацию машинного анализа текстов.

3. Оценка результатов экспериментальной разработки с позиции программиста

3.1. Теоретические результаты

Разработана структурная модель текста, пригодная для перевода линейных текстов на естественном языке в базы данных с векторной структурой. Данная структура обладает глубоким философским смыслом акта познания и имеет аналогии в лингвистических моделях.

3.2. Практические результаты

Для проверки эффективности и реализуемости созданных моделей разработчиками был поставлен эксперимент по созданию полностью автоматической системы, выделяющей из текста знания об объектах, явлениях и их взаимосвязях.

Создаваемая для эксперимента система была спроектирована как многоуровневая, в которой имели место различные технологические модули, выполняющие часть работы по анализу текста.

Общее строение полученной экспериментальной системы описывается следующей схемой:

Рис. 6. Схема построения экспериментальной системы по анализу текста.

В этой системе почти все модули работают с той или иной частью смысловой нагрузки текста, основываясь как на исходных данных (первоисточнике), так и на выводах (заключениях), совершенных другими блоками. Передача выводов между модулями частично осуществляется напрямую, через их специализированные интерфейсы, частично - посредством базы знаний, накапливающей итоговые результаты работы системы.

Базовые модели (технологии) анализа текстов, являющиеся принципиальными в работе этой системы закодированы и заключены в модулях, разработанных на языках высокого уровня. Однако все эти технологии опираются на сложные описания языковых конструкций, мыслительных моделей (конструкций), а также - на языковые словари, в которых содержится как формально-грамматическая информация, так и значительная часть семантической информации, включая неоднозначности, противоречия и двусмысленности.

Словари реализованы в виде СУБД со специализированным интерфейсом. Данная СУБД является строго технической составляющей, не выполняющей никаких выводов, а исключительно предоставляющей доступ к самим словарным данным.

Описания лингвистических конструкций и мыслительных моделей являются одной из самых технологически сложных составляющих системы. Они выполнены на специально разработанном для этого языке описаний, который представляет собой гибрида функционального и декларативного языков с зачатками процедурно-алгоритмических возможностей. В созданном языке полностью соблюдена идея рекурсивности и введены элементы нечеткой логики.

База знаний представляет собой надстройку над объектно-ориентированной базой данных, в которой развиты некоторые принципы ООП и введено множество понятий и возможностей, отвечающих нуждам реализуемой модели знаний. Первоначально предполагалось, что сама база знаний также будет описана на некотором языке (в виде метазнаний), однако из-за общей сложности комплекса на первом этапе было принято решение пока зафиксировать модель базы знаний, реализовав ее в специальном управляющем модуле, в редуцированном виде.

Результатом работы системы при анализе отдельных текстов или групп текстов - являлись записи в базе знаний, которые могли просматриваться разработчиками посредством специально созданной программы визуализации. На первом этапе от системы не требовалось совершения выводов или выполнения поисковых операций. Разработчики путем просмотра образующихся в базе знаний записей предположили делали заключения о том, коррелируют ли они с реальным смыслом обрабатываемых текстов.

Итоги экспериментов с системой в описанном составе показали, что в целом и построение данного комплекса, и заложенные базовые модели - с одной стороны адекватны решаемым задачам, с другой стороны - вполне реализуемы и открыты для совершенствования.

Опыты показали, что сами по себе принципиальные модели верны, а эффективность работы системы во многом зависит от полноты и детальности словарей, описаний лингвистических и мыслительных конструкций. И хотя эти составляющие являются достаточно объемными и никогда не будут полностью завершены, тем не менее даже в том объеме, в котором они были подготовлены к эксперименту - позволяют решать задачи семантического поиска текстов, совершения выводов и реферирования - на новом качественном уровне по сравнению с хорошо известными и применяющимися на практике современными технологиями.

Также значительные перспективы по повышению интеллектуальности системы заложены в возможностях создать базу знаний с гибкой динамической моделью. Эти возможности не были исследованы в ходе эксперимента, но они представляются весьма многообещающими для создания самообучающейся системы.

Возможно, также в перспективе произойдет смычка динамической базы знаний, лингвистических и категориальных конструкций, а также семантической словарной информации - поскольку по логике это все является знаниями системы, хотя и относящимися к разным уровням технологии работы с текстом.

Достаточно хороший результат был получен по критерию быстродействия. Система, осуществлявшая разбор и анализ, выполнялась на однопроцессорной станции класса Celeron-500 и показывала скорость более 10 страниц в час. Учитывая, что разработчики не ставили перед собой оптимизационных задач и не проводили работ над поиском утечек производительности - это представляется хорошим результатом. По предварительным оценкам, промышленная версия данной системы может быть оптимизирована до уровня 100-200 страниц/час при работе на однопроцессорной станции, а сложный модульный состав системы позволяет достаточно просто построить многопроцессорный или многокомпьютерный комплекс, производительность которого будет в 3-5 раз превосходить возможности однопроцессорной системы.

3.2.1. Распознавание структуры коммуникации в текстах на естественном языке

Получена демонстрационная версия системы, которая выделяет из массива текстов на естественном языке фрагменты, содержанием которых является описание коммуникации субъектов. В этом случае тип взаимодействия конкретизируется как коммуникативный. Например, система распознает фрагменты такого типа.

"Субъект В говорил субъекту А обо объекте С".

При этом в ответ на запрос об обратной ситуации

"Субъект В говорил субъекту А обо объекте С"

выделяются другие фрагменты из того же массива текстов. Запросы делаются с помощью простых структурных схем, интуитивно понятных - схем коммуникации.

Возможно распознавание и более сложных структурных схем, чем в обозначенных примерах.

3.2.2. Грамматический разбор предложений

Получен макет системы, которая выполняет разбор предложений по предложенным в лингвистической модели полям вектора. Проверена принципиальная возможность учета анафорической связи в предложениях. Выделения метатекстовой составляющей, определения жанра и намечены алгоритмы по сборке концептуально-значимых смыслов текста.

3.3. Организация работ

Важным результатом в проведенной работе, кроме практических и теоретических результатов, участники разработки считают использованный метод работы. Основными его характеристиками можно назвать:

полипозиционность

межпредметность

использование игровых шагов для продвижения исследований ("бумажная машина")

методологическая поддержка

В результате такого метода оказалось возможным соединить в одном проекте философские идеи, разнопредметные знания и конкретную практическую реализацию вплоть до технического уровня.

4. Планы и перспективы разработки

Основной практической задачей, которую планируется решить по итогам поставленного эксперимента, является создание модулей, решающих проблемы пользователей поисковой системы. Анализ текста и возможность просмотра образующихся в базе знаний записей - представляют исключительно академический интерес. Прикладные задачи, которые может решать подобная система, представляются следующими:

Удобный гибкий поиск по большим массивам текстов;
Совершение определенных (настроенных) выводов по результатам анализа текстов, в том числе совершение оперативных выводов на основании поступающей текущей корреспонденции;
Реферирование текстов.

Построение модулей, решающих эту задачу и обеспечение стабильности эффекта, получаемого при их использовании на различных текстах (по авторству, построению, жанру) - видится основной задачей, решение которой позволит говорить о выпуске промышленных образцов полученного комплекса.

Для решения этой задачи предполагается осуществить еще один или серию специальных экспериментов. Также в ходе последующих экспериментов предполагается повысить гибкость и удобство языков описания лингвистических конструкций и категориальных моделей, реализовать элементы мета-базы знаний.

В более дальней перспективе предполагается реализовать самообучаемость системы (автоматизированную подстройку и составление описаний лингвистических и категориальных конструкций, метазнаний). Это может обеспечиваться различными механизмами, но наиболее перспективным разработчики считают метод эволюционно-генетического программирования в совокупности с Е5-моделью как основой для создания (описания) эволюционирующих конструкций.

С точки зрения лингвистики, следующим шагом разработки станет выделение концептуально-значимых смыслов, определение жанра текста и построение целостного образа текста методом семантического сжатия структурированного текста.

Усовершенствование связи между лингвистическим аппаратом разработки и построением категориального пространства текста.

Дальнейшей проработки требуют:

вопрос о жанровом оформлении текста, рассматриваемый в аспекте данных лингвистических оснований.

содержательное отношение между всеми мыслительными компонентами пятимерных векторов

лингвистическое содержание каждого из компонентов

метатекстовыый компонент и соотношение "мататекст-текст"

выделение типов и возможностей присутствия индивидуально авторского компонента

компонент логических связок между собственно текстовыми частями и его место по отношению к исходной структуре.

Практическая задача состоит в описании формальных средств выражения каждого из выделенных компонентов. Частично эта задача уже решена.

Л и т е р а т у р а

Выготский Л.С. Психология. - М., 2000. - С. 470.

Выготский Л.С. Психология. - М., 2000. - С. 503.

Дымарский М.Я. Проблемы текстообразования и художественный текст. - СПб., 1999.

Дымарский М.Я., Максимова Н.В. Диалогический синтаксис: принцип "Не только: Но и" // Дискурс. - 1996. - № 1. - С. 88-102.

Елашкин В. Н. Концептуальное описание модели нейронной сети. - Труды ВЦ СО РАН. Информатика. - Новосибирск, 1994. - С. 122-137.