Организация порталов знаний на основе онтологий.
О. И. Боровикова
Российский НИИ Искусственного Интеллекта,
Институт систем информатики СО РАН
[email protected] |
Ю. А. Загорулько
Российский НИИ Искусственного Интеллекта,
Институт систем информатики СО РАН
[email protected] |
Ключевые слова: онтология, база знаний, интеллектуальный
агент, информационный поиск, портал знаний, сетевые ресурсы
В настоящее время в сети Интернет представлены громадные
объемы информации, большая часть которой становится практически недоступной
из-за неэффективной работы поисковых систем. Для повышения эффективности поиска
в сети Интернет предлагается строить порталы знаний, каждый из которых
предоставляет доступ к ресурсам определенной тематики. В основе порталов знаний
лежат онтологии, содержащие описание структуры и типологии соответствующих
сетевых ресурсов. Организация таких порталов поможет значительно сократить время
обработки запроса пользователя и количество выдаваемых ресурсов за счет более
точного определения степени их релевантности и хранения ссылок на них
непосредственно на портале знаний.
1. Введение
В настоящее время в сети Интернет представлены громадные
объемы информации, которые из года в год неконтролируемо растут. Большая часть
этой информации становится практически недоступной из-за неэффективной работы
поисковых систем, не учитывающих семантику запросов. Проблема усугубляется еще и
тем, что в качестве основной задачи поисковых систем в настоящее время
рассматривается индексация ресурсов сети при полном отсутствии средств анализа
смысла представленной в них информации.
Для решения задачи повышения эффективности поиска в сети
Интернет предлагается строить порталы знаний, каждый из которых
предоставляет доступ к ресурсам сети Интернет определенной тематики. Основу
таких порталов знаний составляют онтологии, содержащие описание структуры и
типологии соответствующих сетевых ресурсов.
Понятие онтология [1], заимствованное из философии,
сейчас активно применяется в информатике и искусственном интеллекте. Напомним,
что в философии онтология – это учение о бытии, о сущем, о его формах и
фундаментальных принципах, о наиболее общих определениях и категориях бытия. В
таком понимании онтология, являясь философской дисциплиной, изучает объекты,
свойства которых являются общими для всего сущего.
Когда же природа объектов различна, то в зависимости от
контекста и целей использования онтологии, существуют следующие интерпретации
этого понятия [2]. Одни исследователи рассматривают онтологию как концептуальную
“семантическую” сущность. Тогда онтология является концептуальной системой,
которая предлагается в качестве базиса определенной базы знаний. Другие
исследователи трактуют онтологию как специальный семантический объект. В данном
случае онтология – это представление концептуальной схемы логической теории, ее
словарь или спецификация.
Для систем искусственного интеллекта (ИИ), которые, как
правило, являются замкнутыми системами, существует только то, что уже в них
представлено или может быть представлено, поэтому в области ИИ самым
распространенным определением онтологии является определение, данное в работе
[3]. Согласно этому определению, онтология является точной спецификацией
концептуализации. Точный смысл этой интерпретации зависит от понимания терминов
“спецификация” и “концептуализация”. Под концептуализацией может пониматься
некоторая абстракция, т.е. упрощенное представление мира, построенное для
определенной цели. Концептуализация включает объекты, понятия и другие сущности,
которые предполагаются существующими в рассматриваемой области, а также
отношения между ними. С этой точки зрения каждая база знаний, система ИИ или
интеллектуальный агент явно или неявно фиксируются некоторой концептуализацией.
В контексте ИИ основу онтологии составляет множество
(словарь) представленных в ней терминов, организованных в таксономию. В такой
онтологии определения связывают имена сущностей предметной области, (например,
классы, отношения, функции и другие объекты) с текстом на естественном языке,
описывающим, что означают эти имена, и формальными аксиомами, ограничивающими
интерпретацию и корректное использование терминов. Заметим, что при таком
подходе понятие онтологии сильно пересекается с уже принятым в информатике и
лингвистике понятием тезауруса.
В настоящее время ведется большое число исследований в
области онтологий, в том числе и в работах по интеллектуализации информационного
поиска, в первую очередь в среде Интернет. Общей целью таких проектов является
разработка новых подходов к построению пространств знаний и средств работы с
ними.
Особенностью онтологий порталов знаний, ориентированных на
поиск информации в Интернет, является наличие в них описания сетевых ресурсов
наряду с традиционным описанием предметной области. Такая онтология на основе
предварительного индексирования группирует ссылки на Интернет-ресурсы в
категории и соотносит их с понятиями, которые в ней описаны. На основе свойств
сетевых ресурсов онтология отслеживает взаимосвязи между информационными
источниками для соотнесения их с определенной тематикой, группой, интересами и
другими параметрами, как это предлагается в [4].
Онтологии порталов знаний могут использоваться не только для
локализации поиска в проиндексированных данным порталом ресурсах, но и для
уточнения формулировки запроса при выполнении поиска во всей сети.
Заметим, что для решения задачи поиска информации также
должны быть созданы специальные средства пополнения онтологии и ее интеграции с
другими предметными онтологиями.
2. Структура портала знаний
В этой главе рассматривается структура портала знаний, который мы предлагаем
в качестве средства обеспечения эффективного доступа к Интернет-ресурсам
определенной тематики.
Каждый портал знаний может иметь иерархическую или сетевую структуру, т.е.
состоять из более специализированных порталов, связанных некоторыми отношениями,
например, отношением “общее-частное”. Такая архитектура делает портал знаний
гибким и легко расширяемым. В основе порталов знаний лежат онтологии, содержащие
описание устройства и типологии соответствующих сетевых ресурсов.
На Рис.1. представлена структура предлагаемого портала знаний. Его основными
компонентами являются: онтология, коллекционер онтологической информации о
ресурсах, конструктор запросов и формирователь ответов. Рассмотрим каждый из них
подробнее.
Онтология. Онтологии порталов знаний включают как описание предметной
области (ПО), так и описание релевантных ей ресурсов. Описание предметной
области включает совокупность терминов и отношений, семантически значимых
для данной предметной области, а также правил, согласно которым можно строить
утверждения об элементах ПО. Описание ресурса сети включает список ссылок на
страницы и сайты, а также описание связей между ними.
Коллекционер онтологической информации о ресурсах,
используя стандартные механизмы поиска, последовательно обрабатывает ссылки на
документы, страницы, сайты, определяя их тематику, структуру, степень
релевантности между тематикой и информацией, которая в них содержится.
Полученные сведения накапливаются в онтологии. Коллекционер должен анализировать
новые источники и проверять старые.
Формирователь ответов. Обрабатывая источники,
формирователь ответов отслеживает степень их релевантности понятиям и выдает
список наиболее подходящих для данного понятия ресурсов.
Конструктор запросов. Портал знаний имеет язык
запросов, близкий к естественному языку. Это требует наличия в нем
соответствующего лингвистического обеспечения, одним из основных компонентов
которого является словарь терминов, органически связанный с онтологией.
На основе такого лингвистического обеспечения должны решаться
следующие важные задачи:
задание лингвистической информации о данной предметной
области на ЕЯ. Для этого необходимо построение словаря, организованного с
учетом проблемно-ориентированной лексики, морфологии, словообразования,
синонимии.
описание системы знаний о предметной области в виде комплекса
понятий, связанных между собой отношениями.
Для описания входного языка, близкого к естественному, используется
специализированный словарь-тезаурус разработанной в РосНИИ ИИ системы Alex. В
этом словаре отражены в виде иерархических лексических шаблонов все возможные
вхождения терминов (слов и словосочетаний) конкретной предметной область, что
позволяет задавать в запросе термины не только на русском, но и других языках. В
дальнейшем эта иерархия понятий может быть использована для интеграции
словаря-тезауруса и онтологии понятий в единую сеть знаний. Преимущества такого
подхода рассматриваются в работе [5].
Благодаря интеграции словаря-тезауруса и онтологии портал знаний становится
способным “понимать” разноязычные ресурсы и воспринимать запросы на разных
языках. При этом онтология становится независимой от конкретных языков, так как
описание языковых (лингвистических) свойств понятий отражаются в тезаурусе, в то
время как в онтологии представлена информация только об их семантике.
3. Описание ресурса
Как уже было сказано выше, онтология портала знаний включает
как описание предметной области, так и описание релевантных ей ресурсов.
Часть онтологии, описывающая конкретную предметную область,
включает в себя совокупность терминов и отношений, семантически значимых
для данной предметной области, а также правил, согласно которым можно строить
утверждения об элементах ПО.
Процесс построения онтологии распадается на серию
подпроцессов. Обычно сначала составляется глоссарий терминов, который в
дальнейшем используется для исследования свойств и характеристик представленных
в нем терминов, затем на естественном языке создается список точных определений.
После этого на основе таксономических отношений строятся деревья классификации
понятий (Рис.2).
Для фиксации значимых отношений между терминами выделяются основные связи
между ними, которые можно графически отобразить с помощью диаграмм бинарных
отношений. Такие связи в дальнейшем могут послужить основой для интеграции
различных онтологий.
На примере, изображенном на
Рис.3, показано объединение онтологий,
соответствующих таким предметным областям, как представление знаний,
организация, человек, проект и ресурс, на основе отношений,
существующих между представленными в них понятиями.
Описание ресурса сети [1] включает ссылки на ресурсы,
описание страниц, сайтов и связей между ними. Для этого в онтологию заносятся
такие характеристики ресурса, как название, адрес, автор, структура,
тематика, язык, тип информации (текст, графика, мультимедиа, гиперссылки,
дата обновления, число посетителей). Важной характеристикой ресурса является его
степень релевантности данному понятию ПО. Она может быть представлена
некоторой числовой величиной от 0 до 1, определяющей на диаграмме вес дуги,
связывающей данное понятие с ресурсом.
Таким образом, в онтологии становится возможным описывать
такие свойства понятий, как “ссылка на релевантный ресурс в сети Интернет” с
указанием значения атрибута “степень релевантности”. С каждым ресурсом
могут быть связаны и другие свойства, полезные при поиске информации, например,
“ссылка другого ресурса на ресурс” и др.
Указанные свойства и атрибуты приписываются понятиям и
связанным с ними ресурсам в соответствии с результатами предварительного
индексирования сети Интернет и последующей оценки обработанных ресурсов на
релевантность.
4. Схема организации поиска
Построенный по предложенной выше схеме портал знаний может поддерживать
несколько видов поиска:
“локальный” (когда поиск информации производится непосредственно среди
ссылок на ресурсы, которые содержатся в онтологии),
“глобальный” (когда запрос перед передачей той или иной поисковой системе
предварительно уточняется с помощью онтологии и переводится в
соответствующий формат с использованием ключевых слов (терминов) и
логических связок).
Выбор вида поиска осуществляется в пользовательском интерфейсе портала
знаний, который обеспечивает также возможность составления поискового запроса на
естественном языке и просмотра результатов поиска.
Принципы организации глобального поиска были рассмотрены нами в работе [6],
поэтому в этом докладе мы рассмотрим только основные этапы локального поиска.
Сначала заданный на естественном языке поисковый запрос обрабатывается
системой Alex, которая осуществляет лексический анализ посредством сопоставления
текста запроса с множеством лексических образцов-шаблонов, заданных в
словаре-тезаурусе.
Затем, полученный в результате лексического анализа набор терминов (понятий)
предметной области подвергается семантическому анализу, который выполняется на
основе онтологии, составляющей со словарем-тезаурусом единую сеть знаний. При
этом рассматриваются как свойства понятий предметной области и связи между ними,
так и свойства представленных в онтологии ресурсов, сопоставленных указанным в
запросе понятиям предметной области. Результирующий список ссылок на ресурсы
формируется с учетом степени релевантности каждого ресурса полученной
совокупности понятий.
При формировании данного списка мы различаем относительную ro и
абсолютную ra релевантность ресурса запросу.
В простейшем случае, когда не учитывается взаимосвязь понятий и их степень
важности в запросе, относительная релевантность ro ресурса Rk
запросу Q, включающему n понятий Pi данной предметной области, может
быть вычислена по формуле
где ri – релевантность ресурса Rk понятию Pi.
Абсолютная релевантность ресурса запросу вычисляется по формуле
Из формулы видно, что абсолютная релевантность ресурса Rk запросу
Q становится нулевой, если этот ресурс нерелевантен хотя бы одному понятию из
запроса. Поэтому использование абсолютной релевантности ресурса предполагает
более жесткий критерий отбора ресурсов, чем использование относительной
релевантности.
В то же время, очевидно, что описанные выше способы вычисления релевантности
как в отдельности, так и в комбинации, дают довольно грубую оценку релевантности
ресурса запросу. В связи с этим нами разрабатывается метод вычисления
релевантности, учитывающий взаимосвязь понятий, а также их степень важности в
запросе.
5. Заключение
В докладе предложен подход, позволяющий повысить эффективность поиска в сети
Интернет путем организации порталов знаний, каждый из которых предоставляет
пользователю доступ к ресурсам определенной тематики. В основе таких порталов
знаний лежат онтологии, содержащие наряду с традиционным описанием предметной
области соотнесенное с ним описание структуры и типологии соответствующих
сетевых ресурсов. Главным преимуществом данного подхода является то, что порталы
знаний позволяют значительно сократить время обработки запроса пользователя и
количество выдаваемых ресурсов за счет более точного определения степени их
релевантности и хранения ссылок на них непосредственно на портале знаний.
Мы считаем, что специализированные порталы знаний должны обеспечить более
быстрые и релевантные ответы на запросы, чем существующие на данный момент
поисковые системы.
Литература
- Гаврилова Т.А., Хорошевский В.Ф.
Базы знаний интеллектуальных систем. Учебник. СПб.:Питер, 2001.
- Guariano N., Giaretta P.Ontologies and
Knowledge Bases. Towards a Terminalogical Clarification //Towards Very Large
Knowledge Bases.1995-N.J.I.Mars (ed.) IOS Press, Amsterdam.
- Thomas R. Gruber. Towards Principles for the
Design of Ontologies Used for Knowledge Sharing // International Workshop on
Formal Ontology. 1993. March, Padova, Italy.
- Жигалов В. Как нам
обустроить поиск в Сети? // Открытые системы. 2000. №12.
- Нариньяни А.С. Кентавр по
имени ТЕОН: Тезаурус + Онтология// Труды международного семинара Диалог'2001 по
компьютерной лингвистике и ее приложениям. -Т.1. -Аксаково, 2001. - С.184-188.
- Россеева О.И., Загорулько
Ю.А. Организация эффективного поиска на основе онтологий. // Труды
международного семинара Диалог'2001 по компьютерной лингвистике и ее
приложениям. -Т.2. -Аксаково, 2001. -с.333-342.
|