ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЙ В СИСТЕМАХ УПРАВЛЕНИЯ ЗНАНИЯМИ*
Т.А. Гаврилова1
Работа посвящена вопросу проектирования систем управления
знаниями (СУЗ). В ней рассмотрены предпосылки появления и технология
проектирования СУЗ, описаны основные функции. Акцент делается на роли онтологий
как модели описания знания в подобных системах.
The paper describes the process of knowledge management (KM)
systems’ design and development. The main trends, functions and development
technology are presented. The stress is put on ontologies as the knowledge
representation model for KM systems.
Что такое «управление знаниями»
Системы управления знаниями (СУЗ) появились в середине
90-ых годов в корпорациях, где проблемы обработки информация приобрели особую
остроту и стали критическими. При этом стало очевидным, что основным узким
местом является обработка знаний, накопленных специалистами компании, так как
именно знания обеспечивают преимущество перед конкурентами [О’Лири, 1998]. Часто
информации в компаниях накоплено даже больше, чем они в состоянии обработать.
Большинство компаний пытается стремится увеличить эффективность обработки знаний
[Macintosh, 1997].
Ресурсы знаний различаются в зависимости от отраслей
индустрии и приложений, но, как правило, включают руководства, письма, новости,
информацию о заказчиках, сведения о конкурентах и данные, накопившиеся в
процессе разработки. Для применения KM-систем (КМ — Knowledge Management)
используются различные технологии:
- электронная почта;
- базы и хранилища данных (Data Wharehouse);
- системы групповой поддержки;
- браузеры и системы поиска;
- корпоративные сети и Интернет;
- экспертные системы и базы знаний; интеллектуальные системы.
Традиционно проектировщики СУЗ ориентировались лишь на
отдельные группы потребителей — главным образом менеджеров. Более современные
CУЗ спроектированы уже в расчете на целую организацию [Николаев, 1999].
Хранилища данных, которые работают по принципу
центрального склада, были одним из первых инструментариев СУЗ. Как правило,
хранилища содержат многолетние версии обычной БД, физически размещаемые в той же
самой базе. Когда все данные содержатся в едином хранилище, изучение связей
между отдельными элементами может быть более плодотворным.
При этом, активы знаний могут находиться в различных местах:
в базах данных, базах знаний, в картотечных блоках, у специалистов и могут быть
рассредоточены по всему предприятию. Слишком часто одна часть предприятия
повторяет работу другой части просто потому, что невозможно найти и использовать
знания, находящиеся в других частях предприятия.
Управление знаниями — это совокупность процессов, которые
управляют созданием, распространением, обработкой и использованием знаний внутри
предприятия.
Необходимость разработки систем KM обусловлена следующими
причинами:
- работники предприятия тратят слишком много времени на поиск
необходимой информации;
- опыт ведущих и наиболее квалифицированных сотрудников
используется только ими самими;
- ценная информация захоронена в огромном количестве
документов и данных, доступ к которым затруднен;
- дорогостоящие ошибки повторяются из-за недостаточной
информированности и игнорирования предыдущего опыта.
Важность СУЗ обусловлена также тем, что знание, которое не
используется и не возрастает, в конечном счете становится устаревшим и
бесполезным, также, как деньги, которые сохранены без того, чтобы стать
оборотным капиталом, в конечном счете теряют свою стоимость, пока не
обесценятся. Напротив, знание, которое распространяется, приобретается и
обменивается, генерирует новое знание.
Управление знаниями и корпоративная память
Большинство обзоров концепции управления знания уделяет
внимание только первичной обработке корпоративной информации, типа электронной
почты, программного обеспечения коллективной работы, или гипертекстовых баз
данных (например [Wiig, 1996]). Они формируют существенную часть из необходимой,
но определенно не достаточной технической инфраструктуры для управления
знаниями.
Одним из новых решений по управлению знаниями является
понятие корпоративной памяти (corporate memory), которая по аналогии с
человеческой памятью позволяет пользоваться предыдущим опытом и избегать
повторения ошибок
Корпоративная память фиксирует информацию из различных
источников предприятия и делает эту информацию доступной специалистам для
решения производственных задач. Корпоративная память не позволяет исчезнуть
знаниям выбывающих специалистов (уход на пенсию, увольнение и пр.). Она хранит
большие объемы данных, информации и знаний из различных источников предприятия.
Они представлены в различных формах таких, как базы данных, документы и базы
знаний.
Введем два уровня корпоративной памяти (так называемые явные
и неявные знания по [Nonaka et al., 1995]).
Уровень 1. Уровень материальной или явной информации —
это данные и знания, которые могут быть найдены в документах организации в форме
сообщений, писем, статей, справочников, патентов, чертежей, видео- и
аудио-записей, программного обеспечения и т. д.
Уровень 2. Уровень персональной или скрытой информации —
это персональное знание, неотрывно связанное с индивидуальным опытом. Оно может
быть передано через прямой контакт — «с глазу на глаз», через процедуры
извлечения знаний. Именно скрытое знание — то практическое знание, которое
является ключевым при принятии решении и управлении технологическими процессами.
В действительности эти два типа информации, подобные двум
сторонам одной и той же медали, одинаково важны в структуре корпоративной памяти
(см. рис.1).
При разработке СУЗ можно выделить следующие этапы:
- Накопление.
Стихийное и бессистемное накопление
информации в организации.
Извлечение. Процесс, идентичный традиционному
извлечению знаний для ЭС. Это один из наиболее сложных и трудоемких этапов. От
его успешности зависит дальнейшая жизнеспособность системы.
Структурирование. На этом этапе должна быть выделены
основные понятия, выработана структура представления информации, обладающая
максимальной наглядностью, простотой изменения и дополнения.
Формализация. Представление структурированной
информации в форматах машинной обработки, то есть на языках описания данных и
знаний.
Обслуживание. Под процессом обслуживания понимается
корректировка формализованных данных и знаний (добавление, обновление):
«чистка», то есть удаление устаревшей информации; фильтрация данных и знаний
для поиска информации, необходимой пользователям.
Если первые четыре этапа традиционны для инженерии знаний,
то последний является специфичным для систем управления знаниями.
Как уже было сказано, он распадается на три более мелких
процесса:
- Корректировка
формализованных знаний
(добавление, обновление);
Удаление устаревшей информации;
Фильтрация знаний для поиска информации, необходимой
пользователю, выделяет компоненты данных и знаний, соответствующие требованиям
конкретного пользователя. При помощи той же процедуры пользователь может
узнать местонахождение интересующей его информации.
Рассмотренная выше классификация не является
единственной, но она позволяет понять, что происходит в реальных системах
управления знаниями.
Роль онтологий в системах управления знаниями
Уже классической ошибкой практически всех (без исключения!)
автоматизированных систем является главенство и доминирование средств
программной реализации над предметной постановкой. В системах КМ это особенно
опасно, так как именно предметные знания являются ядром таких систем.
Существуют различные подходы, модели и языки описания знаний
[Adeli, 1994]. Однако все большую популярность последнее время приобретают
онтологии. Онтология – это спецификация концептуализации по
определению Тома Грубера [Gruber, 1993], впервые применившего это понятие в
области информационных технологий. Так философский термин, означающий учение о
бытии переместился в область точных наук, где полу-формализованные
концептуальные модели всегда сопутствовали математически строгим определениям.
Под определение онтологии подпадают многие понятийные структуры: иерархия
классов в объектно-ориентированном программировании, концептуальные карты
(concept maps), семантические сети, и т. п. Онтология – это
точная спецификация некоторой предметной области. Формальное и декларативное
представление, которое включает словарь (или имена) указателей на термины
предметной области и логические выражения, которые описывают, что эти термины
означают, как они соотносятся друг с другом, и как они могут или не могут быть
связаны друг с другом. Таким образом, онтологии обеспечивают словарь для
представления и обмена знаниями о некоторой предметной области и множество
связей, установленных между терминами в этом словаре. В настоящее время
использование онтологий наиболее активно происходит в области систем управления
знаниями, а также в области многоагентных интеллектуальных систем.
Для описания онтологий существуют различные языки и системы, однако, наиболее
перспективным представляется визуальный подход, позволяющий специалистам
непосредственно "рисовать" онтологии, что помогает наглядно сформулировать и
объяснить природу и структуру явлений. Визуальные модели, например, графы
обладают особенной когнитивной силой, фактически представляя средства
когнитивной графики [Зенкин, 1992] для структурирования информации. Любой
программный графический пакет от PaintBrush до Visio можно использовать как
первичный инструмент описания онтологий. К такого рода
системам можно отнести CAKE (Сомputer Aided Knowledge Engineering), впервые
описанный в работе [Гаврилова, 1992] и ВИКОНТ – ВИзуальный Конструктор ОНТологий
[Гаврилова и др., 1999]. CAKE и ВИКОНТ позволяют визуально проектировать
онтологии любой предметной области. Онтология строится как сеть, состоящая из
концептов и связей между ними. Связи могут быть различного типа, например,
"является", "имеет свойство" и т. п. Концепты и связи имеют универсальный
характер для некоторого класса понятий предметной области. Можно выбрать
некоторое понятие из этого класса и для него "заполнить" онтологию, задавая
конкретные значения атрибутам. Известно, что наибольшую пользу
при создании обучающих систем получают ее разработчики, а не пользователи. Точно
также, при создании СУЗ именно эксперты вместе с аналитиками получают наиболее
полное представление о предметной области (в то время как пользователи этой базы
или системы получат "сухие выжимки", готовые факты без всего многообразия связей
и путей их получения). Программы визуализации онтологий
являются инструментом, позволяющим сделать видимыми структуры корпоративного
знания.
В простейшем случае построение онтологии сводится к:
- 1) выделению концептов – базовых понятий данной предметной области;
- 2) построению связей между концептами – определению соотношений и
взаимодействий базовых понятий;
- 3) сравнению построенной онтологии с имеющимися – проведение параллелей с
другими областями знаний.
Еще одним преимуществом использования онтологий в СУЗ
является системный подход к изучению предметной области. При этом достигаются:
- системность – онтология представляет целостный взгляд на предметную
область;
- единообразие – материал, представленный в единой форме гораздо лучше
воспринимается и воспроизводится;
- научность – построение онтологии позволяет восстановить недостающие
логические связи во всей их полноте.
Стоит еще раз подчеркнуть, что онтология не только цель, но и
средство формирования СУЗ.
Системы OMIS
Автоматизированные системы KM, или Organizational Memory
Information Systems (OMIS), предназначены для накопления и управления знаниями
предприятия [Kuhn et al.,1998]. ОMIS включают работу как на уровне 1 – с явным
знанием компании в форме баз данных и электронных архивов, так и на уровне 2 –
со скрытым знанием, фиксируя его в некотором (более или менее формальном)
представлении в форме экспертных систем [Wiig, 1990] или БД.
ОМIS часто используют вспомогательные справочные системы, так
называемые helpdesk-приложения.
Основные функции OMIS:
Сбор и систематическая организация информации из различных
источников в централизованное и структурное информационное хранилище.
Интеграция с существующими автоматизированными системами
[Conklin, 1996]. На техническом уровне, это означает, что корпоративная память
должна быть непосредственно связана с помощью интерфейса с инструментальными
средствами, которые в настоящее время используются в организации (например
текстовые процессоры, электронные таблицы, системы документооборота).
Обеспечение нужной информации по запросу (пассивная форма) и при
необходимости (активная форма). Слишком часто ошибки – это следствие
недостаточной информированности. Этого невозможно избежать с помощью
пассивной информационной системы, так как служащие часто слишком заняты,
чтобы искать информацию или не знают, что нужная информация существует.
Конечная цель OMIS состоит в том, чтобы обеспечить доступ к
знанию всякий раз, когда это необходимо. Чтобы обеспечить это, OMIS реализуют
активный подход распространения знаний, который не полагается на запросы
пользователей, а автоматически обеспечивает полезное для решения задачи знание.
Чтобы предотвращать информационную перегрузку, этот подход должен быть совмещен
с высокой выборочной оценкой уместности. Законченная система должна действовать
как интеллектуальный помощник пользователю.
Рисунок 2 иллюстрирует
подход, который в настоящее время реализуется нами в рамках развития
концепции создания корпоративных порталов УЗ. Три уровня обработки
информации заставляют разработчиков последовательно придерживаться
дедуктивного подхода top-down, начиная проектирования системы с
онтологического или концептуального уровня, постепенно конкретизируя его до
конкретных информационных файлов. При этом в зависимости от типа информации
(данные, знания, или документы) применяются различные технологии обработки
CУЗ расширяют технологии работы с информацией для улучшения
качества решения производственных задач. Так ОМIS включают подсистемы
объяснений, которые позволяют непосредственно отвечать на вопросы: "Почему?" и
"Почему нет?". В простой базе данных или гипертекстовой системе, пользователи
должны были бы искать нужную информацию для ответа на такие вопросы
непосредственно, а для этого необходимо отфильтровать большое количество
потенциально нужной информации, которая, однако, не будет применяться в
специфическом случае. Наконец, OMIS всегда открыты для
расширения и пополнения новой информацией.
Если хранилища данных содержат в основном количественную
информацию, то хранилища знаний больше ориентированы на качественную или
содержательную информацию. КМ системы генерируют системы из широкого диапазона
данных, хранилищ данных, статей новостей, внешних баз, WWW-страниц.
Программный инструментарий для OMIS включает как оригинальные разработки,
например KARAT [Tschaitschian, 1997] и Documentun i4 [Николаев, 1999], так и
стандартные средства, например LOTUS NOTES обеспечила один из первых
инструментариев хранения документальной информации. Однако сегодня в связи с
бурным развитием Интернета, КМ системы все чаще используют Web-технологию.
Особенности разработки OMIS
Так как разработка систем корпоративной памяти – это прежде
всего программный проект, то для нее применимы традиционные технологии
разработки больших программных систем. В каждом программном проекте, первым
шагом в разработке является анализ требований, в котором должны быть найдены
ответы на следующие вопросы:
- Какие задачи должны поддерживаться?
- Какая информация необходима, чтобы решить эти задачи?
- Какой тип поддержки желателен пользователями?
- Каков уровень затрат на разработку?
При поиске ответов на эти вопросы следует учитывать:
1)Человеческий фактор Основная причина
неудач пилотных проектов OMIS заключалась в том, что разработчики
игнорировали реальные потребности, способности, и цели пользователей
системы [Malsch et al., 1993; Kuhn et al., 1994].
2)Стоимостной анализ
Во-первых, ядро проекта должно ориентироваться на критические
процессы, "страдающие" от недостатка информационной поддержки. Во вторых, не
следует перегружать начальную систему слишком большим количеством услуг, которые
могут быть желательны, но не обещают быстрое возвращение инвестиций.
Рисунок 2. представляет
архитектуру для OMIS и корпоративной памяти (частично из работы [Borghoff et
al., 1998]). Ядром системы является Информационное хранилище.
3) Эволюция знаний Электронная поддержка
особенно ценна в областях, подвергающихся быстрым изменениям, так как на
таких предприятиях трудно обеспечить доступ к оперативной современной
информации. В системах OMIS часто используют различные новые технологии
обработки знаний, не имеющие пока общепринятых русскоязычных терминов и
связанные с получением нового знания из анализа данных, например "открытие
или разведка знаний" (Knowledge Discovery) и "разработка данных" (Data
Mining). Разведка знаний представляет собой новое и быстро развивающееся
направление, занимающееся "нетривиальным извлечением точной, ранее
неизвестной и потенциально полезной информации из данных"
[Piatetsky-Shapiro et al., 1991]. В методах разведки данных используются
различные подходы к анализу текста и числовых данных, плюс специальный
инструментарий статистического анализа. 4)
Чувствительность к контексту для естественно-языковых запросов.
Система должна "понимать" контекст поступающих запросов. К
примеру, она должна различать термины "размножение животных" и "размножение
документов". 5) Гибкость.
Система должна иметь возможность обрабатывать знания в
различной форме и по разным темам в контексте работы данного предприятия.
6) Интеллектуальность.
Система должна накапливать информацию о своих пользователях и
о знаниях, которые она получает во время работы. Таким образом, со временем ее
возможность "продуманно" предоставлять пользователям знания должна
совершенствоваться. До последнего времени при разработке OMIS
остается целый ряд исследовательских вопросов [Kuehn et al.,1998]:
Проблема обобщения моделей данных, тезаурусов, онтологий. Основание для
объединенной эксплуатации данных, документов, и формального знания –
построение объединенных мета-моделей данных и знаний. Полезны были бы
процедуры автоматического порождения тезауруса из существующих массивов
документов Объединенная онтология/тезаурус может использоваться, чтобы
улучшить поиск, фильтрацию и маршрутизацию документов.
Проблема объединение логического вывода и информационного
поиска. Объединенная эксплуатация формальных и неформальных представлений знаний
и данных – это последовательное сближение логических методов и методов
информационного поиска и индексации данных.
Соединение Деловых Процессов и Управления Знаниями.
Окончательная цель состоит в том, чтобы обнаруживать информационную потребность
в течение выполнения производственного процесса и определять уместное знание в
специфическом контексте задачи. Первый прагматический шаг в этом направлении
описан в [Hinkelmann et al., 1997], где авторы предлагают использовать
информацию контекста задачи для информационной фильтрации.
Корпоративная память интегрирует знания, чтобы в решении новых задач
опереться на предварительно накопленный опыт. Таким образом, можно
избегать повторения ошибок, опыт может расширяться систематически, и
информационно-емкие процессы работы могут быть выполнены более
эффективными способами. В отличие от экспертных систем первичная цель
систем OMIS – не поддержка одной специфической задачи, а лучшая
эксплуатация необходимого общего ресурса – знаний.
Заключение
В настоящее время существует значительный интерес к СУЗ со
стороны промышленных компаний, которые осознают высокий прикладной потенциал
корпоративной памяти для решения целого ряда практических задач обработки
информации, стимулирует исследования в данной области. С другой стороны, не
многие из проектов идут далее стадии прототипа, что очевидно показывает реальную
сложность создания промышленных образцов СУЗ. Список
литературы
[Гаврилова, 1992] Спецификация знаний через структурирование:
введение в CAKE-технологию // Сборник трудов III конференции по искусственному
интеллекту. т. 2. – Тверь. – с. 113-116. [Гаврилова и др.,
2000] Базы знаний интеллектуальных систем // Учебник для вузов. – СПб,
Изд-во "Питер". [Гаврилова и др., 1999] Визуализация
онтологий как инструмент приобретения знаний // Труды 4-го международного
семинара по прикладной семиотике, семиотическому и интеллектуальному
управлению ASC/IC'99. Москва – с. 34-41. [Николаев,
1999] Построение систем управления знаниями на базе технологии Documentum
4i // Открытые системы , N9-10.- с.44-48. [О'Лири, 1998]
Управление корпоративными знаниями // Открытые системы, N4-5. -c.31-39.
[Adeli, 1994] Knowledge Engineering. – McGraw-HillPublishing Company,
New-York. [Borghoff et al., 1998] Information Technology
for Knowledge Management. – Springer-Verlag, Bln.
[Gruber, 1993] A translation approach to portable ontologies // Knowledge
Acquisition, 5(2):199-220. [Conklin, 1987] Hypertext: An
Introduction and Survey // Computer. – Vol. 20, № 9. – pp.17-41.
[Hinkelmann et al., 1997] Task-oriented web-search refinement and
information filtering. DFKI GmbH. [Kuhn et al., 1998]
Corporate Memories for Knowledge Management in Industrial Practice:
Prospects and Challenges. [Kuhn et al., 1994] Integrated
Knowledge Utilization and Evolution for the Conservation of Corporate
Know-How // ISMICK'94: Int. Symposium on the Management of Industrial and
Corporate Knowledge [Macintosh, 1997] Knowledge asset
management. // Airing. – №20, April. [Malsch et al.,
1993] Expertensysteme in der Abseitsfalle? – Fallstudien aus der
industriellen Praxis. edition sigma, Reiner Bohn Verlag, Berlin.
[Nonaka et al., 1995] The Knowledge-Creating Company. New York, Oxford:
Oxford University Press. [Piatetsky-Shapiro et al.,
1991] Knowledge Discovery in Databases. – AAAI/MIT Press.
[Tschaitschian et al., 1997] A. Putting Knowledge Into Action: Information
Tuning With KARAT. // In 10th European Workshop on Knowledge Acquisition,
Modeling, and Management (EKAW-97). [Wiig, 1990] Expert
Systems: A manager's guide. – Geneva: The International Labour Office of
the United Nations. [Wiig, 1996] Knowledge management is
no illusion! // Proc. of the First International Conference on Practical
Aspects of Knowledge Management. – Zurich, Switzerland: Swiss
Informaticians Society.
*Работа выполнена при
финансовой подержке РФФИ (проект № 01-01-00224)
1Татьяна Гаврилова – д.т.н., консультант по информационным технологиям
управления знаниями, [email protected]
|