Извлечение знаний: лингвистический аспект
Татьяна Гаврилова - д.т.н., консультант по информационным
технологиям управления знаниями,
[email protected]
В предыдущей статье цикла (см. Т. Гаврилова. «Извлечение
знаний: психологический аспект». Enterprise Partner №8 (25)’2001) мы начали
рассматривать проблемы, возникающие на до-машинном этапе разработки
корпоративных информационных систем. При этом акцент делался на «белом пятне»
современных информационных технологий — инженерии данных и знаний. Инженерия
знаний — сердцевина достаточно молодой технологии «управления знаниями», или
knowledge management (KM), в русле которой данная статья рассматривает
работу аналитика с заказчиком. Традиционно в системах KM знания
трактуются как информационный ресурс, базирующийся на практическом опыте
специалистов и на данных, накопленных и используемых на конкретном предприятии.
Поскольку основная проблема инженерии знаний — процесс
извлечения знаний, разработчикам систем KM и в первую очередь аналитикам
необходимо четко понимать природу и особенности этого процесса. Мы выделили три
основных аспекта процесса извлечения знаний: A = {A1, А2, А3} =
{психологический, лингвистический, гносеологический}.
Три слоя лингвистических проблем
Лингвистический (А2) аспект касается исследований языковых
проблем, поскольку язык — основное средство общения в процессе извлечения
знаний. Аналитик, приступивший к процессу приобретения информации, сталкивается
с тремя слоями лингвистических проблем:
S1 — формирование «общего кода»;
S2 — построение понятийной структуры;
S3 — создание словаря пользователя.
Общий код
Первоначально аналитик, даже если он предварительно
знакомился с проблематикой моделируемой предметной области и спецификой
предприятия, сталкивается в беседах с заказчиком с массой новых, зачастую
малопонятных терминов. Эта проблема решается путем формирования «общего кода»
как средства общения. Общий код S1 устраняет проблему языковых ножниц между
профессиональной терминологией специалистов предприятия-заказчика и обыденной
литературной речью аналитика. Он включает следующие компоненты:
S1 = {общенаучная терминология; специальные понятия из
проблематики работы предприятия; элементы бытового языка; неологизмы,
сформированные за время совместной работы; профессиональный жаргон и др.}.
Детализация схемы общения позволяет представить средства
общения как два потока, в которых нас интересуют компоненты V1 и V2 — языки, на
которых говорят аналитик и эксперт (V1', V2' — невербальные компоненты).
Различия языков V1 и V2 и обусловливают «языковой барьер», или «языковые
ножницы», в общении аналитика и специалистов-экспертов.
Эти два языка отражают «внутреннюю речь» специалиста и
аналитика, поскольку большинство психологов и лингвистов считают, что язык — это
основное средство мышления наряду с другими знаковыми системами «внутреннего
пользования». При этом на внутреннюю речь влияет весь прошлый профессиональный
опыт специалиста.
Язык аналитика V1 состоит из трех компонентов:
s1_1 — общенаучная терминология из его «теоретического багажа»;
s1_2 — термины предметной области, которые он почерпнул из специальной
литературы в период подготовки;
s1_3 — бытовой разговорный язык, которым пользуется аналитик.
Язык эксперта V2 включает такие компоненты:
s1_1 — общенаучная терминология;
s1_2 — специальная терминология, принятая в данной отрасли;
s1_3 — бытовой язык;
s1_4 — неологизмы, созданные экспертом за время работы (его
профессиональный жаргон).
Если считать, что бытовой и общенаучный язык у двух
участников общения примерно совпадает (хотя реально объем последнего у эксперта
существенно больше), то некоторый общий язык, или код, который необходимо
выработать партнерам для успешного взаимодействия, будет складываться из общих
потоков s1_1 и s1_3, потока s1_4 эксперта и потока s1_2 аналитика.
В дальнейшем этот общий код подвергается переосмыслению и
структурированию, а затем аналитик на его основе формирует некоторую понятийную
структуру, или сеть понятий.
Выработка общего кода начинается с выписывания аналитиком
всех терминов, употребляемых экспертом, и уточнения их смысла — фактически это
составление словаря предметной области. Затем следует группирование терминов и
выбор синонимов. Разработка общего кода заканчивается составлением словаря
терминов предметной области с предварительной группировкой их по смыслу, то есть
по понятийной близости (это уже первый шаг структурирования знаний).
На этом этапе аналитик должен с большим вниманием отнестись
ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых
проблем, бизнес-процессов и технологий. Освоение аналитиком языка и терминологии
предметной области — первый рубеж на подступах к созданию адекватной
корпоративной информационной системы.
Интерпретация терминов двумя специалистами весьма
неоднозначна. В семиотике, науке о знаковых системах, проблема интерпретации —
одна из центральных. Интерпретация связывает между собой «знак» и «означаемый
предмет». Только в интерпретации знак получает смысл. Так, слова «прибор X» для
специалиста-эксперта означают некий абстрактный образ схемы, которая
соответствует некоторому конкретному измерительному инструменту, а в голове
начинающего аналитика слова «прибор X» вызывают пустой образ или некий черный
ящик с ручками.
Внимание к лингвистическому аспекту проблемы извлечения
знаний способствует сближению образа 1 с образом 2 и интерпретации I1 с
интерпретацией I2, а слова «прибор X» переходят в действительно общий код.
Таким образом, лингвистический слой S1 включает изучение и
управление процессом разработки специального промежуточного языка, необходимого
для взаимодействия аналитика и специалиста предприятия заказчика.
Понятийная структура
Проблемы формирования понятийной структуры представляют
следующий слой S2 лингвистического аспекта проблемы извлечения знаний. Эта
проблема тесно связана с разделом психологии, который изучает процессы усвоения
информации человеком и законы их обработки, — психологией познания, или
когнитивной психологией. Один из ее постулатов — наличие установленной
взаимосвязи понятий в памяти человека. Иными словами, в памяти любой объект
существует не изолированно, а в связи с другими близкими по смыслу или
ассоциации объектами и понятиями.
Особенности формирования понятийной структуры у специалистов
обусловлены наличием в сознании так называемых семантических, или ассоциативных
сетей, объединяющих отдельные термины во фрагменты, фрагменты в сценарии и т. д.
В отличие от разрозненного хаоса понятий у новичков и дилетантов, у опытных
специалистов эти сети упорядочены, в них можно обнаружить иерархические
структуры, или «деревья», либо «пирамиды» понятий. При разработке баз знаний
формирование так называемой пирамиды знаний — важнейшее звено этапа
проектирования интеллектуальных систем.
Таким образом, при создании корпоративной информационной
системы нужны не просто наборы понятий или словари, а «энциклопедии», в которой
все термины объясняются со ссылками на другие термины.
Итак, лингвистическая работа аналитика в данном слое проблем
заключается в построении таких связанных фрагментов с помощью «сшивания»
терминов. Фактически это подготовка к этапу структурирования, где такое «шитье»
приобретает некоторый законченный вид.
При тщательной работе аналитика и специалистов в понятийных
структурах начинает просматриваться иерархия понятий. Такие структуры играют
важную роль как системообразующий скелет понятий предметной области. В последнее
время для таких структур используется специальный термин — онтологии. Следует
заметить, что эта иерархическая организация хорошо согласуется с теоретическими
основаниями когнитивной психологии, согласно которой при мышлении используются
не языковые конструкции как таковые, а их коды в форме некоторых абстракций,
которые образуют иерархические структуры.
Онтология, или иерархия абстракций — это глобальная схема,
которая может быть положена в основу концептуального анализа структуры знаний
любой отрасли экономики или производства. Лингвистический эквивалент иерархии —
иерархия понятий, которую необходимо построить в онтологии, формируемой
аналитиком (рис 5.). Построение онтологий имеет большое значение в системах KM
для передачи накопленного корпоративного знания новичкам. Согласитесь, один
взгляд на иерархическую схему, показывающую связь между подразделениями
университета, даст его новому сотруднику больше, чем длинное и путаное
объяснение структуры организации.
Следует подчеркнуть, что работа по составлению словаря и
понятийной структуры требует от аналитика лингвистического «чутья», легкости
манипулирования терминами и богатого словарного запаса, так как зачастую он
вынужден самостоятельно разрабатывать фрагменты понятийной структуры. Чем богаче
и выразительнее получается онтология, тем адекватнее система будет отражать и
моделировать процессы, происходящие в данной организации.
Аналитик вынужден все время помнить о трудности передачи
образов и представлений в вербальной (словесной) форме. Часто аналитику
приходится подсказывать эксперту слова и выражения, и такие новые лексические
конструкции оказываются полезными.
Способность к словесной интерпретации зависит и от пола
аналитика (см. предыдущую статью в №8). Установлено, что обычно женщины придают
большую значимость невербальным компонентам общения, а в вербальных имеют более
обширный алфавит понятий и их признаков (словарный запас). Вообще говоря,
половые различия в восприятии существуют не только в бытовой сфере, что
очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у
эксперта-женщины могут быть существенно разные алфавиты для вербализации
признаков моделируемых объектов. Таким образом, иногда женщине-аналитику легче
провести лингвистическую часть работы с информацией, в то время как мужчины
лучше справляются со знаковыми системами более высокого уровня абстракции
(моделирование, программирование).
Словарь пользователя
Лингвистические результаты, соотнесенные к слоям общего кода
и понятийной структуры, направлены на создание адекватного лингвистического
базиса информационной системы. Однако часто профессиональный уровень конечного
пользователя не позволяет ему понимать и применять специальный язык предметной
области в полном объеме.
Неожиданными для начинающих разработчиков оказываются
проблемы формирования отдельного словаря для создания дружественного интерфейса
с пользователем информационной системы. Существуют специальные приемы, которые
необходимо применять для увеличения «прозрачности» и доступности системы. К ним
относится специальная адаптация пользовательского интерфейса, дополнительная
доработка словаря общего кода с поправкой на уровень квалификации и образования
пользователя, применение общепринятых пиктограмм и т.д.
Так, при разработке экспертной системы по профессиональной
ориентации и психологической диагностики личности АВТАНТЕСТ автору пришлось
разработать два словаря терминов — один для психологов-профессионалов, второй —
для неспециалистов (испытуемых). Поскольку результат психодиагностического
тестирования всегда интересен испытуемому, ему выдается листинг с
психологическим заключением на общелитературном языке, без специальных терминов.
Интересно, что при внедрении системы использовался в основном этот второй
словарь; даже профессиональные психологи предпочитали получать тексты на
обыденном языке.
К сожалению, краткое изложение лингвистических проблем при
создании информационных систем на платформе КМ не отражает всей реальной
сложности задач аналитика, которые встают перед ним при погружении в
терминологическую «пучину» проблем любого большого предприятия. В частности, мы
не затронули проблем работы с текстами документов, проблем стандартизации,
исторической смены понятий и регламентов, проблем «модных» терминов,
некорректных определений, неточных формулировок и многого другого. Хотелось бы
только подчеркнуть, что пренебрежение или недостаточное внимание к данной
проблематике — признак некомпетентности разработчиков, что в конечном счете
приводит к серьезным недостаткам проектируемых систем.
Татьяна Гаврилова - д.т.н., консультант по информационным
технологиям аудиторской экспертной компании «Балт-Аудит Эксперт»
Другие материалы по теме:
Извлечение знаний: психологический аспект. Татьяна Гаврилова
(Enterprise Partner)
Как известно, в процессе человеческого общения воспринимается далеко не вся
возможная информация. В связи с этим актуальна проблема увеличения
информативности общения аналитика и специалистов предприятия за счет
использования психологических знаний...
Извлечение знаний: "пассивные" методы. Татьяна Гаврилова (Enterprise
Partner)
Пассивные методы подразумевают, что ведущая роль в процедуре извлечения
передается эксперту, а аналитик только протоколирует рассуждения эксперта во
время его реальной работы по принятию решений или записывает то, что эксперт
считает нужным самостоятельно рассказать в форме лекции...
Управление знаниями для инвестиционных компаний
(PricewaterhouseCoopers)
Несколько небольших статей, опубликованных в журнале Perspectives 1/2000,
издаваемом компанией PricewaterhouseCoopers, дают определение понятию
"управление знаниями" и рассказывают о том как измерять знания, использовать
технологические средства, учитывать требования корпоративной культуры и
клиентов, способствовать инновациям, а так же внедрять управление знаниями на
примере компаний, занятых в сфере инвестиционного менеджмента.
|