Извлечение знаний: лингвистический аспект
Татьяна Гаврилова
В предыдущей статье цикла (см. Т. Гаврилова «Извлечение знаний: психологический аспект» Enterprise Partner №8 (25)’2001) мы начали рассматривать проблемы, возникающие на до-машинном этапе разработки корпоративных информационных систем. При этом акцент делался на «белом пятне» современных информационных технологий — инженерии данных и знаний. Инженерия знаний — сердцевина достаточно молодой технологии «управления знаниями», или knowledge management (KM), в русле которой данная статья рассматривает работу аналитика с заказчиком. Традиционно в системах KM знания трактуются как информационный ресурс, базирующийся на практическом опыте специалистов и на данных, накопленных и используемых на конкретном предприятии.
Поскольку основная проблема инженерии знаний — процесс извлечения знаний, разработчикам систем KM и в первую очередь аналитикам необходимо четко понимать природу и особенности этого процесса. Мы выделили три основных аспекта процесса извлечения знаний: A = {A1, А2, А3} = {психологический, лингвистический, гносеологический}.
Три слоя лингвистических проблем
Лингвистический (А2) аспект касается исследований языковых проблем, поскольку язык — основное средство общения в процессе извлечения знаний. Аналитик, приступивший к процессу приобретения информации, сталкивается с тремя слоями лингвистических проблем:
- S1 — формирование «общего кода»;
- S2 — построение понятийной структуры;
- S3 — создание словаря пользователя.
Общий код
Первоначально аналитик, даже если он предварительно знакомился с проблематикой моделируемой предметной области и спецификой предприятия, сталкивается в беседах с заказчиком с массой новых, зачастую малопонятных терминов. Эта проблема решается путем формирования «общего кода» как средства общения. Общий код S1 устраняет проблему языковых ножниц между профессиональной терминологией специалистов предприятия-заказчика и обыденной литературной речью аналитика. Он включает следующие компоненты:
S1 = {общенаучная терминология; специальные понятия из проблематики работы предприятия; элементы бытового языка; неологизмы, сформированные за время совместной работы; профессиональный жаргон и др.}.
Детализация схемы общения позволяет представить средства общения как два потока, в которых нас интересуют компоненты V1 и V2 — языки, на которых говорят аналитик и эксперт (V1', V2' — невербальные компоненты). Различия языков V1 и V2 и обусловливают «языковой барьер», или «языковые ножницы», в общении аналитика и специалистов-экспертов.
Эти два языка отражают «внутреннюю речь» специалиста и аналитика, поскольку большинство психологов и лингвистов считают, что язык — это основное средство мышления наряду с другими знаковыми системами «внутреннего пользования». При этом на внутреннюю речь влияет весь прошлый профессиональный опыт специалиста.
Язык аналитика V1 состоит из трех компонентов:
V1 состоит из трех компонентов:
- s1_1 — общенаучная терминология из его «теоретического багажа»;
- s1_2 — термины предметной области, которые он почерпнул из специальной литературы в период подготовки;
- s1_3 — бытовой разговорный язык, которым пользуется аналитик.
Язык эксперта V2 включает такие компоненты:
V2 включает такие компоненты:
- s1_1 — общенаучная терминология;
- s1_2 — специальная терминология, принятая в данной отрасли;
- s1_3 — бытовой язык;
- s1_4 — неологизмы, созданные экспертом за время работы (его профессиональный жаргон).
Если считать, что бытовой и общенаучный язык у двух участников общения примерно совпадает (хотя реально объем последнего у эксперта существенно больше), то некоторый общий язык, или код, который необходимо выработать партнерам для успешного взаимодействия, будет складываться из общих потоков s1_1 и s1_3, потока s1_4 эксперта и потока s1_2 аналитика.
В дальнейшем этот общий код подвергается переосмыслению и структурированию, а затем аналитик на его основе формирует некоторую понятийную структуру, или сеть понятий.
Выработка общего кода начинается с выписывания аналитиком всех терминов, употребляемых экспертом, и уточнения их смысла — фактически это составление словаря предметной области. Затем следует группирование терминов и выбор синонимов. Разработка общего кода заканчивается составлением словаря терминов предметной области с предварительной группировкой их по смыслу, то есть по понятийной близости (это уже первый шаг структурирования знаний).
На этом этапе аналитик должен с большим вниманием отнестись ко всем специальным терминам, пытаясь максимально вникнуть в суть решаемых проблем, бизнес-процессов и технологий. Освоение аналитиком языка и терминологии предметной области — первый рубеж на подступах к созданию адекватной корпоративной информационной системы.
Интерпретация терминов двумя специалистами весьма неоднозначна. В семиотике, науке о знаковых системах, проблема интерпретации — одна из центральных. Интерпретация связывает между собой «знак» и «означаемый предмет». Только в интерпретации знак получает смысл. Так, слова «прибор X» для специалиста-эксперта означают некий абстрактный образ схемы, которая соответствует некоторому конкретному измерительному инструменту, а в голове начинающего аналитика слова «прибор X» вызывают пустой образ или некий черный ящик с ручками.
Внимание к лингвистическому аспекту проблемы извлечения знаний способствует сближению образа 1 с образом 2 и интерпретации I1 с интерпретацией I2, а слова «прибор X» переходят в действительно общий код.
Таким образом, лингвистический слой S1 включает изучение и управление процессом разработки специального промежуточного языка, необходимого для взаимодействия аналитика и специалиста предприятия заказчика.
Понятийная структура
Проблемы формирования понятийной структуры представляют следующий слой S2 лингвистического аспекта проблемы извлечения знаний. Эта проблема тесно связана с разделом психологии, который изучает процессы усвоения информации человеком и законы их обработки, — психологией познания, или когнитивной психологией. Один из ее постулатов — наличие установленной взаимосвязи понятий в памяти человека. Иными словами, в памяти любой объект существует не изолированно, а в связи с другими близкими по смыслу или ассоциации объектами и понятиями.
Особенности формирования понятийной структуры у специалистов обусловлены наличием в сознании так называемых семантических, или ассоциативных сетей, объединяющих отдельные термины во фрагменты, фрагменты в сценарии и т. д. В отличие от разрозненного хаоса понятий у новичков и дилетантов, у опытных специалистов эти сети упорядочены, в них можно обнаружить иерархические структуры, или «деревья», либо «пирамиды» понятий. При разработке баз знаний формирование так называемой пирамиды знаний — важнейшее звено этапа проектирования интеллектуальных систем.
Таким образом, при создании корпоративной информационной системы нужны не просто наборы понятий или словари, а «энциклопедии», в которой все термины объясняются со ссылками на другие термины.
Итак, лингвистическая работа аналитика в данном слое проблем заключается в построении таких связанных фрагментов с помощью «сшивания» терминов. Фактически это подготовка к этапу структурирования, где такое «шитье» приобретает некоторый законченный вид.
При тщательной работе аналитика и специалистов в понятийных структурах начинает просматриваться иерархия понятий. Такие структуры играют важную роль как системообразующий скелет понятий предметной области. В последнее время для таких структур используется специальный термин — онтологии. Следует заметить, что эта иерархическая организация хорошо согласуется с теоретическими основаниями когнитивной психологии, согласно которой при мышлении используются не языковые конструкции как таковые, а их коды в форме некоторых абстракций, которые образуют иерархические структуры.
Онтология, или иерархия абстракций — это глобальная схема, которая может быть положена в основу концептуального анализа структуры знаний любой отрасли экономики или производства. Лингвистический эквивалент иерархии — иерархия понятий, которую необходимо построить в онтологии, формируемой аналитиком (рис 5.). Построение онтологий имеет большое значение в системах KM для передачи накопленного корпоративного знания новичкам. Согласитесь, один взгляд на иерархическую схему, показывающую связь между подразделениями университета, даст его новому сотруднику больше, чем длинное и путаное объяснение структуры организации.
Следует подчеркнуть, что работа по составлению словаря и понятийной структуры требует от аналитика лингвистического «чутья», легкости манипулирования терминами и богатого словарного запаса, так как зачастую он вынужден самостоятельно разрабатывать фрагменты понятийной структуры. Чем богаче и выразительнее получается онтология, тем адекватнее система будет отражать и моделировать процессы, происходящие в данной организации.
Аналитик вынужден все время помнить о трудности передачи образов и представлений в вербальной (словесной) форме. Часто аналитику приходится подсказывать эксперту слова и выражения, и такие новые лексические конструкции оказываются полезными.
Способность к словесной интерпретации зависит и от пола аналитика (см. предыдущую статью в №8). Установлено, что обычно женщины придают большую значимость невербальным компонентам общения, а в вербальных имеют более обширный алфавит понятий и их признаков (словарный запас). Вообще говоря, половые различия в восприятии существуют не только в бытовой сфере, что очевидно, но и в профессиональной. Следовательно, у эксперта-мужчины и у эксперта-женщины могут быть существенно разные алфавиты для вербализации признаков моделируемых объектов. Таким образом, иногда женщине-аналитику легче провести лингвистическую часть работы с информацией, в то время как мужчины лучше справляются со знаковыми системами более высокого уровня абстракции (моделирование, программирование).
Словарь пользователя
Лингвистические результаты, соотнесенные к слоям общего кода и понятийной структуры, направлены на создание адекватного лингвистического базиса информационной системы. Однако часто профессиональный уровень конечного пользователя не позволяет ему понимать и применять специальный язык предметной области в полном объеме.
Неожиданными для начинающих разработчиков оказываются проблемы формирования отдельного словаря для создания дружественного интерфейса с пользователем информационной системы. Существуют специальные приемы, которые необходимо применять для увеличения «прозрачности» и доступности системы. К ним относится специальная адаптация пользовательского интерфейса, дополнительная доработка словаря общего кода с поправкой на уровень квалификации и образования пользователя, применение общепринятых пиктограмм и т.д.
Так, при разработке экспертной системы по профессиональной ориентации и психологической диагностики личности АВТАНТЕСТ автору пришлось разработать два словаря терминов — один для психологов-профессионалов, второй — для неспециалистов (испытуемых). Поскольку результат психодиагностического тестирования всегда интересен испытуемому, ему выдается листинг с психологическим заключением на общелитературном языке, без специальных терминов. Интересно, что при внедрении системы использовался в основном этот второй словарь; даже профессиональные психологи предпочитали получать тексты на обыденном языке.
К сожалению, краткое изложение лингвистических проблем при создании информационных систем на платформе КМ не отражает всей реальной сложности задач аналитика, которые встают перед ним при погружении в терминологическую «пучину» проблем любого большого предприятия. В частности, мы не затронули проблем работы с текстами документов, проблем стандартизации, исторической смены понятий и регламентов, проблем «модных» терминов, некорректных определений, неточных формулировок и многого другого. Хотелось бы только подчеркнуть, что пренебрежение или недостаточное внимание к данной проблематике — признак некомпетентности разработчиков, что в конечном счете приводит к серьезным недостаткам проектируемых систем.
Другие материалы по теме
-
Извлечение знаний: психологический аспект. Татьяна Гаврилова (Enterprise Partner)
Как известно, в процессе человеческого общения воспринимается далеко не вся возможная информация. В связи с этим актуальна проблема увеличения информативности общения аналитика и специалистов предприятия за счет использования психологических знаний...
-
Извлечение знаний: "пассивные" методы. Татьяна Гаврилова (Enterprise Partner)
Пассивные методы подразумевают, что ведущая роль в процедуре извлечения передается эксперту, а аналитик только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме лекции...
-
Управление знаниями для инвестиционных компаний (PricewaterhouseCoopers)
Несколько небольших статей, опубликованных в журнале Perspectives 1/2000, издаваемом компанией PricewaterhouseCoopers, дают определение понятию "управление знаниями" и рассказывают о том как измерять знания, использовать технологические средства, учитывать требования корпоративной культуры и клиентов, способствовать инновациям, а так же внедрять управление знаниями на примере компаний, занятых в сфере инвестиционного менеджмента.
|
|
|
|
|
|