Введение В последнее время в судовождении получают достаточно широкое распространение так называемые экспертные системы, которые позволяют судовому специалисту непосредственно на рабочем месте оценивать результат, получаемый от принятого решения. Такие системы объединяют в себе вычислительный комплекс, снабженный соответствующим проблемно-ориентированным математическим обеспечением, и человека-оператора, использующего этот комплекс для поиска рациональных (оптимальных) решений. Традиционно принято считать, что режим диалога представляет собой анализ ситуаций, соответствующих различным решениям, и на основе этого анализа оператор останавливается на том или ином решении, которое, с его точки зрения, отвечает заданным целям. Естественно, такой подход предполагает, что оператор обладает необходимым временным ресурсом и способен проанализировать достаточно широкий спектр решений, чтобы не упустить из виду наиболее приемлемый вариант. Достаточно часто сделать это оператору не удается, т. к. число возможных вариантов решения оказывается настолько велико, что ему просто не хватает временного ресурса для их анализа [1]. Основной причиной этой ситуации является недостаточность математического обеспечения данной системы. Как правило, такие системы содержат математическое обеспечение, позволяющее воспроизводить ситуацию, соответствующую принятому решению, однако не содержат математического обеспечения самого процесса принятия решения, т. е. не подсказывают оператору, как он должен изменить решение, чтобы его улучшить. Если бы было возможно формализовать систему предпочтений при выборе рационального решения, проблема выбора решалась бы значительно проще. Однако диалоговые системы потому и существуют, что подобная формализация не всегда удается и приходится привлекать человека в качестве неформального носителя этой системы предпочтений [2]. Человек на основе опыта и интуиции может сравнивать различные ситуации и выбирать из них лучшую, однако трудно себе представить, чтобы человек обладал таким опытом и прозорливостью, которые позволяли бы ему всегда знать, как нужно изменить данное решение, чтобы получить лучшее в соответствии с его системой предпочтений. В этом ему может помочь математическая теория принятия решений, необходимые элементы которой должны входить в общее математическое обеспечение диалоговых систем. Рассмотрим один из возможных вариантов такого использования принципов теории исследования операций для обеспечения процедуры принятия решения в диалоговых системах [3]. Модель механизма поиска экстремума целевой функции с гарантированным результатом в диалоговой системе Пусть определено множество возможных и допустимых вариантов решения, которое обозначим X. Предположим, что для любого фиксированного управления диалоговая система (рис. 1) дает возможность лицу, принимающему решение (ЛПР), получать определенную информацию о последствиях принятого решения. Рис. 1. Схема диалоговой системы Форма, в которой эта информация от системы отображения поступает к ЛПР, может быть весьма разнообразной в зависимости от качества и полноты математического обеспечения диалоговой системы и того сервиса, которым она снабжена. Это может быть некоторый список значений тех или иных характеристик изучаемой операции или набор графических изображений. Если отвлечься от конкретных ситуаций, то можно считать, что каждому фиксированному значению х диалоговая система представляет некоторую ситуацию S(x), которая и поступает для анализа к оператору ЛПР. Пусть ЛПР [4] в процессе принятия решения сравнивает две ситуации , отвечающие двум различным управлениям и выбирает из них лучшую. Если система предпочтений, на основе которой ЛПР осуществляет свой выбор, транзитивна, это означает, что данной системе предпочтений соответствует некоторый скалярный критерий эффективности , хотя его формальное выражение может быть и неизвестно. Предположим далее, что существует следующая схема поиска оптимального решения для критерия вида F(x) на множестве альтернатив , где - евклидово пространство размерности N. Выберем некоторое опорное решение . Это решение ЛПР должен выбрать на основе своего личного опыта, накопленного в аналогичных ситуациях в его предшествующей деятельности (рис. 2). Рис. 2. Отображение данных в диалоговой системе Если бы формальное выражение критерия эффективности было известно, то проблема локального улучшения опорного решения решалась бы просто. Для этого было бы необходимо вычислить в точке х0 градиент функции F(x) и сделать в пространстве EN шаг в направлении этого вектора (для простоты можно предположить, что х0 является внутренней точкой множества X). Если в точке х0 величина и шаг ρ достаточно мал, то вновь полученное решение предпочтительнее х0 в силу критерия F(x). В большинстве случаев функция F(x) неизвестна, и все, что о ней можно знать, это лишь то, что она объективно существует в сознании ЛПР и позволяет ему делать выбор из некоторого конечного множества альтернатив, представленного множеством ситуаций S. Таким образом, направление градиента функции F в точке х0 точно неизвестно, поэтому неясно, в каком направлении необходимо сделать шаг, чтобы увеличить значение критерия F. Однако нельзя сказать, что вообще ничего не известно о направлении вектора grad F. Определенную информацию о множестве его значений мы можем получить, используя вышеупомянутую способность ЛПР упорядочивать варианты решений по их эффективности. Для этого можно поступить следующим образом. Рассмотрим наряду с опорным решением систему вспомогательных решений расположенных в достаточно малой окрестности опорного решения х0. Предположим, что ЛПР упорядочил эти N новых решений вместе с опорным по эффективности. Это породит систему неравенств такого типа: Выбор конкретного знака (неравенства или равенства) в правой части выражений зависит от того, как ЛПР конкретно упорядочит данные решения по эффективности. Если выбранная окрестность опорного решения достаточно мала, то компоненты вектора grad F можно представить через отношения конечных разностей: . Тогда система неравенств даст в опорной точке х0 систему ограничений на компоненты gk вектора : Таким образом, система предпочтений ЛПР порождает в опорной точке х0 некоторый многогранный конус К, которому принадлежит градиент функции F. Выберем теперь в точке х0 некоторое направление, определяемое единичным вектором . Сделаем в этом направлении шаг с метрикой (длиной) ρ. Если функцию F(х) считать непрерывно дифференцируемой в точке х0, то приращение в этой точке можно найти так: или, пренебрегая функциями более высокого порядка, чем ρ, следующим образом: , где . Задача заключается в том, чтобы найти такое направление h, на котором приращение ΔF достигало бы наибольшего возможного значения. Если бы был известен вектор g, то искомое направление h совпадало бы с направлением этого вектора при х0 Î X. Однако вектор g неизвестен, а известно лишь множество значений, которые он может принимать. Следовательно, g является неопределенным фактором, и приходится сталкиваться с ситуацией, когда необходимо принять правильное решение в условиях неопределенности. Очевидно, что и в этом случае разумно воспользоваться принципом гарантированного результата. В соответствии с этим принципом оценка эффективности выбранного направления h будет определяться величиной , где постоянный положительный множитель ρ опущен как несущественный, а - скалярное произведение векторов h и g, обозначенное через (h, g). Оптимальным гарантирующим направлением будет, очевидно, такое направление h0, на котором реализуется максимум оценки эффективности: где h ограничено лишь одним условием |h| = 1. Алгоритм решения этой задачи, включенный в математическое обеспечение экспертной системы, может выглядеть следующим образом: - шаг первый - ЛПР сообщает экспертной системе опорное решение x0; - шаг второй - экспертная система отображает последовательность вспомогательных решений и воспроизводит множество ситуаций , соответствующих совокупности опорного и вспомогательных решений; - шаг третий - ЛПР анализирует полученное множество ситуаций, упорядочивает их в соответствии со своей системой предпочтений и вводит их в экспертную систему; - шаг четвертый - программный продукт решает минимаксную задачу, строит улучшенное решение x1= x0 + ρh0 и новую систему вспомогательных решений а также воспроизводит соответствующие им ситуации ; - шаг пятый - ЛПР анализирует новую совокупность ситуаций, упорядочивает их и т. д. Процедура анализа и упорядоченности будет продолжаться до тех пор, пока ЛПР не прекратит диалог, причем это может произойти по разным причинам. Так, одной из этих причин может оказаться, что полученные решения полностью удовлетворят ЛПР, или на некотором шаге все решения становятся неразличимыми в системе предпочтений ЛПР. Фактически такая причина соответствует тому, что процедура привела в точку экстремума целевой функции F(t). Право прекращать диалог полностью принадлежит ЛПР, но никакая диалоговая система не гарантирует ЛПР однозначно оптимального решения задачи. Пульт по управлению диалогом в экспертной системе по выбору ЛПР оптимального решения представлен на рис. 3. В общем случае выбор оптимального решения зависит не только от качества программного продукта экспертной системы и ее технических возможностей, но также от квалификации, информированности, опыта, психофизических способностей ЛПР [5, 6]. Рис. 3. Иллюстрация данных при остановке диалога и выборе решений на управление энергетической установкой судна Процессы адаптации ЛПР в диалоговой системе При использовании адаптивного подхода человеко-машинная процедура решения задачи векторной оптимизации представляет собой последовательное уточнение наиболее предпочтительного, по мнению ЛПР, решения x** путем перехода от одного альтернативного решения, , к последующему альтернативному решению, , с учетом информации It, получаемой от ЛПР. Формально процесс выбора решения x**, в рамках выше составленной процедуры, можно представить как последовательность фазовых переходов: (1) где В процессе выбора решения x** происходят параллельно два вида адаптации: во-первых, адаптация программного продукта экспертной системы к системе предпочтений ЛПР, во-вторых, адаптация ЛПР к решаемой задаче. Адаптация первого вида связана с учетом информации, получаемой от ЛПР [4]. Этот процесс обеспечивает оптимизацию критерия, вид которого детерминируется информацией, представляемой ЛПР программному обеспечению экспертной системы (см. рис. 1). Человеко-машинные процедуры многокритериальной оптимизации можно подразделить на две группы: одношаговые и многошаговые. В одношаговых процедурах ЛПР необходимую информацию для осуществления перехода может представить в одном сеансе диалога, в многошаговых процедурах - в нескольких сеансах (при этом вопросы программному продукту каждый раз иные). В простейшем (одношаговом) случае информация Ii, полученная на i-м шаге, позволяет сделать очередной шаг процесса (1): , т. е. определить решение , которое в смысле некоторого установленного показателя φi(Х) наиболее удовлетворяет требованиям ЛПР, представленным в информации Ii. Алгоритм L осуществляет формализацию и решение следующей задачи оптимизации: . (2) Функционал φi(Х) и область D допустимых изменений X на i-й итерации образуются на основе информации Ii: , и алгоритмы fφ и fD задаются применяемым методом многокритериальной оптимизации. Заметим, что функционал φi(Х) может быть векторным, но таким, что задача (2) всегда проще исходной задачи (1). Поэтому в некоторых человеко-машинных процедурах (многошаговых) и задача (2) решается с участием ЛПР. Адаптация ЛПР к задаче происходит в результате многократной реализации процесса преобразования , (3) в результате которого ЛПР осмысливает соотношение между своими потребностями и возможностями их удовлетворения. Трудность здесь заключается в том, что ЛПР, как правило, не осознает компромисса между своими потребностями - они у него изначально экстремальные, что и выражается в многокритериальности исходной задачи. Компромисс, необходимый для решения этой задачи, образуется в результате «проб и ошибок» ЛПР в его попытках улучшить решение на каждом шаге (3). Осознание компромисса и его формы образуется в процессе диалога и представляет собой адаптацию ЛПР к задаче. Заключение Следует отметить важность и необходимость ошибок ЛПР в этом процессе. Только в результате ошибок, ухудшающих решение, ЛПР в состоянии осознать нужный ему компромисс. Именно поэтому непрост смысл предпочтительности последующего решения в ряду (1). Это не только приближение к цели - компромиссу, но и удаление от этой цели, что несет большую информацию, формирующую дальнейшие шаги ЛПР. Процесс (1) имеет явно немарковский характер, и в процессе адаптации поведению ЛПР свойственна ярко выраженная дуальность, при которой такое поведение ЛПР двойственно: одни его шаги позволяют приблизить решение x*i к желаемому, а другие - получить информацию о динамике текущей ситуации. Поэтому можно сделать следующий важный практический вывод: интерактивная система решения должна предоставлять ЛПР возможность возвращаться к предыдущим состояниям объекта, для чего необходимо протоколировать весь диалог в целом.