Аннотация и ключевые слова
Аннотация (русский):
Процесс принятия решения о проведении работ по модернизации сетевой инфраструктуры инфокоммуникационных систем в настоящее время требует участия компетентного персонала, способного оценивать состояние элементов не только по техническим показателям, но и по факторам социально-экономического характера, имеющим количественную и качественную форму представления. Целью работы является усовершенствование средств обобщения экспертной информации для классификации ситуаций, связанных с эксплуатацией сетевой инфраструктуры инфокоммуникационной системы. В качестве теоретической основы предлагается заложить метод случайного леса. Рассматривается возможность применения метода группировки деревьев принятия решений для выбора наиболее целесообразного варианта в процессе формирования рекомендаций о модернизации элементов инфокоммуникационных систем. Исследуются методы снижения уровня переобучения групп деревьев; на основании результатов анализа предлагается автоматизация построения многоэлементных структур, групп деревьев принятия решения, что позволяет повысить эффективность использования данного математического аппарата для обработки разнородной информации. Установлена возможность применения многоэлементных структур, деревьев принятия решений, для задачи классификации элементов инфокоммуникационных систем и снижения негативного влияния переобучения путем организации отдельно стоящих деревьев в группы, называемые лесом принятия решений. Определены источники информации для формирования обучающих и тестовых выборок, позволяющих создавать классификаторы элементной базы для систем передачи информации. Задача, решаемая в настоящей работе, открывает возможности для снижения негативного влияния человеческого фактора, выраженного в принятии ошибочных решений в силу недостатка исходных данных и низких компетенций. Усиливаются положительные стороны обобщения экспертной информации, связанные с накоплением опыта квалифицированного персонала, за счет применения методов искусственного интеллекта, которые обрабатывают ретроспективную и текущую информацию о состоянии оборудования. Реализация системы поддержки принятия решения для формирования рекомендаций в процессе эксплуатации инфокоммуникационных систем позволяет повысить достоверность принятия решений за заданный интервал времени.

Ключевые слова:
инфокоммуникационные системы, сетевой элемент, дерево принятия решений, лес принятия решений, переобучение, ретроспективная информация
Текст
На текущем этапе развития цифровой экономики и построения цифрового общества увеличивается важность инфокоммуникационных систем (ИКС). Это требует от операторов связи постоянного контроля качества функционирования элементной базы (коммутационного и каналообразующего оборудования). В рамках проводимых исследований рассмотрено формирование рекомендаций для модернизации элементов ИКС. В качестве теоретической основы для принятия решений о проведении модернизации использован метод группировки деревьев принятия решений. В процессе эксплуатации на элементы ИКС оказывают влияние различные факторы. Форма описания факторов может иметь как количественный, так и качественный характер. Совокупность факторов отображает комплексную оценку состояния элемента ИКС с технической и социально-экономической стороны. Во время эксплуатации ИКС, как и многих социотехнических систем, одной из главных особенностей является зависимость качества ее работы от квалификации экспертных групп и руководящего персонала, принимающих решения, от которых зависит дальнейший сценарий развития системы. Подобная зависимость может оказать как положительное, так и отрицательное влияние на развитие системы: - положительное влияние заключается в применении накопленного опыта специалистами по управлению ИКС как организационной системой; - негативное влияние состоит том, что в случае недостаточной компетентности специалистов, занятых в эксплуатации элементов сетевой инфраструктуры, принимаемые ими решения могут нанести значительный ущерб техническому состоянию сети и вызвать негативные последствия для оператора как компании, ведущей деятельность в условиях взаимодействия с социально-экономической средой региона. Обобщение положительного экспертного опыта в области принятия управленческих решений в различных ситуациях является основой интеллектуальных систем, формирующих рекомендации в процессе эксплуатации организационной системы, в частности ИКС. Результатом использования подобных систем является сокращение загруженности персонала компании (оператора связи) рутинной работой. Накопление экспертного опыта в виде формальных зависимостей и баз знаний позволяет компенсировать негативное влияние ротации персонала в компании, связанное, в частности, с уходом отдельных специалистов из отрасли или сменой рабочего места. При этом, как показывает обзор работ [1, 2], в области развития систем поддержки при принятии решений вопросы повышения достоверности классификации ситуаций интеллектуальными системами при заданной скорости обработки информации требуют дальнейшего развития. С учетом работ [3-5] задачи классификации ситуаций могут быть решены с использованием методов случайного леса. Таким образом, целью работы является усовершенствование средств обобщения экспертной информации для классификации ситуаций, связанных с эксплуатацией сетевой инфраструктуры ИКС; в качестве теоретической основы предлагается заложить метод случайного леса. Обзор литературы Одним из методов, используемых для решения задачи обобщения экспертного опыта за счет классификации результатов воздействия факторов, которые оказывают влияние на систему, является использование ветвистых структур в виде деревьев принятия решений. Началом построения деревьев принятия решений является выявление и сбор факторов, влияние которых на анализируемый элемент имеет различное значение. Задача экспертов заключается в выборе факторов, имеющих явное отношение к рассматриваемой ИКС. Выделение наиболее значимых факторов из множества других, идентифицированных экспертами, производится автоматически в процессе построения дерева решений. Использование ретроспективной информации, дополняемой текущими сведениями, позволяет совершенствовать процесс классификации за счет построения деревьев, которые имеют различную структуру. Избыточность поступающих данных может привести к ухудшению прогнозирования из-за переобучения деревьев принятия решений. В результате переобучения дерево классификации преобразуется в справочную систему, т. к. в ней будет содержаться информация о большинстве возможных вариантов комбинирования значимых факторов. Подобное преобразование вызывает сложности идентификации новой ситуации. В книге М. Хараламбоса, Д. Бабенко «Алгоритмы интеллектуального Интернета» рассматриваются основные критерии построения алгоритмов классификаторов: поиск, выработка рекомендаций, создание групп, классификация и ансамбли классификаторов [6]. Приводятся примеры, написанные на языке Java, легко адаптируемые на другие объектно-ориентированные языки. Статья Д. Р. Гильманова, Е. В. Бунтовой, Л. И. Уфимцева «Принятие оптимального решения в условиях риска с помощью дерева решений» посвящена вопросам выбора критериев оптимальности в условиях риска при принятии управленческих решений при производстве на основе экономико-математического моделирования [3]. В работах В. А. Коломоец, А. Л. Тофан «Использование метода дерева решений при принятии управленческих решений» [4] и О. Ю. Прониной «Использование информационных технологий при принятии решений с помощью метода "дерево решений"» [2] большое внимание уделено проблемам принятия решений и предлагается использование метода деревьев решений для задач классификации. Публикация А. А. Мифтаховой «Применение метода дерева решений для решения задач классификации и прогнозирования» [5] затрагивает вопросы использования Data Mining как сочетания математического инструментария и новейших информационных технологий, в которых объединились строго формализованные и неформальные методы. В статьях А. А. Олейникова, А. А. Сорокина [1, 7] предлагается автоматизировать процесс принятия решений, при модернизации сетевой инфраструктуры оператора связи, на основе метода дерева принятия решений с использованием ретроспективной и вновь поступающей информации. Работы И. В. Сибикиной, И. Ю. Квятковской «Теоретические основы разработки информационных систем и ресурсов на основе модели компетенции для автоматизированных систем управления вузом» [8], T. V. Khomenko «Computer linguistic approach for computational creativity tasks» [9], I. Y. Kvyatkovskaya «Modular structure of data processing in automated systems of risk management in the fisheries industry» [10] и «Methodology of a support of making management decisions for poorly structured problems» [11] посвящены разработке автоматизированных систем поиска информации для технических решений, основанных на решении задач расчета требований с использованием ясных и лингвистических значений. В статье P. Q. Hiep «Methods and algorithms of alternatives ranging in managing the telecommunication services quality» [12] рассматриваются методы решения проблемы ранжирования альтернатив в информационно-аналитических системах управления качеством телекоммуникационных услуг. В работе Hussain Alshamrani «IP prefix hijack detection using BGP connectivity monitoring BGP» [13] разработаны методы обнаружения аномального поведения трафика при маршрутизации на основе сигнатур и статистики и произведена реализация на их основе детектора, способного отслеживать и обнаруживать аномалии динамики маршрутизации. Материалы и методы Для идентификации факторов, влияющих на качество работы ИКС, была сформирована экспертная группа. В состав группы вошли специалисты в области проектирования и эксплуатации ИКС. Эксперты предложили совокупность факторов, которые оказывают наиболее существенное влияние на состояние элементов ИКС: - - наличие свободных портов, шт.; - - задержка пакетов, с; - - уровень заполнения буферов оборудования, %; - - внутренняя температура оборудования, t, °C; - - внешняя температура оборудования на эксплуатируемом узле, t, °C; - - затраты на ввод узла в эксплуатацию, руб.; - - оценка доходов от эксплуатируемого узла, балл.; - - оценка финансовых и имущественных рисков, балл.; - - оценка морального износа элементов узла, балл.; - - оценка исправности элементов узла (плат расширения, портов, системы электропитания), балл.; - - оценка отклонения эксплуатационных параметров вспомогательных систем (питание, уровень влажности), балл.; - - оценка уровня доходов населения, балл.; - - объем передаваемого трафика, Mb; - - объем получаемого трафика, Mb; - - общий объем трафика, Mb. В перечне перечислены факторы технического и социально-экономического характера, описывающие техническое состояние элементов ИКС и состояние внешней среды, в которой они размещены. Обобщение факторов позволяет комплексно описать место размещения элемента ИКС. Первоначально массив входных переменных можно представить в виде (1) Для построения дерева решений, ориентированного на использование в определенных условиях, при помощи усилий экспертной группы проведена классификация факторов из множества X на подмножества малозначимых X1 и значимых X2. Это можно описать в виде соотношения Данные классифицируются на основе рекомендаций экспертов, определивших пять уровней состояния элементов ИКС: class 1 - низко нагруженное оборудование, нагрузка от 10 до 20 % от общей пропускной способности элемента; class 2 - средняя нагрузка, от 20 до 40 %; class 3 - высокая нагрузка, от 40 до 60 %; class 4 - очень высокая нагрузка, от 60 до 80 %; class 5 - предельная нагрузка, от 80 до 100 %. Для реализации работоспособного механизма классификации используемые деревья принятия решений подвергаются обучению. Во время работы алгоритма обучения деревом решений выявляются классы факторов, имеющих наибольшее количество примеров в обучающей выборке. Следует учитывать, что алгоритм может игнорировать классы факторов с меньшим количеством примеров. В этом случае требуется экспертная корректировка для уточнения достоверности распознавания. Ограниченность набора данных, используемого в обучающих выборках, и сложность алгоритмов работы деревьев решений приводят к их переобучению. Сущность переобучения заключается в невозможности использования тренировочной выборки для оценивания аналогичных элементов ИКС. Преодоление негативного влияния переобучения осуществляется при помощи использования леса деревьев. Лес деревьев - это множественная структура, в составе которой находится определенное количество одиночных деревьев, которое может задаваться экспертом или алгоритмически. С учетом факторов, приведенных в (1), часть структуры леса можно представить в виде, изображенном на рис. 1. Рис. 1. Лес деревьев из Tn составляющих Допустим, что имеется некоторое количество деревьев принятия решений, относящих совокупность факторов, которые описывают отношение элемента n ИКС, к определенному классу состояния k принятия решений, входящего в совокупность состояний оборудования оператора (где - множество деревьев; - множество элементов в составе ИКС, подвергающееся классификации), к определенному классу , где - множество классов, описывающих состояние оборудования оператора. Дерево d соотносит элемент n с классом k, т. к. , основываясь на работе алгоритма простого голосования, сущность которого заключается в выборе класса большинством голосов. Для каждого класса возможен подсчет количества деревьев , соотносящих элемент с конкретным классом, что можно описать соотношением вида , где - множество голосующих деревьев. Класс, набравший наибольшее количество голосов деревьев, станет ответом . Использование операции argmax накладывает условие, по которому максимальное количество деревьев устанавливается вручную, а не выбирается средствами алгоритма. Алгоритм леса принятия решений будет обладать большей достоверностью классификации при учете независимости ошибок каждого дерева, составляющего лес решений. В случае наличия ошибок в процессе проверки одинаковых примеров достоверность снизится до нуля. Переобучение классификатора можно выявить, используя ошибку обобщения, путем отслеживания изменения ее уровня в процессе обучения. В начале обучения она снижается, но с некоторого момента обучения начинает увеличиваться под воздействием переобучения. В этом случае верхняя граница ошибки обобщения леса принятия решения находится следующим образом: где - верхняя граница ошибки обобщения; q - средняя парная корреляция между ошибками, представленная деревьями леса решений, которая устанавливает зависимость между двумя признаками, первый из которых - фактор, а второй - результат, при определении q возможно использование метода наименьших квадратов; с - качество классификации деревом. Качество работы классификатора возможно выяснить методом скользящего контроля. В этом случае начальное множество примеров для построения классификатора с однозначно правильными ответами должно быть поделено на обучающую и контрольную выборки. В качестве критерия оценки достоверности классификации используется число ошибок, возникающих при работе классификатора на тестовой выборке, получаемое после первоначального обучения алгоритма. Решение задачи классификации требует введения функции ошибки , здесь b(n) - вывод алгоритма об элементе n; w(n) - класс элемента для числа классов [14]. Повысить уровень независимости ошибок обобщения деревьев, которые построены на основе общего обучающего множества и формируют лес принятия решений, можно с применением методов снижения влияния переобучения: Bagging, Boosting, ComBoost, случайных подпространств [6]. Во время использования метода Bagging [6] для обучения деревьев задействуется подмножество , которое характеризует состояние объекта. Подмножество выделяется из общего множества данных обучающей выборки. Формирование определенного набора элементов подмножества из множества A производится случайным образом. Ограничением метода, в рамках рассматриваемой области исследований, является снижение эффективности применения при повышении мощности обучающей выборки. Причина снижения эффективности - увеличение количества вариантов видов формируемых деревьев. В методе Boosting [6] производится присвоение набору данных для обучения некоторых весов , величина которых зависит от уровня сложности классифицируемых примеров. Величину весов определяет следующее условие: На начальном этапе распределение весов принимается равномерным в интервале [1, u]: Действие метода заключается в обучении первого дерева и классификации с его помощью некоторого множества тренировочных примеров. Правильно классифицированные примеры принимают сниженные веса, неправильно классифицированные - увеличенные. Дальнейшее построение леса происходит с учетом скорректированных весовых коэффициентов до заданного количества деревьев или до появления требуемой ошибки классификации. Это достигается путем применения в подмножестве KCond отношения сумм весовых коэффициентов, принадлежащих данному классу, к суммам весовых коэффициентов всех элементов подмножества KCond при расчетах уровня значимости факторов вместо части объектов класса k: Сущность метода ComBoost [6] заключается в том, что при его использовании во время окончания обучения классификатора с использованием каждого тренировочного набора данных происходит расчет отступа, уверенности композиции в классификации примера: где ni - элемент, подвергаемый классификации; al - результирующая базовых алгоритмов; wi - метка класса. В случае возникновения ошибки классификации на элементе ni отступ принимает отрицательное значение, поэтому количество ошибок композиции a(n) на обучающей выборке Xj составляет Классифицируемые элементы, имеющие значительные отступы, удаляются из выборки. Элементы с меньшей величиной отступа исключаются из выборки нового классификатора как слишком простые для классификации. Через несколько итераций происходит выбор классификатора, добавление которого позволяет максимально снизить величину ошибки общей композиции при использовании обучающей выборки. При использовании метода случайных подпространств основные алгоритмы, производящие построение деревьев решений, обучаются на не повторяющихся подмножествах примеров, выбранных случайным образом из обучающей выборки. Данный метод хорошо зарекомендовал себя при классификации большого числа элементов, которые обладают избыточным числом факторов, имеющих малую значимость. Наиболее распространенным алгоритмом машинного обучения, использующим сочетание метода Bagging и метода случайных подпространств, является метод случайного леса. Работа метода заключается в обобщении результатов классификации произведенными отдельными деревьями для получения общего, более достоверного результата. Обучающая выборка формируется случайным образом из общей совокупности данных и представляет собой совокупность кортежей, равных числу формируемых деревьев принятия решений. На основе выбранных данных происходит построение леса решений [14]: Это позволяет использовать метод случайного леса решений с ограниченными наборами данных и получать достоверные результаты классификации. Результаты исследования По причине формирования обучающей и тестовых выборок из одной области ретроспективных данных не представляется возможным обнаружение ошибок формирования обучающих выборок. Если производить классификацию сетевых элементов по x1 - наличию свободных портов, классификация только по одному из факторов может обеспечить результат, близкий к максимальному на обучающей и тестовой выборках, в результате с другими факторами классификатор работать не сможет. Для повышения достоверности классификации формирование выборок необходимо производить из нескольких независимых источников. Ретроспективная информация, получаемая, к примеру, от операторов связи, позволяет использовать данные, собранные в процессе мониторинга элементной базы для добавления в обучающие и тестовые выборки. Состояние оборудования и его эксплуатационные показатели записываются в файлы регистрации и сохраняются в базах данных на время всего жизненного цикла ИКС. В этом случае балансировка примеров, используемых для формирования выборок, будет обеспечена за счет значительных масштабов сети оператора и ограниченного количества производителей и типов оборудования. Для улучшения классификации перенастройка работы алгоритма может свестись только к изменению наименования классифицируемых элементов, т. к. в основе своей элементы сети передачи данных имеют стандарты, установленные международными соглашениями. Таким образом, недостатка данных для формирования выборок для работы алгоритма классификации не образуется. В случае если состояние сетевого элемента не изменяется во времени, а количество данных в контрольной выборке неизменно, возможно удаление факторов, не оказывающих значительного воздействия на результаты классификации, что позволит снизить количество ошибок и повысить точность классификации, однако данные, отличающиеся от тестовых, не смогут обрабатываться алгоритмом. В этом случае на вершинах деревьев образуется недостаток примеров для тренировки, из-за которого на вершинах могут оказаться признаки, неполно описывающие состояние узлового элемента и провоцирующие возникновение переобучения. Влияние переобучения можно преодолеть путем добавления в обучающее множество тренировочных примеров, схожих с примерами, находящимися в обучающем множестве, и полученных от элементов, имеющих те же характеристики. Источниками данных могут стать элементы, находящиеся в независимых условиях эксплуатации и формирующие больший объем данных, нежели классифицируемый в условиях дефицита данных для тренировочной выборки элемент. В процессе рассмотрения особенностей построения леса решений на языке высокого уровня Python 3 реализована работа алгоритма случайного леса решений. В качестве данных для обучения и прогнозирования были использованы показатели трафика, полученные от действующего оборудования сети передачи данных. В результате работы алгоритма построен случайный лес решений, прогнозирующий возможный объем трафика. Одно из деревьев, составляющих случайный лес, представлено на рис. 2, назначение переменных в узлах, расположенных ниже корневого узла, аналогично назначению переменных для корневого узла. Рис. 2. Одно из деревьев полученного леса решений При построении случайного леса решений дважды произведено вычисление средней абсолютной ошибки и точности: до и после определения наиболее значимых факторов. В результате использования наиболее важных факторов, описываемых переменными x13 и x14, уровень абсолютной ошибки классификации снизился, а точность прогнозирования увеличилась. Более подробно результаты проведенных исследований представлены в таблице. Изменение параметров леса решений в процессе использования метода Bagging Определение значимости факторов Средняя абсолютная ошибка, mb Точность, % До определения наиболее значимых факторов 874 129,51 88,02 После определения наиболее значимых факторов 772 607,77 90,53 Для прогнозирования превышения уровня порогового значения, отражающего необходимость в проведении работ по обслуживанию и модернизации сетевого элемента, произведена классификация состояния элементов ИКС по уровню входящего и исходящего трафика с учетом временного периода, ограниченного отрезком в один месяц. Таким образом, использование метода случайного леса решений позволяет снизить негативное влияние переобучения и достигнуть достоверного уровня классификации, повысив точность прогнозирования на 2,5 % посредством обработки большого числа факторов. Заключение Подводя итоги рассмотренных возможностей многоэлементных структур леса принятия решения, можно подтвердить возможность их применения для задач классификации при формировании рекомендаций о модернизации элементов ИКС. Предложенная реализация возможна за счет использования ретроспективных данных, собранных за определенный период времени оператором связи в процессе эксплуатации и масштабирования сети оператора связи. Расширение возможностей классификации элементов ИКС основывается на учете факторов социального и экономического характера, которые позволяют повысить точность результатов прогнозирования необходимости модернизации сетевого элемента в среднем на 2,5 %. Полученные результаты открывают возможности развития систем поддержки принятия решений и снижения влияния человеческого фактора в процессе эксплуатации инфокоммуникационных систем, а также других классов социотехнических систем, имеющих распределенную инфраструктуру.
Список литературы

1. Олейников А. А., Сорокин А. А. Система поддержки принятия решений в процессе модернизации элементов сетей передачи данных // Инфокоммуникационные технологии. 2018. Т. 16. № 1. С. 74-81.

2. Пронина О. Ю. Использование информационных технологий при принятии решений с помощью метода «дерево решений» // Информационные технологии и прикладная математика: всерос. межвуз. сб. аспирантских и студенч. науч. работ. Арзамас: Арзамас. филиал ННГУ, 2017. С. 167-170.

3. Гильманова Д. Р., Бунтова Е. В., Уфимцева Л. И. Принятие оптимального решения в условиях риска с помощью дерева решений // Изв. ин-та систем управления СГЭУ. 2018. № 1 (17). С. 282-285.

4. Коломоец В. А., Тофан А. Л. Использование метода «дерева решений» при принятии управленческих решений // Материалы Междунар. науч. конф. студентов и молодых ученых, посв. 80-летию ДонНУ. Донецк, 2017. C. 33-34.

5. Мифтахова А. А. Применение метода дерева решений для решения задач классификации и прогнозирования // Инфокоммуникационные технологии. 2016. Т. 14. № 1. С. 64-70.

6. Хараламбос М., Бабенко Д. Алгоритмы интеллектуального Интернета. СПб.: Символ плюс, 2011. 480 с.

7. Олейников А. А., Сорокин А. А. Формирование рекомендаций по модернизации элементов систем передачи данных на основе дерева принятия решений // Современные проблемы радиоэлектроники: сб. тр. XXI Всерос. науч.-техн. конф. (Красноярск, 03-04 мая 2018 г.). Красноярск: Изд-во СФУ, 2018. С. 434-438.

8. Сибикина И. В., Квятковская И. Ю. Теоретические основы разработки информационных систем и ресурсов на основе модели компетенции для автоматизированных систем управления вузом: моногр. Астрахань: Изд-во АГТУ, 2016. С. 100.

9. Khomenko T. V., Kvyatkovskaya I. Y., Barabanova E. A., Veselova Y. A. Computer linguistic approach for computational creativity tasks // Communications in Computer and Information Science. 2017. V. 754. P. 551-561.

10. Kvyatkovskaya I. Y., Kosmacheva I., Sibikina I., Rudenko M., Barabanova E. A. Modular structure of data processing in automated systems of risk management in the fisheries industry // Communications in Computer and Information Science. 2017. V. 754. P. 284-301.

11. Kvyatkovskaya I. Y., Shurshev V. F., Frenkel M. B. Methodology of a support of making management decisions for poorly structured problems // Communications in Computer and Information Science. 2015. V. 535. P. 278-291.

12. Hiep P. Q., Yurievna K. I., Fedorovich S. V., Alexandrovich P. G. Methods and algorithms of alternatives ranging in managing the telecommunication services quality // Journal of Information and Organizational Sciences. 2015. V. 39 (1). P. 65-74.

13. Alshamrani H., Ghita B. IP prefix hijack detection using BGP connectivity monitoring // 2016 IEEE 17th International Conference on High Performance Switching and Routing (HPSR). 2016. P. 35-41.

14. Breiman L. Random Forest // Machine Learning. 2001. V. 45 (1). P. 5-32.