Abstract and keywords
Abstract (English):
Today the process of making decision on upgrading the network infrastructure of information and communication systems requires the participation of competent staff able to evaluate the state of element both by technical parameters and by social-economic factors expressed in quantitative and qualitative way. The aim of the work is to improve the means of summarizing expert information for classifying situations related to the operation of the network infrastructure of the information and communication system. The random forest method is suggested to lay into the ground of the theoretical base. The possibility of applying the method of grouping decision trees to select the most appropriate option in the process of forming recommendations on the modernization of information and communication system elements has been considered. The methods of lowering the level of retraining groups of trees are studied; According to the analysis results, the automation of building multi-element structures and groups of decision trees is proposed, which makes it possible to increase the efficiency of using this mathematical apparatus for processing heterogeneous information. There has been found the possibility of using multi-element structures, decision trees, for classifying the elements of infocommunication systems and reducing the negative impact of retraining by organizing separate trees into groups called decision forest. The information sources for forming train and test samples are identified, which allows creating the element base classifiers for information transmission systems. The problem solved in the present work gives the possibility to reduce the negative impact of the human factor expressed in making wrong decisions due to a lack of basic data and low competencies. The positive aspects of generalization of expert information associated with the accumulation of experience of qualified personnel are enhanced by generalizing knowledge through the use of artificial intelligence methods that process retrospective and current information about the state of equipment. The implementation of a decision support system for the formation of recommendations during the operation of information and communication systems can improve the accuracy of decision making over a given time interval.

Keywords:
infocommunication systems, network element, decision tree, decision-making forest, retraining, retrospective information
Text
На текущем этапе развития цифровой экономики и построения цифрового общества увеличивается важность инфокоммуникационных систем (ИКС). Это требует от операторов связи постоянного контроля качества функционирования элементной базы (коммутационного и каналообразующего оборудования). В рамках проводимых исследований рассмотрено формирование рекомендаций для модернизации элементов ИКС. В качестве теоретической основы для принятия решений о проведении модернизации использован метод группировки деревьев принятия решений. В процессе эксплуатации на элементы ИКС оказывают влияние различные факторы. Форма описания факторов может иметь как количественный, так и качественный характер. Совокупность факторов отображает комплексную оценку состояния элемента ИКС с технической и социально-экономической стороны. Во время эксплуатации ИКС, как и многих социотехнических систем, одной из главных особенностей является зависимость качества ее работы от квалификации экспертных групп и руководящего персонала, принимающих решения, от которых зависит дальнейший сценарий развития системы. Подобная зависимость может оказать как положительное, так и отрицательное влияние на развитие системы: - положительное влияние заключается в применении накопленного опыта специалистами по управлению ИКС как организационной системой; - негативное влияние состоит том, что в случае недостаточной компетентности специалистов, занятых в эксплуатации элементов сетевой инфраструктуры, принимаемые ими решения могут нанести значительный ущерб техническому состоянию сети и вызвать негативные последствия для оператора как компании, ведущей деятельность в условиях взаимодействия с социально-экономической средой региона. Обобщение положительного экспертного опыта в области принятия управленческих решений в различных ситуациях является основой интеллектуальных систем, формирующих рекомендации в процессе эксплуатации организационной системы, в частности ИКС. Результатом использования подобных систем является сокращение загруженности персонала компании (оператора связи) рутинной работой. Накопление экспертного опыта в виде формальных зависимостей и баз знаний позволяет компенсировать негативное влияние ротации персонала в компании, связанное, в частности, с уходом отдельных специалистов из отрасли или сменой рабочего места. При этом, как показывает обзор работ [1, 2], в области развития систем поддержки при принятии решений вопросы повышения достоверности классификации ситуаций интеллектуальными системами при заданной скорости обработки информации требуют дальнейшего развития. С учетом работ [3-5] задачи классификации ситуаций могут быть решены с использованием методов случайного леса. Таким образом, целью работы является усовершенствование средств обобщения экспертной информации для классификации ситуаций, связанных с эксплуатацией сетевой инфраструктуры ИКС; в качестве теоретической основы предлагается заложить метод случайного леса. Обзор литературы Одним из методов, используемых для решения задачи обобщения экспертного опыта за счет классификации результатов воздействия факторов, которые оказывают влияние на систему, является использование ветвистых структур в виде деревьев принятия решений. Началом построения деревьев принятия решений является выявление и сбор факторов, влияние которых на анализируемый элемент имеет различное значение. Задача экспертов заключается в выборе факторов, имеющих явное отношение к рассматриваемой ИКС. Выделение наиболее значимых факторов из множества других, идентифицированных экспертами, производится автоматически в процессе построения дерева решений. Использование ретроспективной информации, дополняемой текущими сведениями, позволяет совершенствовать процесс классификации за счет построения деревьев, которые имеют различную структуру. Избыточность поступающих данных может привести к ухудшению прогнозирования из-за переобучения деревьев принятия решений. В результате переобучения дерево классификации преобразуется в справочную систему, т. к. в ней будет содержаться информация о большинстве возможных вариантов комбинирования значимых факторов. Подобное преобразование вызывает сложности идентификации новой ситуации. В книге М. Хараламбоса, Д. Бабенко «Алгоритмы интеллектуального Интернета» рассматриваются основные критерии построения алгоритмов классификаторов: поиск, выработка рекомендаций, создание групп, классификация и ансамбли классификаторов [6]. Приводятся примеры, написанные на языке Java, легко адаптируемые на другие объектно-ориентированные языки. Статья Д. Р. Гильманова, Е. В. Бунтовой, Л. И. Уфимцева «Принятие оптимального решения в условиях риска с помощью дерева решений» посвящена вопросам выбора критериев оптимальности в условиях риска при принятии управленческих решений при производстве на основе экономико-математического моделирования [3]. В работах В. А. Коломоец, А. Л. Тофан «Использование метода дерева решений при принятии управленческих решений» [4] и О. Ю. Прониной «Использование информационных технологий при принятии решений с помощью метода "дерево решений"» [2] большое внимание уделено проблемам принятия решений и предлагается использование метода деревьев решений для задач классификации. Публикация А. А. Мифтаховой «Применение метода дерева решений для решения задач классификации и прогнозирования» [5] затрагивает вопросы использования Data Mining как сочетания математического инструментария и новейших информационных технологий, в которых объединились строго формализованные и неформальные методы. В статьях А. А. Олейникова, А. А. Сорокина [1, 7] предлагается автоматизировать процесс принятия решений, при модернизации сетевой инфраструктуры оператора связи, на основе метода дерева принятия решений с использованием ретроспективной и вновь поступающей информации. Работы И. В. Сибикиной, И. Ю. Квятковской «Теоретические основы разработки информационных систем и ресурсов на основе модели компетенции для автоматизированных систем управления вузом» [8], T. V. Khomenko «Computer linguistic approach for computational creativity tasks» [9], I. Y. Kvyatkovskaya «Modular structure of data processing in automated systems of risk management in the fisheries industry» [10] и «Methodology of a support of making management decisions for poorly structured problems» [11] посвящены разработке автоматизированных систем поиска информации для технических решений, основанных на решении задач расчета требований с использованием ясных и лингвистических значений. В статье P. Q. Hiep «Methods and algorithms of alternatives ranging in managing the telecommunication services quality» [12] рассматриваются методы решения проблемы ранжирования альтернатив в информационно-аналитических системах управления качеством телекоммуникационных услуг. В работе Hussain Alshamrani «IP prefix hijack detection using BGP connectivity monitoring BGP» [13] разработаны методы обнаружения аномального поведения трафика при маршрутизации на основе сигнатур и статистики и произведена реализация на их основе детектора, способного отслеживать и обнаруживать аномалии динамики маршрутизации. Материалы и методы Для идентификации факторов, влияющих на качество работы ИКС, была сформирована экспертная группа. В состав группы вошли специалисты в области проектирования и эксплуатации ИКС. Эксперты предложили совокупность факторов, которые оказывают наиболее существенное влияние на состояние элементов ИКС: - - наличие свободных портов, шт.; - - задержка пакетов, с; - - уровень заполнения буферов оборудования, %; - - внутренняя температура оборудования, t, °C; - - внешняя температура оборудования на эксплуатируемом узле, t, °C; - - затраты на ввод узла в эксплуатацию, руб.; - - оценка доходов от эксплуатируемого узла, балл.; - - оценка финансовых и имущественных рисков, балл.; - - оценка морального износа элементов узла, балл.; - - оценка исправности элементов узла (плат расширения, портов, системы электропитания), балл.; - - оценка отклонения эксплуатационных параметров вспомогательных систем (питание, уровень влажности), балл.; - - оценка уровня доходов населения, балл.; - - объем передаваемого трафика, Mb; - - объем получаемого трафика, Mb; - - общий объем трафика, Mb. В перечне перечислены факторы технического и социально-экономического характера, описывающие техническое состояние элементов ИКС и состояние внешней среды, в которой они размещены. Обобщение факторов позволяет комплексно описать место размещения элемента ИКС. Первоначально массив входных переменных можно представить в виде (1) Для построения дерева решений, ориентированного на использование в определенных условиях, при помощи усилий экспертной группы проведена классификация факторов из множества X на подмножества малозначимых X1 и значимых X2. Это можно описать в виде соотношения Данные классифицируются на основе рекомендаций экспертов, определивших пять уровней состояния элементов ИКС: class 1 - низко нагруженное оборудование, нагрузка от 10 до 20 % от общей пропускной способности элемента; class 2 - средняя нагрузка, от 20 до 40 %; class 3 - высокая нагрузка, от 40 до 60 %; class 4 - очень высокая нагрузка, от 60 до 80 %; class 5 - предельная нагрузка, от 80 до 100 %. Для реализации работоспособного механизма классификации используемые деревья принятия решений подвергаются обучению. Во время работы алгоритма обучения деревом решений выявляются классы факторов, имеющих наибольшее количество примеров в обучающей выборке. Следует учитывать, что алгоритм может игнорировать классы факторов с меньшим количеством примеров. В этом случае требуется экспертная корректировка для уточнения достоверности распознавания. Ограниченность набора данных, используемого в обучающих выборках, и сложность алгоритмов работы деревьев решений приводят к их переобучению. Сущность переобучения заключается в невозможности использования тренировочной выборки для оценивания аналогичных элементов ИКС. Преодоление негативного влияния переобучения осуществляется при помощи использования леса деревьев. Лес деревьев - это множественная структура, в составе которой находится определенное количество одиночных деревьев, которое может задаваться экспертом или алгоритмически. С учетом факторов, приведенных в (1), часть структуры леса можно представить в виде, изображенном на рис. 1. Рис. 1. Лес деревьев из Tn составляющих Допустим, что имеется некоторое количество деревьев принятия решений, относящих совокупность факторов, которые описывают отношение элемента n ИКС, к определенному классу состояния k принятия решений, входящего в совокупность состояний оборудования оператора (где - множество деревьев; - множество элементов в составе ИКС, подвергающееся классификации), к определенному классу , где - множество классов, описывающих состояние оборудования оператора. Дерево d соотносит элемент n с классом k, т. к. , основываясь на работе алгоритма простого голосования, сущность которого заключается в выборе класса большинством голосов. Для каждого класса возможен подсчет количества деревьев , соотносящих элемент с конкретным классом, что можно описать соотношением вида , где - множество голосующих деревьев. Класс, набравший наибольшее количество голосов деревьев, станет ответом . Использование операции argmax накладывает условие, по которому максимальное количество деревьев устанавливается вручную, а не выбирается средствами алгоритма. Алгоритм леса принятия решений будет обладать большей достоверностью классификации при учете независимости ошибок каждого дерева, составляющего лес решений. В случае наличия ошибок в процессе проверки одинаковых примеров достоверность снизится до нуля. Переобучение классификатора можно выявить, используя ошибку обобщения, путем отслеживания изменения ее уровня в процессе обучения. В начале обучения она снижается, но с некоторого момента обучения начинает увеличиваться под воздействием переобучения. В этом случае верхняя граница ошибки обобщения леса принятия решения находится следующим образом: где - верхняя граница ошибки обобщения; q - средняя парная корреляция между ошибками, представленная деревьями леса решений, которая устанавливает зависимость между двумя признаками, первый из которых - фактор, а второй - результат, при определении q возможно использование метода наименьших квадратов; с - качество классификации деревом. Качество работы классификатора возможно выяснить методом скользящего контроля. В этом случае начальное множество примеров для построения классификатора с однозначно правильными ответами должно быть поделено на обучающую и контрольную выборки. В качестве критерия оценки достоверности классификации используется число ошибок, возникающих при работе классификатора на тестовой выборке, получаемое после первоначального обучения алгоритма. Решение задачи классификации требует введения функции ошибки , здесь b(n) - вывод алгоритма об элементе n; w(n) - класс элемента для числа классов [14]. Повысить уровень независимости ошибок обобщения деревьев, которые построены на основе общего обучающего множества и формируют лес принятия решений, можно с применением методов снижения влияния переобучения: Bagging, Boosting, ComBoost, случайных подпространств [6]. Во время использования метода Bagging [6] для обучения деревьев задействуется подмножество , которое характеризует состояние объекта. Подмножество выделяется из общего множества данных обучающей выборки. Формирование определенного набора элементов подмножества из множества A производится случайным образом. Ограничением метода, в рамках рассматриваемой области исследований, является снижение эффективности применения при повышении мощности обучающей выборки. Причина снижения эффективности - увеличение количества вариантов видов формируемых деревьев. В методе Boosting [6] производится присвоение набору данных для обучения некоторых весов , величина которых зависит от уровня сложности классифицируемых примеров. Величину весов определяет следующее условие: На начальном этапе распределение весов принимается равномерным в интервале [1, u]: Действие метода заключается в обучении первого дерева и классификации с его помощью некоторого множества тренировочных примеров. Правильно классифицированные примеры принимают сниженные веса, неправильно классифицированные - увеличенные. Дальнейшее построение леса происходит с учетом скорректированных весовых коэффициентов до заданного количества деревьев или до появления требуемой ошибки классификации. Это достигается путем применения в подмножестве KCond отношения сумм весовых коэффициентов, принадлежащих данному классу, к суммам весовых коэффициентов всех элементов подмножества KCond при расчетах уровня значимости факторов вместо части объектов класса k: Сущность метода ComBoost [6] заключается в том, что при его использовании во время окончания обучения классификатора с использованием каждого тренировочного набора данных происходит расчет отступа, уверенности композиции в классификации примера: где ni - элемент, подвергаемый классификации; al - результирующая базовых алгоритмов; wi - метка класса. В случае возникновения ошибки классификации на элементе ni отступ принимает отрицательное значение, поэтому количество ошибок композиции a(n) на обучающей выборке Xj составляет Классифицируемые элементы, имеющие значительные отступы, удаляются из выборки. Элементы с меньшей величиной отступа исключаются из выборки нового классификатора как слишком простые для классификации. Через несколько итераций происходит выбор классификатора, добавление которого позволяет максимально снизить величину ошибки общей композиции при использовании обучающей выборки. При использовании метода случайных подпространств основные алгоритмы, производящие построение деревьев решений, обучаются на не повторяющихся подмножествах примеров, выбранных случайным образом из обучающей выборки. Данный метод хорошо зарекомендовал себя при классификации большого числа элементов, которые обладают избыточным числом факторов, имеющих малую значимость. Наиболее распространенным алгоритмом машинного обучения, использующим сочетание метода Bagging и метода случайных подпространств, является метод случайного леса. Работа метода заключается в обобщении результатов классификации произведенными отдельными деревьями для получения общего, более достоверного результата. Обучающая выборка формируется случайным образом из общей совокупности данных и представляет собой совокупность кортежей, равных числу формируемых деревьев принятия решений. На основе выбранных данных происходит построение леса решений [14]: Это позволяет использовать метод случайного леса решений с ограниченными наборами данных и получать достоверные результаты классификации. Результаты исследования По причине формирования обучающей и тестовых выборок из одной области ретроспективных данных не представляется возможным обнаружение ошибок формирования обучающих выборок. Если производить классификацию сетевых элементов по x1 - наличию свободных портов, классификация только по одному из факторов может обеспечить результат, близкий к максимальному на обучающей и тестовой выборках, в результате с другими факторами классификатор работать не сможет. Для повышения достоверности классификации формирование выборок необходимо производить из нескольких независимых источников. Ретроспективная информация, получаемая, к примеру, от операторов связи, позволяет использовать данные, собранные в процессе мониторинга элементной базы для добавления в обучающие и тестовые выборки. Состояние оборудования и его эксплуатационные показатели записываются в файлы регистрации и сохраняются в базах данных на время всего жизненного цикла ИКС. В этом случае балансировка примеров, используемых для формирования выборок, будет обеспечена за счет значительных масштабов сети оператора и ограниченного количества производителей и типов оборудования. Для улучшения классификации перенастройка работы алгоритма может свестись только к изменению наименования классифицируемых элементов, т. к. в основе своей элементы сети передачи данных имеют стандарты, установленные международными соглашениями. Таким образом, недостатка данных для формирования выборок для работы алгоритма классификации не образуется. В случае если состояние сетевого элемента не изменяется во времени, а количество данных в контрольной выборке неизменно, возможно удаление факторов, не оказывающих значительного воздействия на результаты классификации, что позволит снизить количество ошибок и повысить точность классификации, однако данные, отличающиеся от тестовых, не смогут обрабатываться алгоритмом. В этом случае на вершинах деревьев образуется недостаток примеров для тренировки, из-за которого на вершинах могут оказаться признаки, неполно описывающие состояние узлового элемента и провоцирующие возникновение переобучения. Влияние переобучения можно преодолеть путем добавления в обучающее множество тренировочных примеров, схожих с примерами, находящимися в обучающем множестве, и полученных от элементов, имеющих те же характеристики. Источниками данных могут стать элементы, находящиеся в независимых условиях эксплуатации и формирующие больший объем данных, нежели классифицируемый в условиях дефицита данных для тренировочной выборки элемент. В процессе рассмотрения особенностей построения леса решений на языке высокого уровня Python 3 реализована работа алгоритма случайного леса решений. В качестве данных для обучения и прогнозирования были использованы показатели трафика, полученные от действующего оборудования сети передачи данных. В результате работы алгоритма построен случайный лес решений, прогнозирующий возможный объем трафика. Одно из деревьев, составляющих случайный лес, представлено на рис. 2, назначение переменных в узлах, расположенных ниже корневого узла, аналогично назначению переменных для корневого узла. Рис. 2. Одно из деревьев полученного леса решений При построении случайного леса решений дважды произведено вычисление средней абсолютной ошибки и точности: до и после определения наиболее значимых факторов. В результате использования наиболее важных факторов, описываемых переменными x13 и x14, уровень абсолютной ошибки классификации снизился, а точность прогнозирования увеличилась. Более подробно результаты проведенных исследований представлены в таблице. Изменение параметров леса решений в процессе использования метода Bagging Определение значимости факторов Средняя абсолютная ошибка, mb Точность, % До определения наиболее значимых факторов 874 129,51 88,02 После определения наиболее значимых факторов 772 607,77 90,53 Для прогнозирования превышения уровня порогового значения, отражающего необходимость в проведении работ по обслуживанию и модернизации сетевого элемента, произведена классификация состояния элементов ИКС по уровню входящего и исходящего трафика с учетом временного периода, ограниченного отрезком в один месяц. Таким образом, использование метода случайного леса решений позволяет снизить негативное влияние переобучения и достигнуть достоверного уровня классификации, повысив точность прогнозирования на 2,5 % посредством обработки большого числа факторов. Заключение Подводя итоги рассмотренных возможностей многоэлементных структур леса принятия решения, можно подтвердить возможность их применения для задач классификации при формировании рекомендаций о модернизации элементов ИКС. Предложенная реализация возможна за счет использования ретроспективных данных, собранных за определенный период времени оператором связи в процессе эксплуатации и масштабирования сети оператора связи. Расширение возможностей классификации элементов ИКС основывается на учете факторов социального и экономического характера, которые позволяют повысить точность результатов прогнозирования необходимости модернизации сетевого элемента в среднем на 2,5 %. Полученные результаты открывают возможности развития систем поддержки принятия решений и снижения влияния человеческого фактора в процессе эксплуатации инфокоммуникационных систем, а также других классов социотехнических систем, имеющих распределенную инфраструктуру.
References

1. Oleynikov A. A., Sorokin A. A. Sistema podderzhki prinyatiya resheniy v processe modernizacii elementov setey peredachi dannyh // Infokommunikacionnye tehnologii. 2018. T. 16. № 1. S. 74-81.

2. Pronina O. Yu. Ispol'zovanie informacionnyh tehnologiy pri prinyatii resheniy s pomosch'yu metoda «derevo resheniy» // Informacionnye tehnologii i prikladnaya matematika: vseros. mezhvuz. sb. aspirantskih i studench. nauch. rabot. Arzamas: Arzamas. filial NNGU, 2017. S. 167-170.

3. Gil'manova D. R., Buntova E. V., Ufimceva L. I. Prinyatie optimal'nogo resheniya v usloviyah riska s pomosch'yu dereva resheniy // Izv. in-ta sistem upravleniya SGEU. 2018. № 1 (17). S. 282-285.

4. Kolomoec V. A., Tofan A. L. Ispol'zovanie metoda «dereva resheniy» pri prinyatii upravlencheskih resheniy // Materialy Mezhdunar. nauch. konf. studentov i molodyh uchenyh, posv. 80-letiyu DonNU. Doneck, 2017. C. 33-34.

5. Miftahova A. A. Primenenie metoda dereva resheniy dlya resheniya zadach klassifikacii i prognozirovaniya // Infokommunikacionnye tehnologii. 2016. T. 14. № 1. S. 64-70.

6. Haralambos M., Babenko D. Algoritmy intellektual'nogo Interneta. SPb.: Simvol plyus, 2011. 480 s.

7. Oleynikov A. A., Sorokin A. A. Formirovanie rekomendaciy po modernizacii elementov sistem peredachi dannyh na osnove dereva prinyatiya resheniy // Sovremennye problemy radioelektroniki: sb. tr. XXI Vseros. nauch.-tehn. konf. (Krasnoyarsk, 03-04 maya 2018 g.). Krasnoyarsk: Izd-vo SFU, 2018. S. 434-438.

8. Sibikina I. V., Kvyatkovskaya I. Yu. Teoreticheskie osnovy razrabotki informacionnyh sistem i resursov na osnove modeli kompetencii dlya avtomatizirovannyh sistem upravleniya vuzom: monogr. Astrahan': Izd-vo AGTU, 2016. S. 100.

9. Khomenko T. V., Kvyatkovskaya I. Y., Barabanova E. A., Veselova Y. A. Computer linguistic approach for computational creativity tasks // Communications in Computer and Information Science. 2017. V. 754. P. 551-561.

10. Kvyatkovskaya I. Y., Kosmacheva I., Sibikina I., Rudenko M., Barabanova E. A. Modular structure of data processing in automated systems of risk management in the fisheries industry // Communications in Computer and Information Science. 2017. V. 754. P. 284-301.

11. Kvyatkovskaya I. Y., Shurshev V. F., Frenkel M. B. Methodology of a support of making management decisions for poorly structured problems // Communications in Computer and Information Science. 2015. V. 535. P. 278-291.

12. Hiep P. Q., Yurievna K. I., Fedorovich S. V., Alexandrovich P. G. Methods and algorithms of alternatives ranging in managing the telecommunication services quality // Journal of Information and Organizational Sciences. 2015. V. 39 (1). P. 65-74.

13. Alshamrani H., Ghita B. IP prefix hijack detection using BGP connectivity monitoring // 2016 IEEE 17th International Conference on High Performance Switching and Routing (HPSR). 2016. P. 35-41.

14. Breiman L. Random Forest // Machine Learning. 2001. V. 45 (1). P. 5-32.


Login or Create
* Forgot password?