graduate student
Astrakhan State Technical University
graduate student
Astrakhan, Russian Federation
The article touches upon the forecasting problem, the solution of which in systems characterized by selecting a traditional algorithm for its description is reduced to machine learning technology. In the context of predicting emergencies in heat supply systems this technology is the most effective. Carrying out the forecast is reduced to the problem of restoring the function in the general content of training by the teacher. Of the available machine learning tools, gradient boosting should be used. It works according to the following principle: at the first iterations the weak algorithms are used, then there increases the ensemble by gradual improvements of those data sections where the previous models have not been finalized. But when constructing the next simple model, it is built not just on reweighted observations, but in such a way as to better approximate the overall gradient of the objective function. Gradient boosting is one of the effective forecasting algorithms and the accuracy of the forecast depends on the correct input data (training sample). The subject area under study, namely the study of emergency situations on heating networks, has sufficient accumulated data to use boosting as the main tool for forecasting.
machine learning, boosting, forecasting, monitoring, loss function
Введение Применение машинного обучения приобретает актуальность в решении задач прогнозирования. Это связано с тем, что в ряде некоторых задач, таких как предсказание экономических и социальных процессов или осуществление прогноза погоды, зачастую становится сложно, а иногда и невозможно применить явный алгоритм. Упомянутые ранее процессы представляют собой сложные системы, в которых невозможно учесть все существующие факторы, влияющие на состояние или поведение системы. Разрешить эту проблему можно путем выявления некоей функциональной зависимости, выстраивая функцию, которую необходимо приближать к реальной функции сложной системы. Приближение осуществляется обучением на имеющихся парах входных и выходных параметров. Одним из эффективных методов обучения является бустинг, основной принцип которого заключается в использовании «слабых» алгоритмов прогнозирования в совокупности. В этот принцип заложена идея совместного использования слабых алгоритмов, что может дать более качественный прогноз в сравнении с использованием их по отдельности. Прогнозирование аварийных ситуаций Постановка задачи. В основе данного исследования лежит задача прогнозирования ава-рийных ситуаций в системах теплоснабжения. Как показывают исследования в этой области, чаще всего для этого применяют экспертные системы, которые основываются на опыте экспер-тов. Такие системы имеют преимущество, если применена эффективная методика формирова-ния экспертного мнения и подобрана «правильная» группа экспертов. Под «правильными» экс-пертами понимаются те эксперты, опыт которых приемлем для формирования экспертного мне-ния. Поэтому целесообразно применить машинное обучение в качестве инструмента прогнози-рования аварийных ситуаций в системах теплоснабжения. В качестве инструмента машинного обучения рассматривается градиентный бустинг [1–4]. Проблема аварийных ситуаций в системах теплоснабжения остается актуальной и на дан-ный момент. В первую очередь это связано с естественными процессами изнашивания трубо-проводов или воздействия внешней и внутренней среды. На рис. 1 показаны основные характе-ристики трубопровода, которые следует принять во внимание в рамках задачи прогнозирования. Рис. 1. Параметры трубопроводов, формирующие обучающую выборку Данные параметры можно классифицировать по следующему принципу: – группа характеристик источника теплоснабжения; – группа характеристик трубопровода; – группа характеристик химической очистки; – группа характеристик факторов внешней среды. Среди представленных ранее групп характеристик можно выделить третью группу, т. к. наличие химической очистки в системе теплоснабжения значительно уменьшает риск износа теплотрасс. Осуществление прогноза сводится к задаче восстановления функции в общем контенте обучения с учителем. Следует использовать градиентный бустинг. Он работает по следующему принципу: на первых итерациях используются слабые алгоритмы, затем наращиваем ансамбль постепенными улучшениями тех участков данных, где предыдущие модели «не доработали». Но при построении следующей простой модели она строится не просто на перевзвешенных наблюдениях, а так, чтобы лучшим образом приближать общий градиент целевой функции [5, 6]. Что касается модели прогнозирования предаварийных ситуаций, то ее можно представить следующим образом: М = {МП, ОВ, МА, МФП, ВИ}, где МП – входное множество параметров; МА – множество базовых алгоритмов, используемых в градиентном бустинге; ОВ – обучающая выборка; МФП – множество функций потерь; ВИ – выходная информация. Общая концепция данной задачи прогнозирования, с учетом применения машинного обу-чения, включает в себя следующие процессы (рис. 2): – инициализация и нормирование входных параметров; – осуществление прогноза в заданный временной интервал; – визуализация результата прогнозирования; – поддержка принятия решений. Рис. 2. Концептуальная схема прогнозирования и принятия решений В данной концепции следует уделить должное внимание процессу формирования базы данных, которая включает в себя обучающую и тестовую выбору. Правильное формирование этих множеств определяет результат прогнозирования. Метод градиентного бустинга. Решение проблемы прогнозирования осуществляется различными методами, в том числе и методом машинного обучения. Использование нейронных сетей или дерева решений позволяет на наборе пар входных и выходных параметров моделировать процессы. Поэтому решение проблемы прогнозирования сводится к использованию «хороших» входных и выходных параметров. Чем больше параметров можно использовать на входе, тем лучше будет происходить обучение модели, которое основывается на градиентном бустинге [7–13]. Градиентный бустинг может решать две задачи: задачу классификации и нахождения це-левой функции. В нашем случае это второй вариант. Нам необходимо осуществить восстанов-ление функции зависимости входных и выходных данных, указанных ранее. Имеется набор признаков x и результирующих переменных y, которые берутся из множества входных парамет-ров МП. Эти наборы формируют пару множеств, на котором будет обучаться алгоритм (ОВ), восстанавливая функциональную зависимость где xi – набор признаков; yi – результирующие переменные из МП. Восстановление происходит путем приближения но для определения наиболее приемлемого приближения необходимо ввести функцию потерь L(y, f). Задача сводится к мини-мизации функции потерь: Следует отметить, что прогнозирование происходит на основе имеющихся в распоряже-нии данных, и тогда Что касается подбора функции для решения задачи, следует ограничить поиск се-мейством функций с параметрами. Такой подход значительно упрощает реше-ние и сводится к решаемой минимизации параметров: Чтобы получить наиболее оптимальные параметры их необходимо будет приближать итеративно. Приближение и функция потерь нашей модели с учетом выполнения M раз (числа итераций) выглядит следующим образом: В качестве подходящего рабочего алгоритма для решения данной задачи следует исполь-зовать градиентный спуск. Суть его заключается в том, чтобы к градиенту добавить итерационные оценки . С учетом ранее обозначенных параметров алгоритм градиентного бустинга имеет сле-дующий вид: 1. Инициализировать начальное приближение параметров . 2. Для каждой итерации t = 1, …, M повторять: а) посчитать градиент функции потерь при текущем приближении б) задать текущее итеративное приближение на основе посчитанного градиента в) обновить приближение параметров : 3. Сохранить итоговое приближение Описание параметров градиентного бустинга. Чтобы определить, какие составляющие необходимы для решения задачи прогнозирования, необходимо перейти к оптимизации в функ-циональном пространстве. Тогда приближение следует искать в виде самих функций. Чтобы решить задачу прогнозирования, необходимо ограничивать поиск группой функций . Таким образом, для работы алгоритма необходимо иметь: – набор данных – число итераций M; – выбор функции потерь L(y, f) с выписанным градиентом; – выбор семейства функций базовых алгоритмов с процедурой их обучения; – дополнительные гиперпараметры например глубина дерева у деревьев решений. Набор данных обучающей выборки ОВ представляет собой набор параметров участка тепловых сетей, а также параметр, определяющий возникновение аварии. Что касается выбора семейства функций базовых алгоритмов, для прогнозирования могут быть применены следу-ющие алгоритмы: – линейная регрессия; – логистическая регрессия; – дерево решений. Применение градиентного бустинга для прогнозирования аварийных ситуаций на участках тепловых сетей позволяет на ранних этапах исследования решить задачу классификатора (классификация: авария/не авария) и (при более подробных данных yi) задачу восстановления целевой функции. Заключение Таким образом, в рамках поставленной задачи была определена общая концепция прогно-зирования, которая включает в себя немаловажные для машинного обучения этапы. Разработана модель, учитывающая необходимые составляющие алгоритма прогнозирования популяционного процесса. В качестве подхода к прогнозированию был выбран бустинг, основанный на гради-ентном спуске. В данном случае градиентный бустинг рассматривается в контексте решения задачи регрессии, т. е. осуществления поиска функциональной зависимости между парой мно-жеств входных и выходных данных.
1. Kviatkovskaia I. Iu., Fam K. Kh. Sistema pokazatelei otsenki kachestva telekommunikatsionnykh uslug i metod ikh otsenki [System of indicators for assessing telecommunication service quality and method of their assessment]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2013, no. 2, pp. 98-103.
2. Bialetskaia E. M., Kviatkovskaia I. Iu., Shurshev V. F. Formirovanie nabora pokazatelei dlia otsenki kachestva upravleniia zhilymi domami [Formation of set of indicators for assessing quality of housing management]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2011, no. 2, pp. 143-149.
3. Shurshev V. F., Demich N. V. Algoritm kompleksnogo evoliutsionnogo metoda poiska reshenii zadachi sinteza sostava smesei kholodil'nykh agentov [Algorithm of complex evolutionary method for finding solutions to problem of synthesis of refrigerant mixtures composition]. Iuzhno-Rossiiskii vestnik geologii, geografii i global'noi energii, 2006, no. 11, pp. 65-68.
4. Lupian E. A., Burtsev M. A., Balashov I. V., Bartalev S. A., Efremov V. Iu., Kashnitskii A. V., Mazurov A. A., Matveev A. M., Sudneva O. A., Sychugov I. G., Tolpin V. A., Uvarov I. A. Tsentr kollektivnogo pol'zovaniia sistemami arkhivatsii, obrabotki i analiza sputnikovykh dannykh IKI RAN dlia resheniia zadach izucheniia i monitoringa okruzhaiushchei sredy [Center for collective use of systems for archiving, processing and analysis of satellite data of IKI RAS for solving problems of studying and monitoring environment]. Sovremennye problemy distantsionnogo zondirovaniia Zemli iz kosmosa, 2015, vol. 12, no. 5, pp. 263-284.
5. Azhogin E. Iu., Kviatkovskaia I. Iu. Korporativnaia baza znanii kak instrument obespecheniia bespereboinoi raboty informatsionnykh sistem [Corporate knowledge base as tool for ensuring smooth operation of information systems]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2010, no. 2, pp. 7-14.
6. Shurshev V. F., Bui L. V. Model' i algoritm ratsional'nogo vybora skaniruiushchikh priemnikov i transiverov [Model and algorithm for rational selection of scanning receivers and transceivers]. Vestnik Saratovskogo gosudarstvennogo tekhnicheskogo universiteta, 2015, vol. 3, no. 1 (80), pp. 166-175.
7. Shurshev V. F., Kochkin G. A., Kochkina V. R. Model' sistemy podderzhki priniatiia reshenii na osnove rassuzhdenii po pretsedentam [Decision support system model based on case studies]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2013, no. 2, pp. 175-183.
8. Kviatkovskaia I. Iu., Chertina E. V., Belov S. V. Ispol'zovanie sistemy dopolnitel'nogo professional'nogo obrazovaniia v protsesse povysheniia kvalifikatsii IT-spetsialistov: opyt Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta [Using system of additional professional education in process of advanced training of IT specialists: experience of Astrakhan State Technical University]. Informatsionno-kommunikatsionnye tekhnologii v nauke, proizvodstve i obrazovanii ICIT-2017: sbornik statei Mezhdunarodnoi nauchno-prakticheskoi konferentsii (Saratov, 21-22 sentiabria 2017 g.). Voronezh, Nauchnaia kniga Publ., 2017. Pp. 411-419.
9. Shurshev V. F., Umerov A. N. Modelirovanie protsessa priniatiia reshenii pri identifikatsii rezhimov techeniia smesei kholodil'nykh agentov [Modeling decision-making process in identifying flow patterns of mixtures of refrigerants]. Vestnik Kuzbasskogo gosudarstvennogo tekhnicheskogo universiteta, 2005, no. 5 (50), pp. 27-29.
10. Akhvaev A. A., Shurshev V. F. Raspoznavanie bioob"ektov v grunte s ispol'zovaniem radiofizicheskikh svoistv [Recognition of bioobjects in soil using radiophysical properties]. Peredovye nauchno-tekhnicheskie i sotsial'no-gumanitarnye proekty v sovremennoi nauke: sbornik statei II Mezhdunarodnoi nauchno-prakticheskoi konferentsii (Moskva, 15 iiunia 2018 g.). Moscow, Nauchno-izdatel'skii tsentr «Aktual'nost'.RF», 2018. Pp. 69-71.
11. Shurshev V. F., Bialetskaia E. M. Algoritm ekspertnoi otsenki pokazatelei kontrol'no-izmeritel'noi sistemy zhilogo ob"ekta [Algorithm for expert evaluation of indicators of control and measuring system of residential facility]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2010, no. 2, pp. 117-121.
12. Isaev A. S., Kiselev V. V., Kalashnikov E. N., Pleshikov V. P. i dr. Geoinformacionnye sistemy v prognozirovanii i kontrole massovogo razmnozheniya lesnyh nasekomyh // Lesovedenie. 1999. № 5. S. 15-23.
13. Koel'o L. P., Richard V. Postroenie sistem mashinnogo obucheniya na yazyke Python. M.: DMK Press, 2016. 302 s.