Astrakhan, Russian Federation
Russian Federation
The article considers the problem of damage evaluation in case of failure of the information system. There have been analyzed the practical methods of assessing damage. It has been stated that the methods can reveal the dependence of the damage on the downtime of the information system, but they are unable to evaluate reputation, administrative or any other consequences. An algorithm is proposed by which specialists can conduct a comparative assessment of damage in case of failure of various information systems using expert information. Applying the proposed algorithm to different information systems, it is possible to determine the most critical systems and, on this basis, effectively plan operational impacts to increase the level of service availability.
experts, recovery time, information system, failure, damage assessment
Введение В настоящее время многие исследователи пришли к выводу, что информация и информационные технологии играют важнейшую роль во всех сферах человеческой жизни. Информация превратилась в ценнейший вид продукции, суммарная стоимость которой в недалеком будущем должна превзойти суммарную стоимость продуктов материального производства. Однако информационные технологии требуют к себе пристального внимания и изучения, поскольку очевидно, что вследствие владения, использования и передачи ценной и важной информации может возникать ряд рисков, способных нанести ощутимый урон компании, государству и даже мировой экономике в целом [1–6]. В процессе работы предприятие использует определенный набор информационных систем (ИС), в рамках которых обрабатывается необходимая информация. В широком понимании считается, что неотъемлемыми компонентами ИС являются данные, техническое и программное обеспечение, а также персонал и организационное обеспечение. Каждая ИС служит для выполнения определенных задач, которые, в свою очередь, позволяют предприятию выполнять бизнес-процессы. Бизнес-процесс – это цепочка работ (бизнес-функций), результатом которых является какой-либо продукт или услуга. В рамках процессного подхода любое предприятие рассматривается как бизнес-система – система, которая представляет собой связанное множество бизнес-процессов, конечными целями которых является выпуск продукции или услуг [5, 7, 8]. Отказ ИС, который приводит к нарушению доступности обрабатываемой информации для потребителя, неизбежно принесет ущерб предприятию. Уровень последствий при отказе разных ИС может варьировать в достаточно широких пределах. Для некоторых компаний, которые работают в сфере телекоммуникаций, облачных сервисов или электронной коммерции, простой ключевых ИС может стоить более 11 тыс. долл. за минуту простоя [9]. В то же время отказ второстепенной ИС может не привести к негативным последствиям, или же ущерб для компании окажется незначительным. Для уменьшения возможного ущерба при отказе ИС необходимо проводить затратные процедуры по управлению непрерывностью и повышению уровня доступности компонентов ИТ-инфраструктуры. Однако, как описано выше, отказ разных систем может привести к ущербу разного уровня, тем самым позволяя определить, на какие ИС в первую очередь необходимо обратить внимание специалистов при планировании эксплуатационных воздействий и модернизации [10]. Процесс оценки ущерба, который может понести компания при недоступности какой-либо ИС, на практике является трудоемкой задачей. Такого рода задача требует привлечения экспертов, которые могут провести требуемую оценку по определенному алгоритму. Целью данной статьи является разработка алгоритма оценки ущерба при отказе ИС на основе экспертной информации. Анализ подходов к решению В зарубежных практиках управления непрерывностью ITSCM из библиотеки ITIL [11], исследованиях компании Evolven [12] и облачного провайдера CloudEndure [9] есть примеры влияния времени простоя ИС на бизнес, в том числе и на величину ущерба. Общий подход к вычислению ущерба при отказе ИС приводит компания Evolven, которая специализируется на предоставлении ИТ-аналитики на основе больших данных. Согласно описанному подходу потери от простоя ИС можно вычислить по следующей базовой формуле: , где L – потерянный доход; GR – годовой валовый доход; TH – количество рабочих часов в году; I – процент влияния простоя ИС на доход организации; H – количество часов простоя ИС. Облачный провайдер CloudEndure в своих рекомендациях по обслуживанию ИС приводит подход к расчету финансовых потерь, который также определяет зависимость уровня ущерба от времени простоя. Предполагая, что доход генерируется, можно вычислить потери дохода, разделив сумму годовых продаж на количество минут в году и умножив на время простоя ИС в минутах: где Rloss – финансовые потери; – сумма годовых продаж; t – время простоя ИС в минутах. Оценочная стоимость времени работников, на которых повлиял простой и которые не могут работать как обычно, возможно вычислить по формуле , где W – средняя почасовая заработная плата одного работника; E – количество сотрудников, пострадавших от простоя; время t в этом случае выражено в часах. Стоимость времени ИТ-персонала, занятого восстановлением ИС из резервной копии или заменой вышедшего из строя технического средства, составляет , где EIT – количество сотрудников, занятых в восстановлении работоспособности ИС; t′ – время, необходимое для исправления проблем всех затронутых систем и возврата бизнеса к нормальному состоянию. Прогнозируемая потеря дохода из-за снижения лояльности клиентов, если бизнес не является широко освещаемым средствами массовой информации, вычисляется на основе потери возможных повторных продаж: , где r – средний показатель (процент) повторных продаж. Прогнозируемая потеря дохода из-за ущерба репутации может быть вычислена по формуле , где r′ – процент продаж, связанный с клиентами, пришедшими с сайтов для сравнения товаров/услуг и из социальных сетей. Таким образом, формула общих потерь от простоя принимает вид Описанные подходы устанавливают явную зависимость уровня ущерба от времени простоя ИС, однако позволяют оценить только финансовый ущерб, исключая репутационные, административные и другие виды последствий. Кроме того, количественная оценка ущерба является сложной процедурой, и для крупного предприятия, в инфраструктуре которого применяются сотни различных ИС, становится неэффективным подходом. Таким образом, необходимо предложить алгоритм, с помощью которого можно провести качественную оценку ущерба с возможностью дальнейшего сравнения результатов по разным ИС. Сравнение ущерба от простоя нескольких ИС между собой позволит лицу, принимающему решения (ЛПР) при обслуживании ИТ-инфраструктуры предприятия, эффективно планировать эксплуатационные воздействия и модернизацию. Описание разработанного алгоритма Величина ущерба от отказа ИС зависит от значения величины времени до восстановления работоспособности – это время от момента отказа до восстановления работоспособного состояния системы [9, 11, 12]. Графическая интерпретация термина «время до восстановления», согласно ГОСТ 27.002-2015, приведена на рис. 1 Рис. 1. Графическая интерпретация термина «время до восстановления» Исходя из этого, в общем виде предлагается ввести в рассмотрение функциональную зависимость величины ущерба при полном отказе информационной системы от значения величины времени до восстановления работоспособности: где t – время до восстановления ИС; D(t) – монотонно возрастающая функция. В качестве функции D предлагается использовать степенную функцию вида (1) где a и b – некоторые константы; t – время до восстановления ИС. Примером может выступать функция . Степенная функция выбрана исходя из анализа практик библиотеки ITIL [11]. Для сравнения величин ущерба от отказа нескольких ИС предлагается использовать среднюю скорость изменения функции, позволяющую описывать поведение функции в окрестности заданной точки. Средняя скорость изменения функции D(t) на промежутке представляет собой отношение изменения функции ∆D(t) к соответствующему изменению аргумента ∆t. Значения t и ∆t выбираются исходя из условий задачи. Средняя скорость изменения функции вычисляется по формуле , (2) где t – начальное время до восстановления; ∆t – приращение времени до восстановления. В качестве экспертов рекомендуется привлекать специалистов, хорошо знакомых с деятельностью организации и имеющих высокую квалификацию и большой опыт работы. Проверку согласованности мнений экспертов предлагается проводить при помощи коэффициента конкордации Кендалла W. Коэффициент W представляет собой суммарную величину отклонений мнений экспертов от случая, когда эти мнения проставлены совершенно случайным образом и эта величина пронормирована с целью приведения ее к интервалу [0;1], т. е. разделена на максимально возможное ее значение. Доказано, что если рассматривать мнения экспертов как отдельные наблюдения случайной выборки, то W, как случайная величина, при достаточно большом числе экспертов и оцениваемых объектов (или критериев) практически описывается стандартным χ 2-распределением [13, 14]. На рис. 2 представлен разработанный алгоритм оценки ущерба при отказе ИС. Рис. 2. Алгоритм оценки ущерба при отказе ИС Шаг 1. Для выполнения данного этапа ЛПР необходимо выбрать и задать варианты типовых значений времени до восстановления работоспособности ИС ti, для которых впоследствии будут рассчитываться величины ущерба. В качестве примера можно использовать базовые значения, на которые ориентируются при подписании соглашения об уровне предоставления услуги SLA (Service Level Agreement) по периодам времени (табл.) [15]. Возможное время неработоспособности ИС Период Возможное время неработоспособности ИС при указанном уровне SLA SLA = 99 SLA = 99,5 SLA = 99,9 SLA = 99,95 SLA = 99,99 День 14 мин 24 с 7 мин 12 с 1 мин 26 с 43 с 9 с Неделя 1 ч 40 мин 48 с 50 мин 24 с 10 мин 5 с 5 мин 2 с 1 мин Месяц 7 ч 18 мин 17 с 3 ч 39 мин 9 с 43 мин 50 с 21 мин 55 с 4 мин 23 с Квартал 21 ч 54 мин 52 с 10 ч 57 мин 26 с 2 ч 11 мин 29 с 1 ч 5 мин 45 с 13 мин 9 с Полугодие 1 д 19 ч 49 мин 45 с 21 ч 54 мин 52 с 4 ч 22 мин 58 с 2 ч 11 мин 29 с 26 мин 18 с Год 3 д 15 ч 39 мин 30 с 1 д 19 ч 49 мин 45 с 8 ч 45 мин 57 с 4 ч 22 мин 58 с 52 мин 36 с Шаг 2. На этом этапе необходимо провести опрос экспертов. Эксперты классифицируют величины ущербов (Di), которые потенциально могут быть нанесены организации в результате неработоспособности ИС за время до восстановления (ti). При этом для описания категорий ущерба используется вербальная форма, для сопоставления числовых оценок различным классам ущерба применяется шкала Харрингтона [16]: «Ущерб незначительный» – . «Ущерб малозначимый» – . «Ущерб среднезначимый» – . «Ущерб значимый» – . «Ущерб критический» – . Шаг 3. Необходимо проверить согласованность мнений экспертов при помощи коэффициента конкордации W. Согласно [17] примем, что при согласованность мнений экспертов неудовлетворительная, при – средняя, при – высокая. Шаг 4а. В случае согласованности мнений экспертов ( ) необходимо вычислить медиану значений величины ущерба, полученных от всех экспертов для каждого временного интервала. В общем виде медиана вычисляется по формуле , где – нижняя граница медианного интервала; – ширина медианного интервала; – количество всех значений, деленное на 2; – суммарное количество наблюдений, которое было накоплено до начала медианного интервала, т. е. накопленная частота предмедианного интервала; – число наблюдений в медианном интервале [18]. Шаг 4б. В случае несогласованности мнений экспертов ( ) ЛПР необходимо определить самостоятельно на основе экспертных оценок величину ущерба для каждого времени неработоспособности. Шаг 5. На этом этапе необходимо построить столбчатую диаграмму (рис. 3), на которой отражаются величины ущерба для каждого временного интервала неработоспособности ИС. Рис. 3. Столбчатая диаграмма ущерб/время Данное представление полученных оценок наглядно отображает результат экспертной процедуры. Данный этап является необязательным, но его рекомендуется проводить для визуализации определенных значений ущерба, которая может потом быть использована ЛПР при оптимизации эксплуатирующих воздействий на ИС. Шаг 6. На данном этапе строится график степенной функции (рис. 4) из выражения (1). Рис. 4. График функции ущерб/время Параметры a и b вычисляются при помощи метода наименьших квадратов. Шаг 7. Средняя скорость изменения функции вычисляется по формуле (2). Найденное значение, вычисленное для одной ИС, предлагается использовать для сравнения аналогичных значений других ИС. Предложенный алгоритм следует применять для сравнения уровней ущерба при отказе разных ИС, не конкретизируя значение , т. к. его определение на практике может вызвать серьезные затруднения. Заключение В работе описан алгоритм оценки ущерба предприятия при отказе информационной системы. В качестве входных данных предложено использовать экспертные оценки с применением вербальной шкалы. В качестве показателя для сравнения ущерба выбрано значение средней скорости изменения монотонно возрастающей функции ущерб/время. Применение предложенного алгоритма позволит ЛПР эффективно планировать эксплуатационные работы и модернизацию ИТ-инфраструктуры. В первую очередь необходимо повышать доступность наиболее критичных ИС, которые реализуют наиболее ценные бизнес-процессы и бизнес-функции предприятия.
1. Kviatkovskii K. I., Shurshev V. F. Proektirovanie informatsionnykh sistem dlia organov gosudarstvennoi vlasti [Designing information systems for public authorities]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2011, no. 1, pp. 172-176.
2. Kiseleva I. A., Iskadzhian S. O. Informatsionnye riski: metody otsenki i analiza [Information risks: methods of assessment and analysis]. ITportal. 2017. № 2 (14). Available at: https://cyberleninka.ru/article/n/informatsionnye-riski-metody-otsenki-i-analiza (accessed: 17.05.2020).
3. Gostiunin Iu. A., Shurshev V. F. Uchet mneniia sotrudnika pri otsenke ekspluatatsionnogo sostoianiia oborudovaniia [Taking into account opinion of employee when assessing operational equipment]. Tekhnologii razrabotki informatsionnykh sistem TRIS-2019: materialy konferenczii. Taganrog, Izd-vo YuFU, 2019. Vol. 2. Pp. 64-69.
4. Voevodin I. G., Shurshev V. F. Formirovanie rezervnoi kopii lokal'nogo khranilishcha informatsii dlia obespecheniia nadezhnosti avtomatizirovannoi sistemy upravleniia [Formation of backup copy of local storage of information to ensure reliability of automated control system]. Telekommunikatsii, 2018, no. 7, pp. 21-24.
5. Kudriavtseva O. V., Shurshev V. F. Informatsionnye tekhnologii finansovogo obespecheniia vypolneniia gosudarstvennogo zadaniia gosudarstvennykh biudzhetnykh obrazovatel'nykh organizatsii [Information technologies of financial support for fulfillment of state task of state budgetary educational organizations]. Informatsionnye tekhnologii i tekhnologii kommunikatsii: sovremennye dostizheniia: materialy III Mezhdunarodnoi molodezhnoi konferentsii (Astrakhan', 01-05 oktiabria 2019 g.). Astrakhan', Izd-vo AGTU, 2019. Pp. 80.
6. Borodin V. A., Protalinskii O. M., Shurshev V. F. Ispol'zovanie metodov mashinnogo obucheniia pri sostavlenii programm remonta energeticheskogo oborudovaniia [Using machine learning methods in designing programs for power equipment repair]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2019, no. 3, pp. 25-33.
7. Shurshev V. F., Ganiukova N. P. Operezhaiushchee upravlenie sotsial'no-ekonomicheskimi sistemami korporativnogo tipa [Advanced management of social and economic systems of corporate type]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2010, no. 1, pp. 23-27.
8. Sycheva I. N., Permiakova E. S. Protsessnyi podkhod v upravlenii predpriiatiem [Process approach in enterprise management]. Ekonomika i biznes: teoriia i praktika, 2016, no. 1. Available at: https://cyberleninka.ru/article/n/protsessnyy-podhod-v-upravlenii-predpriyatiem-2 (accessed: 17.05.2020).
9. Kakova istinnaia stoimost' prostoia IT-infrastruktury dlia malykh i srednikh predpriiatii? [What is cost of IT downtime for SMBs?]. Available at: https://www.cloud4y.ru/about/news/otsenka-istinnoy-stoimosti-prostoya-it-infrastruktury-dlya-malykh-i-srednikh-predpriyatiy/ (accessed: 02.05.2020).
10. Gostiunin Iu. A., Gostiunina V. A. Sistema priniatiia reshenii dlia risk-orientirovannoi strategii tekhnicheskogo obsluzhivaniia [Decision system for risk-based maintenance strategy]. Problemy upravleniia, obrabotki i peredachi informatsii: sbornik trudov V Mezhdunarodnoi iubileinoi nauchnoi konferentsii (Saratov, 28-30 sentiabria 2017 g.). Saratov, Izd-vo OOO SPO «Lodi», 2017. Pp. 301-305.
11. Kovalev A. Dostupnyi ITIL [Available ITIL]. Moscow, Tezaurus Publ., 2018. Part 1. Ekspluatatsiia servisov. 450 p.
12. Cohen G. Downtime, Outages and Failures - Understanding Their True Costs. Available at: https://www.evolven.com/blog/downtime-outages-and-failures-understanding-their-true-costs.html (accessed: 02.05.2020).
13. Orlov A. I. Teoriia priniatiia reshenii: uchebnoe posobie [Decision theory: tutorial]. Moscow, Ekzamen Publ., 2005. 656 p.
14. Popov G. A., Popova E. A. Al'ternativnyi variant koeffitsienta konkordatsii [Alternative variant of concordance coefficient]. Vestnik Astrakhanskogo gosudarstvennogo tekhnicheskogo universiteta. Seriia: Upravlenie, vychislitel'naia tekhnika i informatika, 2013, no. 2, pp. 158-167.
15. Netes V. A. Chto nuzhno dlia uspeshnogo primeneniia SLA [What is required to successfully apply SLA]. T-Comm, 2015, no. 7, pp. 16-20.
16. Harrington E. C. The desirable function. Industrial Quality Control, 1965, vol. 21, no. 10, pp. 494-498.
17. Basovskii L. E. Teoriia ekonomicheskogo analiza: uchebnoe posobie [Economic analysis theory: study guide]. Moscow, INFRA-M Publ., 2001. 222 p.
18. Balinova V. S. Statistika v voprosakh i otvetakh: uchebnoe posobie [Statistics in questions and answers: study guide]. Moscow, TK Velbi Publ., Izd-vo Prospekt, 2004. 344 p.