ANALYSIS OF MACHINE LEARNING METHODS FOR COMPUTER SYSTEMS TO ENSURE SAFETY FROM FRAUDULENT TEXTS
Abstract and keywords
Abstract (English):
IT Security is an essential condition for functioning of each company whose work is related to the information storage. Various models for detecting fraudulent texts including a support vector machine, neural networks, logistic regression, and a naive Bayes classifier, have been analyzed. It is proposed to increase the efficiency of detection of fraudulent messages by combining classifiers in ensembles. The metaclassifier allows to consider the accuracy values of all analyzers, involving in the work the construction of the weight matrix and the characteristic that determines the minimum accuracy boundary. Based on the developed method, a software module for the classification of fraudulent text messages written in Java using M1 class of the OPENCV open library was created and tested. The general algorithm of the ensemble method is given. An experiment based on logistic regression, a naive Bayesian classifier, a multilayer perceptron, and an ensemble of these classifiers has revealed the maximum efficiency of the naive Bayesian classification algorithm and the prospect of combining classifiers into ensembles. The combined methods (ensembles) improve the results and increase the efficiency of the analysis, in contrast to the work of individual analyzers.

Keywords:
fraudulent text, detection, text data, machine learning, classifier, neural network, ensemble-system, algorithm
Text
Text (PDF): Read Download

В настоящее время исследование программных средств для борьбы с киберпреступлениями и мошенничеством приобретает особую актуальность. Безопасность в сфере IT считается неотъемлемым условием функционирования каждой фирмы, работа которой связана с хранением информации. На данный момент в подавляющем числе IT-компаний Internet используется как главная составляющая деятельности фирмы, что приводит к увеличению числа программных и аппаратных средств защиты от небезопасного функционирования систем [1–3]. И, несмотря на то, что сложно оценить экономическую выгоду от внедрения данных систем, актуальность этих мероприятий трудно переоценить.

Под мошенническим текстом понимается сообщение, составленное с целью введения собеседника в заблуждение. Задача детекции мошеннических текстов заключается в определении, был ли текст написан человеком либо был создан при помощи программы. Для решения данных задач нужно учесть следующие особенности предметной области: в настоящее время наиболее актуальным считается использование машинного обучения, которое может выявить определенные закономерности в текстовых массивах данных. Текстовый майнинг (англ. text mining – получение информации из текста) – это широкая область исследований, которая завоевала популярность вместе с ростом объемов текстовых данных. Автоматизация ряда прикладных задач, таких как анализ содержания текста, классификация и каталогизация документов, обобщение текста, машинный перевод, в настоящее время часто выполняется с использованием моделей машинного обучения. Детекция мошеннических текстов представляет собой классический пример задачи классификации документов, который включает в себя классификацию потоков текстовых данных (например, электронной почты) как нежелательного контента.

Для постановки эксперимента мы выполним следующую последовательность шагов:

– подготовка текстовых данных;

– создание словаря;

– процесс извлечения характерных черт (Feature extraction);

– выбор и обучение классификаторов;

– оценка эффективности результатов классификации;

– вывод об эффективности процесса детекции мошеннических текстов на основе проведенной классификации.

Для того чтобы провести оценку точности и эффективности анализа больших объемов данных средствами машинного обучения, следует использовать методики, которые основаны на вычислении матриц ошибок и расчетах, проведенных на основе метрик. Матрицы ошибок (confusion matrix) применяют в тех случаях, когда необходимо представить формализованное описание качества применяемых аналитических моделей. Практически всегда для них уже рассчитаны численные параметры соответствий классов и объектов.

 

Вычисление показателей эффективности ансамбль-системы

Ансамбль-система – это комбинация различных методов машинного обучения, объединенных в один классификатор. Задача ансамбль-систем состоит в объединении набора анализаторов в одну общую систему, вследствие этого достигается повышение точности анализа данных. Главными элементами ансамбль-систем являются моноклассификаторы и метаклассификаторы. Для оценки эффективности детекции мошеннических текстов с помощью ансамбль-систем будет выполнен анализ тестовых данных. Выполним вычисление показателей эффективности ансамбль-системы, полученные значения объединим в вектор эффективности системы. Данный шаг позволит выполнить анализ и сопоставление результатов эффективности детекции классификаторов и системы.

Проведенный расчет дает возможность вычислить следующие значения характеристик отдельных нейросетей и ансамбль-системы:

– первая нейросеть, отличающаяся максимальной мощностью нейронного слоя, будет использовать первый тестовый набор данных;

– вторая нейросеть, имеющая среднюю мощность нейронного слоя, будет также использовать первый тестовый набор данных;

– третья нейросеть, которая отличается пониженной мощностью нейронного слоя, будет, как первая и вторая, использовать первый тестовый набор данных;

– четвертая нейросеть, как и вторая, имеет среднюю мощность нейронного слоя, будет использовать второй тестовый набор данных;

– ансамбль-система соединяет четыре вышеописанные нейронные сети с помощью обученного классификатора.

По результатам анализа значений метрик эффективности включенных в систему классификаторов, а также самой ансамбль-системы были сделаны следующие заключения:

– точность решения, которое было спрогнозировано ансамбль-системой, схожа с показателем точности самого эффективного анализатора. В некоторых случаях данная точность ансамбль-системы превышает точность классификаторов. Данная характеристика основана на главных принципах построения классификаторов. Данный факт был подтвержден экспериментально;

ошибочный прогноз, сделанный ансамбль-системой, равен показателю ошибочности классификаторов, однако в некоторых случаях он может быть выше. Несмотря на это, применение ансамбль-системы в любых случаях помогает не допустить серьезных ошибок в классификации, если анализаторы дают неверные прогнозы относительно принадлежности объектов к заданным классам;

– в случае если все анализаторы системы имеют наивысший показатель ошибочности, т. е. неверно относят объекты к нужным классам, сама ансамбль-система будет наследовать эту особенность. Экспериментально доказано, что данная неточность не может быть выше неточности самого неэффективного анализатора в системе. В теории эта особенность объясняется присутствием верного подхода системы к выбору финальной гипотезы.

Описанные выше выводы также экспериментально подтверждаются при работе с другими тестовыми данными. Актуальность применения ансамбль-систем для детекции мошеннических текстов обуславливается большими объемами тестовых данных, множеством вариаций результатов, сложностью подбора эффективных инструментов для решения данной задачи. Использование ансамбль-систем эффективно решает данные вопросы, а также снижает показатели ошибочности и повышает точность детекции мошеннических текстов. Для эффективной реализации системы детекции мошеннических текстов будут применены различные методики: машина опорных векторов, искусственные нейросети, деревья решений. Однако в настоящий момент нет эффективного инструмента, решающего поставленную задачу. Методы, которые комбинируют несколько способов (ансамбли), улучшают результаты и увеличивают эффективность анализа в отличие от работы отдельных анализаторов. Бутстрэп-агрегирование, или бэггинг, – это алгоритм, комбинирующий результаты классификации нескольких модулей.

Бустинг (англ. boosting – усиление), в отличие от бэггинга, работает следующим образом. Для каждого вектора системы определяется вес. Классификаторы выполняют несколько итераций: после определения веса тестовых данных на каждом следующем построении классификаторов отделяются данные, распознанные неверно. Конечное решение выносится голосованием, коэффициенты весов являются функцией точности анализаторов. В настоящий момент имеется множество методик их подбора, одним из самых эффективных остается алгоритм Adaboost.

Стекинг – алгоритм агрегации различных анализаторов. В отличие от двух предыдущих алгоритмов стекинг применяется для соединения модулей, работающих по разным алгоритмам. Тестовый набор обучающих данных делится на следующие категории: в первой анализаторы, работающие в системе, проходят обучение на первом наборе данных, а тестируются на втором, затем, после проведения анализа результатов, будет спроектирован метаклассификатор, который принимает решение.

Описанная выше ансамбль-система по аналогии с алгоритмом стекинга будет агрегировать различные анализаторы. Однако в отличие от существующих описанных выше алгоритмов агрегации метаклассификатор будет учитывать значения точности всех анализаторов, задействуя в работе построение матрицы весов. Также будет задействована характеристика, определяющая минимальную границу точности, с помощью которой проводится классификация, т. е. определяется принадлежность объектов к классам.

 

Сравнительный анализ алгоритмов

Приведем сравнительный анализ описанных выше алгоритмов с целью выявления лучшего решения для повышения точности детекции мошеннических текстов. Алгоритмы с различными подходами можно использовать в роли анализаторов для построения ансамбль-системы. Для проведения опыта были выбраны модели, которые смогут эффективно детектировать мошеннические тексты: машина опорных векторов, нейросети и деревья решений. Для проведения эксперимента (рис. 1) нужно выполнить следующие шаги:

– определить тестовые данные для классификации;

– обучить и протестировать классификаторы на тестовом наборе данных.

 

 

Рис. 1. План проведения эксперимента по оценке точности ансамбль-систем: SVM – алгоритм машинного обучения Support Vector Machines; ДПР – дерево принятия решений; ИНС – искусственная нейронная сеть

 

Support Vector Machines (SVM) является одним из лучших контролируемых алгоритмов машинного обучения для построения бинарного классификатора. Данный метод сводит обучение классификатора к решению эвристическими алгоритмами путем последовательного уменьшения целевой функции (рис. 2).

 

λi

 

 

Рис. 2. Параметры SVM: с широкой разделяющей плоскостью (а); с узкой разделяющей плоскостью (б)

 

Сотрудниками кафедры инфокоммуникационных технологий и систем связи (ИКТСС) был проведен эксперимент, в ходе которого сформировали и обучили машину опорных векторов с различными ядрами: линейным (LINEAR), RBF, сигмоидальным (SIGMOID), полиномиальным (POLY). Затем была проведена классификация текстов на предмет того, являются ли они мошенническими.

Параметр гамма (используется в ядрах POLY/RBF/SIGMOID) контролирует, насколько чувствительна граница к выбросам. Данный параметр определяет, насколько далеко распространяется влияние обучающей выборки. Если параметр гамма имеет низкое значение, то это означает, что каждый образец обучающей выборки имеет большой радиус влияния (имеет вес, достаточный для влияния). И, наоборот, при высоких значениях гамма каждый образец обучающей выборки имеет меньший радиус влияния, тем самым уменьшая вес точек, отдаленных от пороговой гиперплоскости.

Параметр С (используется в задачах) имеет отношение к геометрии границы, он обеспечивает компромисс между гладкой границей решения (сложностью модели) и точностью классификации тестовой выборки. Фактически параметр С обратно пропорционален дисперсии: чем он выше, тем меньше будет запас у гиперплоскости при условии, что эта гиперплоскость лучше справится с правильной классификацией обучающей выборки. Меньшее значение С оставляет больший запас, даже если эта плоскость имеет меньшую точность классификации. Данный алгоритм неустойчив к выбросам, поэтому для эффективной работы алгоритма необходимо управлять параметрами С и гамма, т. е. необходимо найти баланс между гиперплоскостью с наибольшим минимальным запасом и гиперплоскостью, которая более точно классифицирует обучающую выборку. В случае линейно разделимой выборки алгоритм сводится к максимизации ширины запаса.

Результирующие данные, сведенные в табл. 1, показывают, что наиболее эффективной стала машина опорных векторов, основанная на линейном ядре. Интересно, что машины этого типа более просты и быстрее обучаются.

Таблица 1

Метрики качества детекции мошеннических текстов
с помощью машины опорных векторов с различными ядрами

Метрика точности

Support Vector Machine

Poly

Sigmoid

RBF

Linear

accuracy

0,958008117

0,963315642

0,971198876

0,988058071

TN

12238

12151

12222

12199

FP

3

90

19

42

FN

535

380

350

111

TP

36

191

221

460

sensitivity

0,063047285

0,334500876

0,38704028

0,805604203

specifity

0,999754922

0,99264766

0,998447839

0,996568908

Precision

0,923076923

0,679715302

0,920833333

0,916334661

npv

0,958114773

0,969675205

0,972160356

0,990982941

inf

0,062802207

0,327148535

0,385488119

0,802173111

mark

0,881191696

0,649390508

0,89299369

0,907317602

f1

0,118032787

0,448356808

0,545006165

0,857409133

miss

0,936952715

0,665499124

0,61295972

0,194395797

fallout

0,000245078

0,00735234

0,001552161

0,003431092

falseDiscovery

0,076923077

0,320284698

0,079166667

0,083665339

falseOmission

0,041885227

0,030324795

0,027839644

0,009017059

 

На рис. 3 также отчетливо видно превосходство SVM машины с линейным ядром.

 

 

Рис. 3. ROC-кривые для машин опорных векторов с разными ядрами

 

Логистическая регрессия (Logistic Regression) является вероятностным методом многоклассовой классификации. Метод использует логистическую функцию (сигмоида – для описания вероятности того, что выборка принадлежит одному из двух классов) для преобразования входного значения критерия признака в прогнозируемое значение. Задача логистической регрессии оптимизировать параметр q для достижения гипотезы правдоподобия 0 ≤ hq ≤ 1:

 ,

где hθ – гипотеза правдоподобия; Х – категориальный признак.

В случае бинарной классификации, если hq < 0,5  , класс определяется как 0, иначе как 1. Подбор корректных параметров в алгоритме позволит уменьшить ошибки обучения и обеспечить высокую точность.

Параметр «скорость обучения» алгоритма определяет, насколько быстро необходимо обучить алгоритм. Чем выше значение параметра скорости обучения, тем выше скорость обучения, однако при этом снижается точность. Процесс обучения модели сводится к выбору формы сигмоиды, форма которой наилучшим образом соответствует нашим данным. Для предотвращения переобучения модели выполняется L1-регуляризация или L2-регуляризация. L1-регуляризация способствует разреженности функции, когда лишь немногие факторы равны нулю, путем отбора наиболее важных факторов, влияющих на результат. Он добавляет к функционалу потерь сумму модулей весов линейной модели. L2-регуляризация способствует появлению малых весовых коэффициентов модели путем запрета на непропорционально большие коэффициенты, но не способствует их точному равенству 0. Он добавляет к функционалу потерь сумму квадратов весов линейной модели с множителем λ.

Наивный байесовский классификатор (НБК) является наиболее простым вероятностным классификатором, использующим в своей основе теорему Байеса. Формула

позволяет рассчитать апостериорную вероятность   на основе P(С)   – априорной (безусловной) вероятности класса С,   – вероятности данных значений признаков при данном классе,     – априорной вероятности данных значений признаков. Классификатор предполагает, что наличие (или отсутствие) определенного признака класса не связано с наличием (отсутствием) какого-либо другого признака (модель независимых признаков).

Для построения НБК требуется вычисление математического ожидания и дисперсии по каждому признаку. Предположение о независимости признаков позволяет перейти от оценки n-мерной плотности к оценке n одномерных плотностей. Все параметры модели (априорные вероятности классов и распределение вероятностей признаков) могут быть аппроксимированы их относительными частотами в обучающей выборке. В случае обучения НБК на вещественных значениях (некатегорийные признаки) для классификации необходимо использовать гауссовское нормальное распределение

                                                                                                    

где µС   – математическое ожидание класса С;   – дисперсия класса С; m – критерий гипотезы.

Наивный байесовский классификатор объединяет модель независимых признаков с решающим правилом. Одним из общих решающих правил является выбор гипотезы, которая является наиболее вероятной, а классификатор определяется функцией

Бустинг – класс методов машинного обучения, основанный на идее комбинации простых классификаторов, полученных с помощью алгоритма обучения, способного классифицировать лучше, чем случайное угадывание. Основная идея бустинга состоит в последовательном обучении слабых классификаторов, каждый из которых пытается исправить ошибку предыдущих предикторов. Основными алгоритмами бустинга являются AdaBoost и Gradient Boosting. Общий принцип работы AdaBoost схож с Random Forest, т. к. оба объединяют прогнозы, сделанные каждым деревом решений для принятия решения об окончательной классификации. Отличием двух ансамблевых методов являются глубина дерева решений и влияние прогноза, сделанного каждым деревом, по-разному влияющие на окончательный прогноз.

Общий алгоритм состоит из следующих этапов:

– инициализация весов обучающей выборки. На данном этапе можно указать значимость элементов обучающей выборки. Изначально все элементы имеют одинаковый вес и в сумме на каждом шаге выбора слабого классификатора должны быть равны 1;

– выбираем слабый классификатор hi. Для каждого признака создаем дерево решений с глубиной 1, после чего сравниваем полученные прогнозы с фактическими метками обучающей выборки. Наилучшее деление, которое выполнило классификацию, будет являться следующим деревом в лесу. Общая ошибка ei слабого классификатора hi   складывается из суммы весов некорректно классифицированных образцов. Фактически наилучшее деление дерева решений обеспечивает минимизацию взвешенной ошибки ei слабого классификатора hi. Далее вычисляем вес αi   полученного слабого классификатора hi. Чем больше значение αi  , тем большее влияние слабый классификатор hi оказывает на целевую функцию H(x)  ;

– обновляем значение весовых коэффициентов обучающей выборки с учетом некорректно классифицированных образцов. Zi – нормирующий параметр, равный сумме всех весовых коэффициентов i-го слабого классификатора;

– если ei 0,5i  , то останавливаем процесс, в противном случае повторяем процесс выбора слабого классификатора на обучающей выборке с новыми весовыми коэффициентами. Итоговая целевая функция имеет вид . В случае отсутствия веса αi целевая функция сводится к простому голосованию, как Random Forest.

Многослойный персептрон (MPL) является наиболее часто используемым типом искусственных нейронных сетей. Многослойный персептрон состоит из входного слоя, одного или нескольких скрытых слоев и выходного слоя. Каждый слой (кроме входного) многослойного персептрона содержит в себе один или несколько нейронов, направленно связанных с нейронами из предыдущего и следующего (за исключением выходного слоя) слоев. На рис. 4 представлен четырехслойный персептрон с двумя входами, двумя выходами и двумя скрытыми слоями с 9-ю нейронами.

 

Рис. 4. Четырехслойный персептрон

 

Все нейроны в многослойном персептроне похожи между собой, они имеют несколько входных ссылок, которые принимают выходные значения от нейронов предыдущего слоя, и несколько выходных ссылок, которые передают ответы к нейронам следующего слоя. Значения, полученные из предыдущего слоя, суммируются с индивидуальными весами каждого нейрона и плюс значение смещения. Полученная сумма преобразуется с использованием активационной функции. Активационная функция (функция активации) определяет выходной нейрон.

Выполненный на кафедре ИКТСС эксперимент с тремя отмеченными выше классификаторами и ансамбль-системой выявил в итоге результаты, приведенные в табл. 2 и 3.

Таблица 2

Метрики качества детекции мошеннических текстов с помощью логистической регрессии,
НБК, MPL, Ensembles

Метрика точности

Классификатор

Логистическая регрессия

Наивный байесовский классификатор

Многослойный персептрон

Ансамбль

классификаторов

accuracy

0,988058071

0,992038714

0,990321574

0,991336247

TN

12199

12209

12232

12220

FP

42

31

8

20

FN

111

71

116

91

TP

460

501

456

481

sensitivity

0,805604203

0,875874126

0,797202797

0,840909091

specifity

0,996568908

0,99746732

0,999346405

0,998366013

precision

0,916334661

0,941729323

0,982758621

0,96007984

npv

0,990982941

0,994218241

0,990605766

0,992608237

inf

0,802173111

0,873341446

0,796549202

0,839275104

mark

0,907317602

0,935947564

0,973364387

0,952688077

f1

0,857409133

0,907608696

0,88030888

0,896551724

miss

0,194395797

0,124125874

0,202797203

0,159090909

fallout

0,003431092

0,00253268

0,000653595

0,001633987

falseDiscovery

0,083665339

0,058270677

0,017241379

0,03992016

falseOmission

0,009017059

0,005781759

0,009394234

0,007391763

Таблица 3

Метрики качества детекции мошеннических текстов с помощью различных методов обучения

Модель обучения

Классификатор

Точность

Время

Время обучения

Время анализа

Бэггинг

ИНС

55,38807

1,8931

0,0132

SVM

49,93362

0,7865

0,0528

ДПР

58,74345

0,0187

0,018

Бустинг

ИНС

56,85399

3,5343

0,0156

SVM

56,01708

0,9185

0,0552

ДПР

56,01906

0,0308

0,0216

Стэкинг

ИНС

50,09859

0,3069

0,0228

SVM

50,09427

0,1804

0,0168

ДПР

50,09886

0,0132

0,0204

Голосование

ИНС, SVM, ДПР

59,16006

0,5434

0,0648

Aнсамбль-система

ИНС, SVM, ДПР

61,974

0,5896

0,0612

 

Максимальную эффективность выявил наивный байесовский классификатор. Он же оказался более результативным, чем машина опорных векторов.

Построенные ROC-кривые иллюстрируют максимальную эффективность наивного байесовского алгоритма классификации (рис. 5).

 

Рис. 5. ROC-кривые для логистической регрессии, наивного байесовского алгоритма классификации, многослойного персептрона и ансамбля этих классификаторов

 

Несмотря на высокую эффективность наивного байесовского алгоритма классификации эксперимент показал перспективность объединения классификаторов в ансамбли с целью повышения точности детекции мошеннических текстов (см. табл. 3).

С точки зрения временных затрат спроектированная ансамбль-система показывает средний результат [4], в ряде случаев опережая системы, созданные на базе бэггинга и бустинга. Во всех случаях ансамбль-система обучалась и классифицировала объекты в рамках конечного предсказуемого времени.

Полученные теоретические результаты позволяют более осознанно и эффективно подходить к решению задачи детекции мошеннических текстов, а написанный программный модуль на языке Java c использованием класса Ml открытой библиотеки OPENCV позволяет эффективно выполнять классификацию мошеннических текстов.

 

Заключение

В работе проанализирована проблемная ситуация детекции мошеннических текстов. Детерминированы виды мошеннических текстов, представлены техники маскировки мошеннических текстов. Проведена оценка эффективности результатов классификации. В дополнение к этому эксперимент показал перспективность объединения классификаторов в ансамбли с целью повышения точности детекции мошеннических текстов. При проектировании системы создаются и обучаются анализаторы, входящие и функционирующие в составе метаклассификатора, который отвечает за их комбинацию в одно целое, а также оценивает эффективность детекции. На основании вышеизложенного можно сделать вывод о том, что сравнительный анализ машинных методов обучения показал перспективность их использования не только для детекции мошеннических текстов, но и для классификации ИТ-сервисов и инцидентов библиотеки ITIL, которая позволит эффективно маршрутизировать пользовательские заявки.

References

1. Krasotkin M. A., Shibaikin S. D. Issledovanie programmno-apparatnykh sredstv dlia bor'by s moshennichestvom [Study of hardware and software for fraud fighting]. Prikladnaia matematika i informatika: sovremennye issledovaniia v oblasti estestvennykh i tekhnicheskikh nauk: sbornik nauchnykh statei IV Nauchno-prakticheskoi mezhdunarodnoi konferentsii (shkoly-seminara) molodykh uchenykh (Tol'iatti, 23-25 aprelia 2018 g.): v 2 ch. Tol'iatti, Izd-vo Kachalin Aleksandr Vasil'evich, 2018. Part 2. Pp. 162-168.

2. Krasotkin M. A., Shibaikin S. D. Algoritmy bor'by s moshennichestvom v telekommunikatsionnykh sistemakh [Telecommunication fraud fighting algorithms]. Materialy XXII Nauchno-prakticheskoi konferentsii molodykh uchenykh, aspirantov i studentov natsional'nogo issledovatel'skogo Mordovskogo gosudarstvennogo universiteta im. N. P. Ogareva (Saransk, 25 sentiabria-01 oktiabria 2018 g.): sbornik trudov: v 3 ch. Saransk, Izd-vo Mordov. gos. un-ta im. N. P. Ogareva, 2019. Part 1. Pp. 148-151.

3. Ladanova E. O., Nikulin V. V. K voprosu ob informatsionnoi bezopasnosti pri analize tekstovykh soobshchenii [On the issue of information security in analysis of text messages]. Voprosy informatsionnoi bezopasnosti: materialy II Mezhregional'nogo vebinara (Saransk-Elets, 21 fevralia 2018 g.). Saransk, Izd-vo Mordov. gos. un-ta im. N. P. Ogareva, 2018. Pp. 59-63.

4. Iamashkin S. A. Metodicheskoe i algoritmicheskoe obespechenie protsessa analiza struktury zemel' na baze dannykh distantsionnogo zondirovaniia. Dissertatsiia … kand. tekhn. nauk [Methodological and algorithmic support of land structure analysis based on remote sensing data: Diss. ... Cand. Tech.Sci.]. Saransk, 2016. 186 p.


Login or Create
* Forgot password?