Устранение неопределенности показателя Хёрста  по отношению к знаку регрессии экономических  или биометрических данных на малых выборках

Тарасов Дмитрий Викторович; Иванов Александр Иванович; Ермакова Анна Игоревна

doi:doi:10.24143/2072-9502-2025-2-116-124

Главная / Журналы / Вестник Астраханского государственного технического университета. Серия: Управление, вычислительная техника и информатика / Том 2025 Номер 2 / Устранение неопределенности показателя Хёрста по отношению к знаку регрессии экономических или биометрических данных на малых выборках

Устранение неопределенности показателя Хёрста по отношению к знаку регрессии экономических или биометрических данных на малых выборках

Отправить рукопись Скачать PDF
Текст

Цитировать

Цитирований:

УСТРАНЕНИЕ НЕОПРЕДЕЛЕННОСТИ ПОКАЗАТЕЛЯ ХЁРСТА ПО ОТНОШЕНИЮ К ЗНАКУ РЕГРЕССИИ ЭКОНОМИЧЕСКИХ ИЛИ БИОМЕТРИЧЕСКИХ ДАННЫХ НА МАЛЫХ ВЫБОРКАХ

Журнал: ВЕСТНИК АСТРАХАНСКОГО ГОСУДАРСТВЕННОГО ТЕХНИЧЕСКОГО УНИВЕРСИТЕТА. СЕРИЯ: УПРАВЛЕНИЕ, ВЫЧИСЛИТЕЛЬНАЯ ТЕХНИКА И ИНФОРМАТИКА Том 2025 № 2 , 2025

Рубрики: МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ

УДК 004.8 Искусственный интеллект

Тарасов Дмитрий Викторович ¹

Иванов Александр Иванович ²

Ермакова Анна Игоревна ³

Информация об авторах и публикации

Авторы:

1. Пензенский государственный университет (кандидат технических наук; доцент кафедры высшей и прикладной математики)
с 01.01.2010 по настоящее время
Россия

2. Пензенский государственный университет (доктор технических наук, профессор; профессор кафедры технических средств информационной безопасности)

Россия

3. Пензенский государственный университет (преподаватель кафедры радио- и спутниковой связи Военного учебного центра)

Россия

Тип:

Статья

DOI:

https://doi.org/10.24143/2072-9502-2025-2-116-124

EDN:

https://elibrary.ru/BRQCTE

Страницы:

с 116 по 124

Статус:

Опубликован

Получено:

27.09.2024

Одобрено:

24.04.2025

Опубликовано:

15.05.2025

Классификаторы:

УДК 004.8 Искусственный интеллект

Язык материала:

русский

Ключевые слова:

малые выборки, эмпирический показатель Хёрста, знак регрессии, нейросеть, нейрон, статистический критерий

Аннотация и ключевые слова

Аннотация:
В задачах анализа экономических или биометрических данных показатель Хёрста представляет собой функционал, который плохо работает на малых выборках, что вызвано, прежде всего, тем, что он не чувствует, какие положительно или отрицательно коррелированные данные он анализирует. Сделать показатель Хёрста чувствительным к знаку тренда анализируемых данных предполагается возможным, если раздельно оценивать его для положительной и отрицательной регрессии. Целью статьи является устранение неопределенности эмпирического показателя Хёрста через отражения значений в правую и/или левую сторону от центра его шкалы. Рассматривается нейросетевой подход к оценке знака регрессии независимых данных, который строится на использовании трех разных статистических критериев. Первый критерий построен на оценке взаимного расположения минимального и максимального значений в анализируемой выборке. Вторым критерием является знак коэффициента корреляции, вычисленного по классической формуле Пирсона – Эджуорта – Эдлтона конца XIX в. В качестве третьего критерия используется накопленная сумма разностей соседних отсчетов малой выборки. Показано, что выбранные критерии могут быть представлены в виде сети из трех бинарных нейронов, откликающихся выходным кодом с трехкратной кодовой избыточностью. Устранение трехкратной избыточности выходного кода позволяет поднять уровень достоверности принимаемых решений на малых выборках объемом в 21 опыт. Приведены программная реализации численного эксперимента и статистические распределения значений выходных состояний трех использованных критериев. Показано, что корреляция откликов трех рассмотренных в работе критериев существенно меньше единичной: 0,31; 0,51; 0,61. Это позволяет поднять точность предсказания значения знака показателя нейрона Хёрста для малой выборки.

Ключевые слова:
малые выборки, эмпирический показатель Хёрста, знак регрессии, нейросеть, нейрон, статистический критерий

Текст

Текст (PDF): Читать Скачать

Общие положения нейросетевого статистического анализа

В XX в. исследователи математической статистики создали 21 статистический критерий для проверки гипотезы независимости [1]. К сожалению, все созданные ранее статистические критерии хорошо работают на больших выборках и плохо работают на малых. Так, классический критерий χ² Пирсона [2] дает приемлемые для практического применения результаты на выборках в 160 и более опытов. При решении практических задач биометрии и экономики приходится использовать выборки существенно меньшего объема – примерно в 10 раз.

Проблема может быть преодолена параллельным применением нескольких статистических критериев при анализе одной и той же малой выборки. При этом таблицы доверительных вероятностей для каждого из статистических критериев будут разными, для их совмещения необходимо решать сложную техническую задачу приведения разных шкал доверительной вероятности к одной шкале.

Более простым путем решения задачи является совмещение шкал доверительной вероятности разных критериев в одной точке. Для этого требуется каждый из объединяемых статистических критериев представить бинарным нейроном. Тогда объединение их в одну нейросеть будет давать выходной бинарный код с некоторой избыточностью [3, 4]. Устранить кодовую избыточность можно с использованием любого самокорректирующегося кода [5]. Как правило, в момент устранения кодовой избыточности обнаруживаются и устраняются противоречащие друг другу кодовые состояния (ошибочные кодовые состояния). В итоге доверительная вероятность к принимаемым нейросетью решениям увеличивается.

Формально мы можем использовать нейросеть, объединяющую 21 статистический критерий XX в. [1], в этом случае мы получим выходные бинарные коды с 21-кратной избыточностью, т. е. появляется возможность многократного увеличения доверительной вероятности нейросетевой проверки гипотезы независимости малых выборок. В справочнике [4] приведены новые 178 критериев, которые синтезированы уже в начале XXI в., т. е. теоретически мы можем получать сети из 199 искусственных нейронов, способные давать достаточно достоверные оценки проверки гипотезы независимости малых выборок.

Еще одним важным теоретическим моментом является перспектива увеличения числа проверяемых нейросетью гипотез [6]. Если мы используем сети из 199 бинарных нейронов, то проверяем только одну гипотезу r(x, y) ≈ 0,00. Если мы переходим к использованию искусственных нейронов с выходными троичными квантователями, то у нас появляется возможность обучить нейросеть так, чтобы параллельно проверять уже 3 гипотезы: r(x, y) ≈ ≈ {–0,10; 0,00; +0,10}. Нашим соотечественником А. Ю. Хренниковым было доказано, что при нейросетевом анализе выгодно использовать нейроны с p-арными квантователями, т. е. число устойчивых выходных состояний квантователей должно совпадать с простыми числами p = {2, 3, 5, 7, 11, ...} [7, 8]. Формальная замена 199 бинарных нейронов на 199 троичных будет эквивалентна тому, что верно обученная нейросеть будет выполнять балансировку 199 шкал доверительной вероятности уже в двух точках. При использовании 11-ричных нейронов верно обученная нейросеть будет давать возможность надежно проверять 10 гипотез, согласуя при этом 199 шкал доверительных вероятностей всех 199 искусственных нейронов.

Фактически мы уже имеем промышленную технологию применения больших сверточных двухслойных нейронных сетей. Каждый из 199 нейронов первого слоя будет вычислять свертку по заранее заданному статистическому критерию для проверки одной из 10 статистических гипотез, а второй слой должен выполнять функцию свертывания избыточности выходных 11-арных кодов.

Проблема доверия к множеству статистических критериев, применяемых при обобщенном нейросетевом анализе малых выборок биометрических данных и данных рынка

Одной из проблем применения нейросетевой обработки реальных данных является низкий уровень доверия к новому инструменту. В частности, уровень доверия специалистов по биометрии к 21 классическому статистическому критерию XX в. [1] выше, чем к новым 178 статистическим критериям начала XXI в. [3]. Положение усугубляется тем, что для части задач биометрии и экономики нет заранее созданных тестовых примеров.

В этом контексте значительный интерес представляют давно синтезированные и активно используемые на практике статистические критерии. Для экономики к ним можно отнести эмпирический критерий Хёрста [9–11]. К сожалению, он, как и другие статистические критерии, плохо работает на малых выборках. Так, при выборках в 21 опыт оценка эмпирического показателя Хёрста Xr содержит значительную методическую ошибку, которая может быть устранена [12]:

(1)

где Rs(x) – размах данных в малой выборке объемом в 21 опыт; σ(x) – стандартное отклонение малой выборки; 0,077 – аддитивный компенсатор методической погрешности для малой выборки в 21 опыт.

Еще одной проблемой является то, что эмпирический показатель Хёрста (1) не способен различать персистентные данные, когда он находится в интервале от 0,5 до 1,0, и антиперсистентные данные, когда он должен находиться в интервале от 0,0 до 0,5. Последнее связано с тем, что размах данных Rs(x) = max(x) – min(x) и стандартное отклонение σ(x) всегда являются положительными величинами, а нормированный логарифм их отношения (1) почти всегда больше 0,5, но меньше 1,0.

Получается, что показатель Хёрста относится к корреляционным функционалам, которые не чувствуют того, какие данные они анализируют (положительно коррелированные или отрицательно коррелированные). Если объем анализируемой выборки значителен (выборка накрывает сотни трендов поведения рынка «быки»/«медведи»), то отсутствием подобной чувствительности можно пренебречь.
В этом случае человек, выполняющий статистический анализ по косвенным данным, должен принять решение о состоянии анализируемых данных (персистентные или антиперсистентные).

Ситуация меняется, когда анализируются малые выборки. В этом случае отсутствие чувствительности к знаку анализируемых трендов приводит формулу (1) к появлению значительной методической погрешности. Устранить эту погрешность возможно, если сделать показатель Хёрста чувствительным к знаку тренда анализируемых данных. В этом случае следует раздельно оценивать показатель Хёрста для положительной регрессии «быки» (рост цен на рынке) и отрицательной регрессии «медведи» (падение цен на рынке). Предполагается, что именно раздельное оценивание значений эмпирического показателя Хёрста позволит снизить уровень нестационарности данных рынка [11]. В свою очередь, доверие к эмпирическому показателю (1) обусловлено тем, что для него из ряда теоретических положений вытекает простое соотношение между нормированной энтропией E(r) данных рынка, корреляционной сцепленностью r между ними и показателем Хёрста Xr (рис. 1).

Рис. 1. Теоретически ожидаемая связь метрики эмпирического показателя Хёрста Xr,
коэффициента корреляционной сцепленности r анализируемых данных и нормированного значения
энтропии E(r) данных малой выборки

Fig. 1. Theoretically expected relationship between the empirical Hurst metric Xr, the correlation coefficient r
of the analyzed data and the normalized entropy value E(r) of the small sample data

Принципиально важным является то, что распределение показателя Хёрста должно быть близко к распределению энтропии, т. е. формально в уравнениях, где возникает энтропия, ее можно заменить в первом приближении показателем Хёрста. Именно это обстоятельство и обуславливает внимание к работам, связанным с показателем Хёрста.

Программное моделирование значений связи показателя Хёрста с показателем корреляционной сцепленности анализируемых данных

Эффект появления методической ошибки при оценке показателя Хёрста на малой выборке в 21 опыт иллюстрирует рис. 2.

Рис. 2. Появление методической ошибки со значением +0,077
при моделировании показателя Хёрста для независимых исходных данных выборок объемом в 21 опыт

Fig. 2. Occurrence of a methodological error with the value of +0.077
during Hurst's index modelling for independent initial data of 21 samples

В левой части рис. 2 приведена программа, моделирующая данные показателя Хёрста на языке программирования MathCAD для малых выборок в 21 опыт с нормальным распределением, нулевым математическим ожиданием и единичным стандартным отклонением. В правой части рис. 2 приведено распределение значений показателя Хёрста. Из этого распределения следует, что его математическое ожидание составляет значение 0,577. Это существенно больше того, что предсказывает теория. Появляется существенная методическая ошибка порядка 15,4 %. Ее необходимо компенсировать, как это показано в формуле (1), тогда положение меняется и математическое ожидание распределения данных точно совпадает с теоретическим, как это отображено на рис. 1. Численным моделированием можно показать, что вычисление показателя Хёрста по формуле (1) будет приводить к смещению математического ожидания в сторону его увеличения при любом росте модуля корреляционной сцепленности [12]. Само значение показателя корреляционной сцепленности данных в нашем случае совпадает с вычислением коэффициента корреляции по классической формуле Пирсона – Эджуорта – Эдлтона конца XIX в.:

где x_i – анализируемая последовательность данных; y_i – номера последовательности поступления анализируемых данных; E(.) – функционал вычисления математического ожидания; σ(.) – функционал вычисления стандартного отклонения. Так как нам необходимо сделать показатель Хёрста (рис. 3, а) чувствительным к знаку коэффициента корреляции, мы можем создать формальный нейрон, анализирующий знаки коэффициента корреляции sign(r(x, y)). На рис. 3, б приведены состояния формального нейрона sign(r(x, y)).

К сожалению, формальный нейрон-предсказа-тель знака регрессии sign(r(x, y)) не может быть применен в одиночку. Вероятность ошибок его предсказаний слишком велика и составляет 0,5.
В связи с этим необходимо использовать несколько подобных нейронов, построенных на других критериях оценки знака регрессии.

Рис. 3. Отклики трех формальных нейронов, используемых для оценки знака регрессии анализируемых данных
показателем Хёрста: а – распределение показателя Хёрста с устраненной методической погрешностью;
б – отклики формального нейрона sign(r(x, y)); в – отклики формального нейрона mami; г – отклики формального нейрона dS

Fig. 3. Responses of three formal neurons used to estimate the sign of the regression of the analyzed data using
the Hurst index: а – distribution of the Hurst index with eliminated methodological error; б – responses of the formal
neuron sign(r(x, y)); в – responses of the formal neuron mami; г – responses of the formal neuron dS

В качестве второго статистического критерия предсказания знака регрессии воспользуемся оценкой расстояния между max(x) и min(x) в анализируемой последовательности:

(2)

Критерий знака регрессии (2) является дискретным, распределение амплитуд вероятностей его значений приведено на рис. 3, в. Очевидно, что этот, как и предыдущий, критерий коэффициентов корреляции, может быть преобразован в формальный бинарный нейрон sign(mami), откликающийся состоянием «–1» и «+1». К сожалению, как и предыдущий формальный нейрон, этот новый нейрон работает с высокой вероятностью ошибок первого и второго рода P₁ = P₂ = 0,5. Тем не менее два этих нейрона уже могут использоваться в паре, т. к. отклики их базовых критериев слабо коррелированны: corr(r, mami) ≈ 0,31.

Отметим, что простейшие коды, свертывающие кодовую избыточность откликов нейросети [3, 4, 6], должны иметь нечетное число разрядов, т. е. необходим еще один статистический критерий оценки знака регрессии. В качестве такого критерия воспользуемся накоплением разностей соседних отсчетов:

(3)

Опираясь на статистику (3), легко построить формальный нейрон предсказания знака регрессии sign(ds). Его вероятностные характеристики отображены на рис. 3, г.

Как и предыдущие нейроны, его нельзя использовать отдельно из-за высоких значений вероятностей ошибок первого и второго рода P₁ = P₂ = 0,5. Однако он пригоден для использования совместно с двумя предыдущими нейронами, т. к. их отклики имеют существенную независимую составляющую: corr(r, dS) ≈ 0,51 и corr(mami, dS) ≈ 0,61. Избыточность откликов трех описанных выше предсказывающих нейронов должна быть свернута суммированием их состояний:

(4)

Четвертый свертывающий нейрон формально строится, как и три предыдущих, анализом знака суммы (4): sign(mmm). Столь простая операция позволяет существенно снизить вероятности ошибок первого и второго рода двухслойной нейросети P₁ = P₂ = 0,347. Для того чтобы оценить требуемое число нейронов предсказания знака регрессии данных показателя Хёрста, воспользуемся линейной экстраполяцией в логарифмических координатах. Результаты экстраполяции отображены на рис. 4.

Рис. 4. Предсказание снижения вероятности ошибок первого и второго рода P₁ = P₂ = P_EE
ростом числа искусственных нейронов, оценивающих знак регрессии

Fig. 4. Prediction of a decrease in the probability of errors of the first and second kind P₁ = P₂ = P_EE
by increasing the number of artificial neurons estimating the regression sign

Таким образом, при использовании 11 нейронов мы должны ожидать снижения вероятностей ошибок до значения P₁ = P₂ = P_EE ≈ 0,21. Если удастся воспользоваться сетью из 101 нейрона, то вероятности ошибок должны снизиться до величины P₁ = P₂ = P_EE ≈ 0,1. При использовании 1 001 нейронов ожидается снижение вероятностей до значения P₁ = P₂ = P_EE ≈ 0,05. Подобные прогнозы построены на использовании трех самых простых статистических критериев. Предположительно, поиск более эффективных нейронов должен приводить к существенному росту доверия к принимаемым нейросетевым решениям. То же самое относится и к более эффективным процедурам свертывания нейросетевой кодовой избыточности [13].

Тем не менее, даже опираясь на предсказатель знака регрессии, состоящий только из трех нейронов sign(mmm), мы уже можем частично сделать эмпирический показатель Хёрста чувствительным к знаку регрессии его данных:

(5)

где Xrz – эмпирический показатель Хёрста, частично чувствительный к знаку регрессии.

Если предположить, что нестационарность оценок показателя Хёрста на малых выборках [11] целиком определяется нестабильностью знака регрессии данных, то преобразования вида (5) должны ощутимо снизить наблюдаемые эффекты нестационарности.

Оценка нестационарности вариаций размаха цен на палладий

Рассмотрим в качестве примера данные котировок цен на палладий за период 01.01.2021–01.03.2025 (исходные данные взяты с финансового портала ЦБ РФ [14]). Объем всех данных составляет 1 027 значений. Для всей выборки показатель Хёрста с устраненной методической ошибкой [12] равен 0,563.

Классика

имеет существенную нестационарность, которую можно оценить через вычисление размаха по окну в 21 опыт со сдвигом на один отсчет. Итого для 1 027 отсчетов цен палладия получим (1 027 – 21) + + 1 = 1 007 отсчетов R. По ним вычисляем σ(R) – это базовая оценка нестационарности классического показателя Хёрста по палладию.

Разбиваем данные классического показателя на две группы:

где i(min) – индекс (номер) минимального значения; i(max) – индекс (номер) максимального значения.

Если знак показателя вносит свою собственную существенную нестационарность, то разделение классической нестационарности на 2 компонента должно приводить к следующим соотношениям: σ(R⁽⁺⁾) ≈ σ(R^(–)) < σ(R). Полученные расчетные значения σ(R⁽⁺⁾) = 0,0488, σ(R^(–)) = 0,0405, σ(R) = 0,4813 для нашей выборки подтверждают этот факт.

Предложенный в статье подход позволяет ослабить влияние нестационарности оценок эмпирического показателя Хёрста на малых выборках.

В нашем случае показатель роста стационарности определяется соотношениями

То, что исходная последовательность нормированных размахов (статистической основы показателя Хёрста) имеет показатель нестационарности примерно в 10 раз выше, чем частные показатели, свидетельствует о переключении рынка с участков «медведи» на участки «быки», является одной из основных причин нестационарности показателя Хёрста. Появляется реальная возможность подавлять нестационарность показателя Хёрста не только за счет значительного увеличения объема выборки обрабатываемых данных, но и за счет синхронизации малых выборок с показателем знака регрессии данных.

Заключение

Классический показатель Хёрста не чувствителен к знаку корреляционной связи, и если пользоваться только им, то персистентные и антиперсистентные временные ряды неразличимы. В работе на примере малых выборок рассмотрена возможность снижения вероятности ошибок эмпирического показателя Хёрста за счет анализа корреляционной сцепленности данных выборки. В частности, предлагается данный функционал Хёрста совместить со шкалами доверительной вероятности разных критериев в одной точке, а затем каждый из статистических критериев представить формальным бинарным нейроном. В качестве таких бинарных нейронов в работе были выбраны знак коэффициента корреляции, знак оценки расстояния между максимальным и минимальным значениями выборки, знак накопления разностей соседних отсчетов. Безусловно, эффекты нестационарности реально наблюдаемых данных могут быть снижены за счет расширения перечня и количества используемых статистических критериев, применяемых при обобщенном нейросетевом анализе.

Список литературы

1. Кобзарь А. И. Прикладная математическая статистика. Для инженеров и научных работников. М.: ФИЗМАТЛИТ, 2006. 816 с.

2. Р 50.1.037–2002. Рекомендации по стандартизации. Прикладная статистика. Правила проверки согласия опытного распределения с теоретическим. Часть I. Критерии типа χ2. М.: Госстандарт России, 2001. 140 с.

3. Иванов А. И., Золотарева Т. А. Искусственный интеллект в защищенном исполнении: синтез статистико-нейросетевых автоматов многокритериальной проверки гипотезы независимости малых выборок биометрических данных. Пенза: Изд-во ПГУ, 2020. 105 c.

4. Иванов А. И. Нейросетевой многокритериальный статистический анализ малых выборок. Проверка гипо-тезы независимости: справ. Пенза: Изд-во ПГУ, 2022. 218 с.

5. Морелос-Сарагоса Р. Искусство помехоустойчивого кодирования. М.: Техносфера, 2007. 320 с.

6. Иванов А. И., Годунов А. И., Малыгина Е. А., Папуша Н. А., Ермакова А. И. Нейросетевой анализ малых выборок с использованием большого числа статистических критериев для проверки последовательности гипотез о значении математических ожиданий коэффициентов корреляции // Изв. высш. учеб. заведений. Поволж. регион. Техн. науки. 2024. № 3. С. 37–46. DOI:https://doi.org/10.21685/2072-3059-2024-3-4.

7. Хренников А. Ю. Моделирование процессов мышления в pадических системах координат. М.: ФИЗМАТЛИТ, 2004. 296 с.

8. Хренников А. Ю. Введение в квантовую теорию информации. М.: ФИЗМАТЛИТ, 2016. 284 с.

9. Найман Э. Как покупать дешево и продавать дорого: пособие для разумного инвестора. М.: Альпина Паблишерз, 2011. 552 с.

10. Петерс Э. Хаос и порядок на рынках капитала. Новый аналитический взгляд на циклы, цены и изменчивость рынка / пер. с англ. М.: Мир, 2000. 333 с.

11. Орлов Ю. Н., Осминин К. П. Нестационарные временные ряды. Методы прогнозирования с применением анализа финансовых и сырьевых рынков. М.: ЛЕНАНД, 2023. 384 с.

12. Иванов А. И., Тарасов Д. В., Ермакова А. И. Программное воспроизведение корреляционных связей в малых выборках при статистическом анализе биометрических данных и данных рынка в пространстве значений эмпирического показателя Хёрста // Тр. МАИ. 2024. № 137. URL: https://trudymai.ru/published.php?ID=181892 (дата обращения: 20.09.2024).

13. Волчихин В. И., Иванов А. И., Безяев А. В., Филипов И. А. Распознавание малых выборок с заданным распределением данных при использовании искусственных нейронов, предсказывающих доверительные вероятности собственных решений // Изв. высш. учеб. заведений. Поволж. регион. Техн. науки. 2023. № 4. С. 31–39. DOI:https://doi.org/10.21685/2072-3059-2023-4-3.

14. ЦБ РФ – курсы драгметаллов // MFD.RU. URL: https://mfd.ru/centrobank/preciousmetals/?left=3&right=3&from=01.01.2021&till=01.03.2025 (дата обращения: 20.08.2024).

Контент доступен под лицензией Creative Commons Attribution 3.0 Unported

Отправить рукопись Скачать PDF
Текст JATS XML

Цитировать

Цитирований:

Подтверждение

Регистрация