Аннотация и ключевые слова
Аннотация (русский):
Исходной информацией для эксперимента послужили экспериментальные кривые спектрограмм радиочастот FM-диапазона, полученные на лабораторном макете. Алгоритмом определялись участки, для которых функция сложности принимала локально минимальные значения. Для каждого класса был определен эталон, который представляет собой участок кривой, ординаты которого являются среднеарифметическим значением ординат всех участков соответствующего класса. Для более расширенного лингвистического описания экспериментальных кривых предлагается составлять это описание с учетом местоположения участков кривой на оси абсцисс. Полученное расширенное лингвистическое описание кривой будет отражать не только классы выделенных на ней элементарных событий, но и их фазы. В результате применения системы лингвистического анализа к анализу спектрограмм радиочастот можно заключить, что приведенные описания экспериментальных кривых представляют короткие и надежные правила для анализа спектрограмм радиочастот. Применение эта-лонов позволяет безошибочно отнести каждую цепочку символов к своей группе по признаку минимума расстояния до эталона. Полученные расширенные описания довольно точно описывают характер поведения исследуемых кривых.

Ключевые слова:
анализ данных, экспериментальные кривые, лингвистическое описание, эталон, цепочка символов, спектрограммы
Текст
Текст произведения (PDF): Читать Скачать

Введение В настоящее время анализ данных [1, 2] стремительно развивается как научное направле-ние, ориентированное на формирование и исследование математических методов и вычисли-тельных алгоритмов фильтрации, преобразования и извлечения полезной информации из экспе-риментальных данных и принятия решений. Любые методы обработки данных применяются для структурирования и анализа существующей информации. Анализ данных имеет множество ас-пектов и подходов, охватывает разные методы в различных областях науки и деятельности. Зна-чительная часть этого направления уделяется анализу данных, представленных в виде экспери-ментальных кривых. Данные этого типа широко используются в автоматизации управления технологическими процессами в промышленности. Также экспериментальные кривые являются одним из способов представления результатов в автоматизированных системах научных исследований. Таким образом представляют, например, хроматограммы в анализе физико-химических свойств веществ, электро-фонокардиограммы и электроэнцефалограммы в медицине, спектры колебаний молекул в спектроскопии. Состояние проблемы В связи с тем, что в современном мире постоянно возрастает сложность технологических процессов и сложность новых научных теорий, результаты научных исследований в виде мас-сивов экспериментальных данных содержат десятки и сотни тысяч компонентов. Такие массивы экспериментальных данных не содержат в явном виде информации о свойствах исследуемого процесса, а наиболее существенные свойства и характеристики исследуемого процесса оказы-ваются недоступными для непосредственного измерения. Также нет представления о том, какие именно данные являются полезной информацией в огромном массиве данных. Поэтому возни-кает необходимость в разработке специальных вычислительных алгоритмов и эффективных методов анализа, аппроксимации и построения точного сжатого описания экспериментальных кривых с целью выделения полезной информации, а целью данной работы является исследова-ние экспериментальных данных научных исследований методами лингвистического анализа, разработанными авторами статьи. Процедура эксперимента лингвистического описания спектрограмм радиочастот Разработанная авторами система лингвистического анализа реализована на высокоуров-невом языке программирования общего назначения Python на основе алгоритмов [3, 4]. Для оценки эффективности разработанной системы лингвистического анализа экспериментальных данных научных исследований был проведен эксперимент. Исходной информацией для эксперимента послужили экспериментальные кривые спектрограмм радиочастот FM-диапазона, полученные в ГОУ ВПО «Донецкий национальный университет» на лабораторном макете. Эксперименталь-ные данные были сняты с помощью SDR приемника на базе RTL2832 и R820T. Исследуемый диапазон ограничен шириной полосы приемника от 0,25 до 3,2 МГц. Для удобства выбрана частота дискретизации RTL приемника 2432 MSPS (~2,400 МГц). Регистрировалась зависимость частоты от относительной мощности сигнала dBFS в диапазоне частот 95,6–98 МГц. Данный диапазон выбран в связи с большим количеством источников сигналов (радиостанций). Каждая кривая представлялась набором 2 400 значений ординат. Эти числа соответствовали точкам отсчета, шагом в 1 КГц. В исследовании применялось частотное подавление сигналов. Подавление осуществлялось лабораторным широкополосным генератором качающейся частоты. На рис. 1 представлен характер поведения экспериментальных кривых при различных состояниях. Рис. 1. Экспериментальные кривые спектрограмм радиочастот FM-диапазона: без подавления (а); с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г) Кривые регистрировались при 4-х состояниях. Всего было зарегистрировано и проанализировано 60 таких кривых (по 15 кривых для каждого состояния). Сегментация анализируемых кривых осуществлялась алгоритмами на основе функции сложности [5]. Каждая кривая разбивалась на равные участки длиной в 200 КГц, взятые с шагом следования вдоль кривой в 100 КГц. Таким образом, имелось перекрытие в половину длины участка. Алгоритмом определялись участки, для которых функция сложности принимала локально минимальные значения. Количество выделенных участков, соответствующих сложному поведению кривой, для различных кривых составляло от 4 до 12. Итого на всех 60 кривых было выделено 452 таких участка, которые затем были разбиты алгоритмом классификации [4] на 3 класса. Для каждого класса был определен эталон, который представляет собой участок кривой, ординаты которого являются среднеарифметическим значением ординат всех участков соответ-ствующего класса. На рис. 2 представлены образцы эталонов каждого класса. Рис. 2. Образцы эталонов классов По виду эталонов определено, что участки 1-го класса характеризуют левый фронт сигнала, участки 2-го класса – центральную часть сигнала, участки 3-го класса – правый фронт сигнала. Обозначим участки следующим образом: 1 класс – L (left), 2 класс – C (central), 3 класс – R (right). Таким образом сформирован алфавит языка описания исследуемых экспериментальных кривых, состоящий из 3-х символов Полученные лингвистические описания исследуемых кривых представлены на рис. 3. Рис. 3. Лингвистические описания исследуемых кривых Для удобства анализа полученные описания кривых сортированы на группы, соответ-ствующие различным состояниям, а именно: 1 группа – без подавления, 2 группа – с подавлени-ем 1-го сигнала, 3 группа – с подавлением 2-х сигналов, 4 группа – с подавлением 3-х сигналов. Символы в описаниях расположены в соответствии с последовательностью их естественного следования вдоль кривых. Из анализа рис. 3 следует, что лингвистические описания, соответствующие одной группе, очень близки, а описания, взятые из разных групп, заметно отличаются. Можно отметить, что все лингвистические описания 3-й группы начинаются с символа C, а описания 4-й группы заканчиваются на R. В описаниях 3-й группы практически не встречается символ L, в описаниях 3-й и 4-й групп большую часть символов составляет C. Также описания 1-й группы не превышают 5 символов, а описания 4-й группы состоят из не менее чем 10 символов. Процедура расширенного лингвистического описания спектрограмм радиочастот Для более расширенного лингвистического описания экспериментальных кривых предла-гается составлять это описание с учетом местоположения участков кривой на оси абсцисс. Такая информация не использовалась при описании в предыдущем эксперименте, однако эта инфор-мация может оказаться необходимой для более глубокого анализа представленной кривой. Например, при анализе спектрограмм важно учитывать, на какой из частот находится пик ам-плитуды. Кроме этого имеется большой класс экспериментальных кривых, для анализа которых необходима информация о характере поведения как на отдельных информативных участках, так и информация о положении этих участков на оси аргумента. Для составления такого расширенного лингвистического описания, учитывающего поло-жение участков на исследуемой кривой, на примере спектрограмм радиочастот FM-диапазона воспользуемся следующей процедурой. Область определения кривой разбивается на l зон (в нашем случае l = 12), одинаковых по длине (200 КГц). Алфавит языка описания кривых до-полняется символом b – background, обозначающим неинформативные фоновые участки. Таким образом, алфавит состоит из четырех символов . Исходя из этого, каждому участку будет присвоен символ, либо характеризующий его поведение на кривой, либо характе-ризующий фоновое и неинформативное возмущение. Полученное расширенное лингвистиче-ское описание кривой будет отражать не только классы выделенных на ней элементарных собы-тий, но и их фазы. Таким образом, цепочка символов представляется в виде . При этом расширенные описания разных экспериментальных кривых с одинаковой длиной будут иметь одинаковое количество символов. При определении автоматизированной системой лингвистического анализа конечного подмножества в множестве всех таких цепочек L трансформационная грамматика сможет со-стоять из одной элементарной трансформации, а именно в замене одного символа другим. Ми-нимальное количество элементарных трансформаций, переводящих цепочку символов в , является мерой отличия этих цепочек друг от друга. Рассмотрим метрику на множестве всех це-почек длины l, приводящую к числу несовпадающих символов на одинаковых местоположениях: (1) где . Так образуются символьные цепочки фиксированной длины, которые можно сравнивать посимвольно, например, как сравнивают числовые векторы одинаковой размерности. Для ядра языка, состоящего из одной символьной цепочки степень принадлежности произвольной символьной цепочки к этому языку определяется монотонной убывающей функцией рассто-яния в метрическом пространстве от этой цепочки до эталонной цепочки . Пусть имеет-ся выборка экспериментальных кривых одной группы, представленная расширенными описани-ями , , где n – количество кривых в данной выборке. Чтобы найти символьную цепочку , для которой необходимо под-ставить критерий в (1) и изменить порядок суммирования: . Минимум критерия будет обеспечен, когда будет символом из расширенного алфавита A, который чаще других оказывается на i-м месте в символьных цепочках , . Исходной информацией для эксперимента послужили те же экспериментальные кривые спектрограмм радиочастот, что и в предыдущем эксперименте. На рис. 4 и 5 представлены рас-ширенные лингвистические описания этих спектрограмм. Рис. 4. Расширенные лингвистические описания исследуемых кривых 1-й и 2-й группы Рис. 5. Расширенные лингвистические описания исследуемых кривых 3-й и 4-й группы Положение символов описаний кривых на рис. 4 и 5 соответствуют естественным поло-жениям участков на этих кривых. Каждой группе соответствует усредненная расширенная це-почка символов (эталон группы), полученных по , а справа для каждой кривой указаны расстояния от соответствующей ей расширенной цепочки до эталонов всех 4-х групп, вычисленные по формуле (1), отражающие минимальное число элементарных трансформаций, переводящих эталон в эту цепочку. Для удобства восприятия расширенных лингвистических описаний и наглядности, на рис. 6 на кривых из разных групп отмечены символы, присвоенные каждому анализируемому участку. Рис. 6. Экспериментальные кривые спектрограмм радиочастот FM-диапазона и их расширенные лингвистические описания при 4-х состояниях: без подавления (а); с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г) Полученные расширенные лингвистические описания позволяют судить о характере по-ведения кривых и понимать, в каком состоянии исследуемого процесса они находятся. Заключение По результатам первого эксперимента можно сделать вывод, что приведенные описания экспериментальных кривых, полученные методами лингвистического анализа эксперименталь-ных данных научных исследований, представляют короткие и надежные правила для анализа спектрограмм радиочастот. Применение эталонов позволяет безошибочно отнести каждую цепочку символов к своей группе по признаку минимума расстояния до эталона. Более детальное описание исследуемых кривых возможно получить путем изменения длины участков и шага их следования на этапе сегментации, что в случае с анализом приведенных спектрограмм не является необходимым. Полученные расширенные описания достаточно точно описывают характер поведения исследуемых кривых.
Список литературы

1. Намиот Д. Е., Романов В. Ю. Анализ данных для программных репозиториев // International Journal of Open Information Technologies. 2018. № 4. C. 18–23.

2. Заруцкий С. А., Власенко Е. А. Автоматизация анализа данных экспериментальных исследований // Электронный журнал ИВД. 2018. № 1 (48). URL: http://ivdon.ru/uploads/article/pdf/IVD_115_Zaruckij_ Vlasenko.pdf_e7e45a41f4.pdf (дата обращения: 18.01.2020).

3. Данилов В. В., Третьяков И. А., Шалаев А. В., Рушечников Я. И. Алгоритмы идентификации переходных участков экспериментальных кривых с применением аппроксимации // Сб. науч. тр. Донец. ин-та железнодорож. транспорта. 2018. № 48. С. 19–23.

4. Данилов В. В., Третьяков И. А., Рушечников Я. И. Алгоритмизация присвоения символов анали-зируемым участкам экспериментальных кривых // Сб. науч. тр. Донец. ин-та железнодорож. транспорта. 2018. № 51. С. 15–22.

5. Третьяков И. А., Данилов В. В. Функции сложности для выделения и распознавания характерных участков экспериментальных кривых // Вестн. Донец. национ. ун-та. Сер. А: Естественные науки. 2017. № 2. С. 101–107.