Abstract and keywords
Abstract (English):
The article presents the study of experimental curves of the spectral spectra of radio waves of the FM-range developed on a laboratory model. The algorithm was used to define sections, for which the complexity function took locally minimal values. The standard was determined for each section of the curve, in which all the arithmetic mean ordinates of all areas correspond to the certain class. For a more extended linguistic description of the experimental curves, it is proposed to compile the description taking into account the location of the curve sections on the abscissa axis. The obtained extended linguistic description of the curve will reflect not only classes of simple events, but their phases as well. As a result of applying the linguistic analysis system for the analysis of spectral radiograms, it can be inferred that the experimental curves are presented in the form of short and reliable rules for the analysis of the radiogram spectrum. The use of standards allows to accurately represent each chain of characters in each group with a minimum distance to the standard. The obtained extended descriptions quite accurately describe the behavior of the curves studied.

Keywords:
data analysis, experimental curves, linguistic description, standard, chain of characters
Text
Publication text (PDF): Read Download

Введение В настоящее время анализ данных [1, 2] стремительно развивается как научное направле-ние, ориентированное на формирование и исследование математических методов и вычисли-тельных алгоритмов фильтрации, преобразования и извлечения полезной информации из экспе-риментальных данных и принятия решений. Любые методы обработки данных применяются для структурирования и анализа существующей информации. Анализ данных имеет множество ас-пектов и подходов, охватывает разные методы в различных областях науки и деятельности. Зна-чительная часть этого направления уделяется анализу данных, представленных в виде экспери-ментальных кривых. Данные этого типа широко используются в автоматизации управления технологическими процессами в промышленности. Также экспериментальные кривые являются одним из способов представления результатов в автоматизированных системах научных исследований. Таким образом представляют, например, хроматограммы в анализе физико-химических свойств веществ, электро-фонокардиограммы и электроэнцефалограммы в медицине, спектры колебаний молекул в спектроскопии. Состояние проблемы В связи с тем, что в современном мире постоянно возрастает сложность технологических процессов и сложность новых научных теорий, результаты научных исследований в виде мас-сивов экспериментальных данных содержат десятки и сотни тысяч компонентов. Такие массивы экспериментальных данных не содержат в явном виде информации о свойствах исследуемого процесса, а наиболее существенные свойства и характеристики исследуемого процесса оказы-ваются недоступными для непосредственного измерения. Также нет представления о том, какие именно данные являются полезной информацией в огромном массиве данных. Поэтому возни-кает необходимость в разработке специальных вычислительных алгоритмов и эффективных методов анализа, аппроксимации и построения точного сжатого описания экспериментальных кривых с целью выделения полезной информации, а целью данной работы является исследова-ние экспериментальных данных научных исследований методами лингвистического анализа, разработанными авторами статьи. Процедура эксперимента лингвистического описания спектрограмм радиочастот Разработанная авторами система лингвистического анализа реализована на высокоуров-невом языке программирования общего назначения Python на основе алгоритмов [3, 4]. Для оценки эффективности разработанной системы лингвистического анализа экспериментальных данных научных исследований был проведен эксперимент. Исходной информацией для эксперимента послужили экспериментальные кривые спектрограмм радиочастот FM-диапазона, полученные в ГОУ ВПО «Донецкий национальный университет» на лабораторном макете. Эксперименталь-ные данные были сняты с помощью SDR приемника на базе RTL2832 и R820T. Исследуемый диапазон ограничен шириной полосы приемника от 0,25 до 3,2 МГц. Для удобства выбрана частота дискретизации RTL приемника 2432 MSPS (~2,400 МГц). Регистрировалась зависимость частоты от относительной мощности сигнала dBFS в диапазоне частот 95,6–98 МГц. Данный диапазон выбран в связи с большим количеством источников сигналов (радиостанций). Каждая кривая представлялась набором 2 400 значений ординат. Эти числа соответствовали точкам отсчета, шагом в 1 КГц. В исследовании применялось частотное подавление сигналов. Подавление осуществлялось лабораторным широкополосным генератором качающейся частоты. На рис. 1 представлен характер поведения экспериментальных кривых при различных состояниях. Рис. 1. Экспериментальные кривые спектрограмм радиочастот FM-диапазона: без подавления (а); с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г) Кривые регистрировались при 4-х состояниях. Всего было зарегистрировано и проанализировано 60 таких кривых (по 15 кривых для каждого состояния). Сегментация анализируемых кривых осуществлялась алгоритмами на основе функции сложности [5]. Каждая кривая разбивалась на равные участки длиной в 200 КГц, взятые с шагом следования вдоль кривой в 100 КГц. Таким образом, имелось перекрытие в половину длины участка. Алгоритмом определялись участки, для которых функция сложности принимала локально минимальные значения. Количество выделенных участков, соответствующих сложному поведению кривой, для различных кривых составляло от 4 до 12. Итого на всех 60 кривых было выделено 452 таких участка, которые затем были разбиты алгоритмом классификации [4] на 3 класса. Для каждого класса был определен эталон, который представляет собой участок кривой, ординаты которого являются среднеарифметическим значением ординат всех участков соответ-ствующего класса. На рис. 2 представлены образцы эталонов каждого класса. Рис. 2. Образцы эталонов классов По виду эталонов определено, что участки 1-го класса характеризуют левый фронт сигнала, участки 2-го класса – центральную часть сигнала, участки 3-го класса – правый фронт сигнала. Обозначим участки следующим образом: 1 класс – L (left), 2 класс – C (central), 3 класс – R (right). Таким образом сформирован алфавит языка описания исследуемых экспериментальных кривых, состоящий из 3-х символов Полученные лингвистические описания исследуемых кривых представлены на рис. 3. Рис. 3. Лингвистические описания исследуемых кривых Для удобства анализа полученные описания кривых сортированы на группы, соответ-ствующие различным состояниям, а именно: 1 группа – без подавления, 2 группа – с подавлени-ем 1-го сигнала, 3 группа – с подавлением 2-х сигналов, 4 группа – с подавлением 3-х сигналов. Символы в описаниях расположены в соответствии с последовательностью их естественного следования вдоль кривых. Из анализа рис. 3 следует, что лингвистические описания, соответствующие одной группе, очень близки, а описания, взятые из разных групп, заметно отличаются. Можно отметить, что все лингвистические описания 3-й группы начинаются с символа C, а описания 4-й группы заканчиваются на R. В описаниях 3-й группы практически не встречается символ L, в описаниях 3-й и 4-й групп большую часть символов составляет C. Также описания 1-й группы не превышают 5 символов, а описания 4-й группы состоят из не менее чем 10 символов. Процедура расширенного лингвистического описания спектрограмм радиочастот Для более расширенного лингвистического описания экспериментальных кривых предла-гается составлять это описание с учетом местоположения участков кривой на оси абсцисс. Такая информация не использовалась при описании в предыдущем эксперименте, однако эта инфор-мация может оказаться необходимой для более глубокого анализа представленной кривой. Например, при анализе спектрограмм важно учитывать, на какой из частот находится пик ам-плитуды. Кроме этого имеется большой класс экспериментальных кривых, для анализа которых необходима информация о характере поведения как на отдельных информативных участках, так и информация о положении этих участков на оси аргумента. Для составления такого расширенного лингвистического описания, учитывающего поло-жение участков на исследуемой кривой, на примере спектрограмм радиочастот FM-диапазона воспользуемся следующей процедурой. Область определения кривой разбивается на l зон (в нашем случае l = 12), одинаковых по длине (200 КГц). Алфавит языка описания кривых до-полняется символом b – background, обозначающим неинформативные фоновые участки. Таким образом, алфавит состоит из четырех символов . Исходя из этого, каждому участку будет присвоен символ, либо характеризующий его поведение на кривой, либо характе-ризующий фоновое и неинформативное возмущение. Полученное расширенное лингвистиче-ское описание кривой будет отражать не только классы выделенных на ней элементарных собы-тий, но и их фазы. Таким образом, цепочка символов представляется в виде . При этом расширенные описания разных экспериментальных кривых с одинаковой длиной будут иметь одинаковое количество символов. При определении автоматизированной системой лингвистического анализа конечного подмножества в множестве всех таких цепочек L трансформационная грамматика сможет со-стоять из одной элементарной трансформации, а именно в замене одного символа другим. Ми-нимальное количество элементарных трансформаций, переводящих цепочку символов в , является мерой отличия этих цепочек друг от друга. Рассмотрим метрику на множестве всех це-почек длины l, приводящую к числу несовпадающих символов на одинаковых местоположениях: (1) где . Так образуются символьные цепочки фиксированной длины, которые можно сравнивать посимвольно, например, как сравнивают числовые векторы одинаковой размерности. Для ядра языка, состоящего из одной символьной цепочки степень принадлежности произвольной символьной цепочки к этому языку определяется монотонной убывающей функцией рассто-яния в метрическом пространстве от этой цепочки до эталонной цепочки . Пусть имеет-ся выборка экспериментальных кривых одной группы, представленная расширенными описани-ями , , где n – количество кривых в данной выборке. Чтобы найти символьную цепочку , для которой необходимо под-ставить критерий в (1) и изменить порядок суммирования: . Минимум критерия будет обеспечен, когда будет символом из расширенного алфавита A, который чаще других оказывается на i-м месте в символьных цепочках , . Исходной информацией для эксперимента послужили те же экспериментальные кривые спектрограмм радиочастот, что и в предыдущем эксперименте. На рис. 4 и 5 представлены рас-ширенные лингвистические описания этих спектрограмм. Рис. 4. Расширенные лингвистические описания исследуемых кривых 1-й и 2-й группы Рис. 5. Расширенные лингвистические описания исследуемых кривых 3-й и 4-й группы Положение символов описаний кривых на рис. 4 и 5 соответствуют естественным поло-жениям участков на этих кривых. Каждой группе соответствует усредненная расширенная це-почка символов (эталон группы), полученных по , а справа для каждой кривой указаны расстояния от соответствующей ей расширенной цепочки до эталонов всех 4-х групп, вычисленные по формуле (1), отражающие минимальное число элементарных трансформаций, переводящих эталон в эту цепочку. Для удобства восприятия расширенных лингвистических описаний и наглядности, на рис. 6 на кривых из разных групп отмечены символы, присвоенные каждому анализируемому участку. Рис. 6. Экспериментальные кривые спектрограмм радиочастот FM-диапазона и их расширенные лингвистические описания при 4-х состояниях: без подавления (а); с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г) Полученные расширенные лингвистические описания позволяют судить о характере по-ведения кривых и понимать, в каком состоянии исследуемого процесса они находятся. Заключение По результатам первого эксперимента можно сделать вывод, что приведенные описания экспериментальных кривых, полученные методами лингвистического анализа эксперименталь-ных данных научных исследований, представляют короткие и надежные правила для анализа спектрограмм радиочастот. Применение эталонов позволяет безошибочно отнести каждую цепочку символов к своей группе по признаку минимума расстояния до эталона. Более детальное описание исследуемых кривых возможно получить путем изменения длины участков и шага их следования на этапе сегментации, что в случае с анализом приведенных спектрограмм не является необходимым. Полученные расширенные описания достаточно точно описывают характер поведения исследуемых кривых.
References

1. Namiot D. E., Romanov V. Iu. Analiz dannykh dlia programmnykh repozitoriev [Data analysis for software repositories]. International Journal of Open Information Technologies, 2018, no. 4, pp. 18-23.

2. Zarutskii S. A., Vlasenko E. A. Avtomatizatsiia analiza dannykh eksperimental'nykh issledovanii [Automation of analysis of experimental research data]. Elektronnyi zhurnal IVD, 2018, no. 1 (48). Available at: http://ivdon.ru/uploads/article/pdf/IVD_115_ Zaruckij_Vlasenko.pdf_e7e45a41f4.pdf (accessed: 18.01.2020).

3. Danilov V. V., Tret'iakov I. A., Shalaev A. V., Rushechnikov Ia. I. Algoritmy identifikatsii perekhodnykh uchastkov eksperimental'nykh krivykh s primeneniem approksimatsii [Algorithms for identifying transition sections of experimental curves using approximation]. Sbornik nauchnykh trudov Donetskogo instituta zheleznodorozhnogo transporta, 2018, no. 48, pp. 19-23.

4. Danilov V. V., Tret'iakov I. A., Rushechnikov Ia. I. Algoritmizatsiia prisvoeniia simvolov analiziruemym uchastkam eksperimental'nykh krivykh [Algorithmization of character assignment to analyzed sections of experimental curves]. Sbornik nauchnykh trudov Donetskogo instituta zheleznodorozhnogo transporta, 2018, no. 51, pp. 15-22.

5. Tret'iakov I. A., Danilov V. V. Funktsii slozhnosti dlia vydeleniia i raspoznavaniia kharakternykh uchastkov eksperimental'nykh krivykh [Complexity functions for isolating and recognizing characteristic portions of experimental curves]. Vestnik Donetskogo natsional'nogo universiteta. Seriia A: Estestvennye nauki, 2017, no. 2, pp. 101-107.


Login or Create
* Forgot password?