Text (PDF):
Read
Download
Введение
В настоящее время анализ данных [1, 2] стремительно развивается как научное направле-ние, ориентированное на формирование и исследование математических методов и вычисли-тельных алгоритмов фильтрации, преобразования и извлечения полезной информации из экспе-риментальных данных и принятия решений. Любые методы обработки данных применяются для структурирования и анализа существующей информации. Анализ данных имеет множество ас-пектов и подходов, охватывает разные методы в различных областях науки и деятельности. Зна-чительная часть этого направления уделяется анализу данных, представленных в виде экспери-ментальных кривых. Данные этого типа широко используются в автоматизации управления технологическими процессами в промышленности. Также экспериментальные кривые являются одним из способов представления результатов в автоматизированных системах научных исследований. Таким образом представляют, например, хроматограммы в анализе физико-химических свойств веществ, электро-фонокардиограммы и электроэнцефалограммы в медицине, спектры колебаний молекул в спектроскопии.
Состояние проблемы
В связи с тем, что в современном мире постоянно возрастает сложность технологических процессов и сложность новых научных теорий, результаты научных исследований в виде мас-сивов экспериментальных данных содержат десятки и сотни тысяч компонентов. Такие массивы экспериментальных данных не содержат в явном виде информации о свойствах исследуемого процесса, а наиболее существенные свойства и характеристики исследуемого процесса оказы-ваются недоступными для непосредственного измерения. Также нет представления о том, какие именно данные являются полезной информацией в огромном массиве данных. Поэтому возни-кает необходимость в разработке специальных вычислительных алгоритмов и эффективных
методов анализа, аппроксимации и построения точного сжатого описания экспериментальных кривых с целью выделения полезной информации, а целью данной работы является исследова-ние экспериментальных данных научных исследований методами лингвистического анализа, разработанными авторами статьи.
Процедура эксперимента лингвистического описания спектрограмм радиочастот
Разработанная авторами система лингвистического анализа реализована на высокоуров-невом языке программирования общего назначения Python на основе алгоритмов [3, 4]. Для оценки эффективности разработанной системы лингвистического анализа экспериментальных данных научных исследований был проведен эксперимент. Исходной информацией для эксперимента
послужили экспериментальные кривые спектрограмм радиочастот FM-диапазона, полученные
в ГОУ ВПО «Донецкий национальный университет» на лабораторном макете. Эксперименталь-ные данные были сняты с помощью SDR приемника на базе RTL2832 и R820T. Исследуемый диапазон ограничен шириной полосы приемника от 0,25 до 3,2 МГц. Для удобства выбрана частота дискретизации RTL приемника 2432 MSPS (~2,400 МГц). Регистрировалась зависимость частоты от относительной мощности сигнала dBFS в диапазоне частот 95,6–98 МГц. Данный диапазон выбран в связи с большим количеством источников сигналов (радиостанций). Каждая кривая представлялась набором 2 400 значений ординат. Эти числа соответствовали точкам отсчета, шагом в 1 КГц. В исследовании применялось частотное подавление сигналов. Подавление осуществлялось лабораторным широкополосным генератором качающейся частоты. На рис. 1 представлен характер поведения экспериментальных кривых при различных состояниях.
Рис. 1. Экспериментальные кривые спектрограмм радиочастот FM-диапазона: без подавления (а);
с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г)
Кривые регистрировались при 4-х состояниях. Всего было зарегистрировано и проанализировано 60 таких кривых (по 15 кривых для каждого состояния).
Сегментация анализируемых кривых осуществлялась алгоритмами на основе функции сложности [5]. Каждая кривая разбивалась на равные участки длиной в 200 КГц, взятые с шагом следования вдоль кривой в 100 КГц. Таким образом, имелось перекрытие в половину длины участка. Алгоритмом определялись участки, для которых функция сложности принимала локально минимальные значения. Количество выделенных участков, соответствующих сложному поведению кривой, для различных кривых составляло от 4 до 12. Итого на всех 60 кривых было выделено 452 таких участка, которые затем были разбиты алгоритмом классификации [4] на 3 класса.
Для каждого класса был определен эталон, который представляет собой участок кривой, ординаты которого являются среднеарифметическим значением ординат всех участков соответ-ствующего класса. На рис. 2 представлены образцы эталонов каждого класса.
Рис. 2. Образцы эталонов классов
По виду эталонов определено, что участки 1-го класса характеризуют левый фронт сигнала, участки 2-го класса – центральную часть сигнала, участки 3-го класса – правый фронт сигнала. Обозначим участки следующим образом: 1 класс – L (left), 2 класс – C (central), 3 класс – R (right). Таким образом сформирован алфавит языка описания исследуемых экспериментальных кривых, состоящий из 3-х символов
Полученные лингвистические описания исследуемых кривых представлены на рис. 3.
Рис. 3. Лингвистические описания исследуемых кривых
Для удобства анализа полученные описания кривых сортированы на группы, соответ-ствующие различным состояниям, а именно: 1 группа – без подавления, 2 группа – с подавлени-ем 1-го сигнала, 3 группа – с подавлением 2-х сигналов, 4 группа – с подавлением 3-х сигналов. Символы в описаниях расположены в соответствии с последовательностью их естественного следования вдоль кривых.
Из анализа рис. 3 следует, что лингвистические описания, соответствующие одной группе, очень близки, а описания, взятые из разных групп, заметно отличаются. Можно отметить, что все лингвистические описания 3-й группы начинаются с символа C, а описания 4-й группы заканчиваются на R. В описаниях 3-й группы практически не встречается символ L, в описаниях 3-й и 4-й групп большую часть символов составляет C. Также описания 1-й группы не превышают 5 символов, а описания 4-й группы состоят из не менее чем 10 символов.
Процедура расширенного лингвистического описания спектрограмм радиочастот
Для более расширенного лингвистического описания экспериментальных кривых предла-гается составлять это описание с учетом местоположения участков кривой на оси абсцисс. Такая информация не использовалась при описании в предыдущем эксперименте, однако эта инфор-мация может оказаться необходимой для более глубокого анализа представленной кривой. Например, при анализе спектрограмм важно учитывать, на какой из частот находится пик ам-плитуды. Кроме этого имеется большой класс экспериментальных кривых, для анализа которых необходима информация о характере поведения как на отдельных информативных участках, так и информация о положении этих участков на оси аргумента.
Для составления такого расширенного лингвистического описания, учитывающего поло-жение участков на исследуемой кривой, на примере спектрограмм радиочастот FM-диапазона воспользуемся следующей процедурой. Область определения кривой разбивается на l зон
(в нашем случае l = 12), одинаковых по длине (200 КГц). Алфавит языка описания кривых до-полняется символом b – background, обозначающим неинформативные фоновые участки. Таким образом, алфавит состоит из четырех символов . Исходя из этого, каждому участку будет присвоен символ, либо характеризующий его поведение на кривой, либо характе-ризующий фоновое и неинформативное возмущение. Полученное расширенное лингвистиче-ское описание кривой будет отражать не только классы выделенных на ней элементарных собы-тий, но и их фазы. Таким образом, цепочка символов представляется в виде . При этом расширенные описания разных экспериментальных кривых
с одинаковой длиной будут иметь одинаковое количество символов.
При определении автоматизированной системой лингвистического анализа конечного подмножества в множестве всех таких цепочек L трансформационная грамматика сможет со-стоять из одной элементарной трансформации, а именно в замене одного символа другим. Ми-нимальное количество элементарных трансформаций, переводящих цепочку символов в , является мерой отличия этих цепочек друг от друга. Рассмотрим метрику на множестве всех це-почек длины l, приводящую к числу несовпадающих символов на одинаковых местоположениях:
(1)
где .
Так образуются символьные цепочки фиксированной длины, которые можно сравнивать посимвольно, например, как сравнивают числовые векторы одинаковой размерности. Для ядра языка, состоящего из одной символьной цепочки степень принадлежности произвольной символьной цепочки к этому языку определяется монотонной убывающей функцией рассто-яния в метрическом пространстве от этой цепочки до эталонной цепочки . Пусть имеет-ся выборка экспериментальных кривых одной группы, представленная расширенными описани-ями , , где n – количество кривых в данной выборке. Чтобы найти символьную цепочку , для которой необходимо под-ставить критерий в (1) и изменить порядок суммирования: . Минимум критерия будет обеспечен, когда будет символом из расширенного алфавита A, который чаще других оказывается на i-м месте в символьных цепочках , .
Исходной информацией для эксперимента послужили те же экспериментальные кривые спектрограмм радиочастот, что и в предыдущем эксперименте. На рис. 4 и 5 представлены рас-ширенные лингвистические описания этих спектрограмм.
Рис. 4. Расширенные лингвистические описания исследуемых кривых 1-й и 2-й группы
Рис. 5. Расширенные лингвистические описания исследуемых кривых 3-й и 4-й группы
Положение символов описаний кривых на рис. 4 и 5 соответствуют естественным поло-жениям участков на этих кривых. Каждой группе соответствует усредненная расширенная це-почка символов (эталон группы), полученных по , а справа для каждой кривой указаны расстояния от соответствующей ей расширенной цепочки до эталонов всех 4-х групп, вычисленные по формуле (1), отражающие минимальное число элементарных трансформаций, переводящих эталон в эту цепочку.
Для удобства восприятия расширенных лингвистических описаний и наглядности, на рис. 6 на кривых из разных групп отмечены символы, присвоенные каждому анализируемому участку.
Рис. 6. Экспериментальные кривые спектрограмм радиочастот FM-диапазона
и их расширенные лингвистические описания при 4-х состояниях: без подавления (а);
с подавлением одного сигнала (б); 2-х сигналов (в); 3-х сигналов (г)
Полученные расширенные лингвистические описания позволяют судить о характере по-ведения кривых и понимать, в каком состоянии исследуемого процесса они находятся.
Заключение
По результатам первого эксперимента можно сделать вывод, что приведенные описания экспериментальных кривых, полученные методами лингвистического анализа эксперименталь-ных данных научных исследований, представляют короткие и надежные правила для анализа спектрограмм радиочастот.
Применение эталонов позволяет безошибочно отнести каждую цепочку символов к своей группе по признаку минимума расстояния до эталона. Более детальное описание исследуемых кривых возможно получить путем изменения длины участков и шага их следования на этапе сегментации, что в случае с анализом приведенных спектрограмм не является необходимым. Полученные расширенные описания достаточно точно описывают характер поведения исследуемых кривых.