Аннотация и ключевые слова
Аннотация (русский):
Рассмотрены недостатки дифференциальной энтропии Шеннона, предложена альтернативная мера информации, которая не обладает указанными недостатками, количественно выражается через интеграл Лебега - Стилтьеса и существует для математических моделей как непрерывных случайных величин (НСВ), так и для дискретных случайных величин (ДСВ) - количество информации Q . Приведено ее математическое описание, обоснованы преимущества предложенной меры информации перед энтропией Шеннона. Под задачей идентификации закона распределения случайной величины, как правило, понимают задачу выбора такой параметрической модели закона распределения вероятностей, которая наилучшим образом соответствует результатам экспериментальных наблюдений. Погрешности измерений как величины являются следствием влияния множества факторов, случайного и неслучайного характера, действующих постоянно или эпизодически. Однако истинный закон распределения, описывающий погрешности конкретной измерительной системы, останется неизвестным, несмотря на все попытки его идентифицировать. На основании данных измерений и теоретических соображений можно только подобрать вероятностную модель, которая в некотором смысле наилучшим образом приближает этот истинный закон. Если построенная модель адекватна, т. е. применяемые критерии не дают оснований для ее отклонения, то на основе данной модели можно вычислить все интересующие нас вероятностные характеристики случайной составляющей погрешности измерительного средства, которые будут отличаться от истинных значений только за счет неисключенной систематической (ненаблюдаемой или нерегистрируемой) составляющей погрешности измерений. Количество информации позволяет минимизировать погрешности при решении задач идентификации экспериментальных законов распределения ДСВ или НСВ. Введенная мера не зависит от числовых характеристик ДСВ или НСВ - математического ожидания, дисперсии, корреляционных моментов, эксцессов, вариации и т. п. Приведены результаты расчетов количества информации для различных законов распределения ДСВ и НСВ. В качестве примера рассмотрен расчет количества информации для дискретного закона Пуассона.

Ключевые слова:
количество информации, дискретные случайные величины, непрерывные случайные величины, энтропия, идентификация закона распределения
Текст
Введение Применение математического аппарата теории информации к исследованию различных параметров и характеристик элементов и систем традиционно отражается на мерах информации, связанных с основоположником теории информации К. Э. Шенноном. Существуют различные критерии применения теории информации, и обычно исследуются математические модели детерминированных и случайных сигналов, информационные модели сигналов и сообщений, их значения, получаемые при передаче информации при отсутствии и наличии помех, эффективность информационных систем, вопросы помехоустойчивости и приема сигналов и информационной оценки автоматизированных систем различного назначения. Одним из основных направлений в области теории информации является создание и исследование информационных моделей, моделей данных и знаний, методов работы со знаниями. Огромный вклад в создание таких моделей внес К. Э. Шеннон, но, к сожалению, его работы по применению информационных моделей не во всем удовлетворяют требованиям, предъявляемым к ним. Перечислим кратко эти требования: - функционал энтропии, по Шеннону, не является однозначным, т. е. получаемое конкретное значение функционала является величиной, которая может принадлежать различным законам распределения дискретных и непрерывных случайных величин (ДСВ и НСВ); - энтропия НСВ не имеет четкого математического обоснования, т. е. непонятно, в каких единицах измеряется эта величина и что означает отрицательное значение дифференциальной энтропии по Шеннону; - значение энтропии ДСВ не ограничено ни сверху, ни снизу, т. е. пределы ее изменения неизвестны; - недостаточно обоснована мера измерения энтропии бит, т. е. понятие бита в виде одного двоичного разряда подходит для вычислительной техники, но не оправдано в информатике, т. к. значение энтропии не обязательно может быть целочисленной величиной; - при анализе информационных моделей по Шеннону условная энтропия всегда меньше безусловной энтропии. Это положение вещей противоречит следующему правилу - добавление условий приводит к возрастанию применяемого функционала. Здесь же наблюдается обратный процесс. Понятие максимального значения функционала не имеет четкого математического значения, оно весьма расплывчато, поэтому лучше, чтобы были заданы конкретные значения максимума и минимума функционалов. Недостатки энтропии Шеннона и альтернативная ей мера информации Q Для исследования информационно-вероятностных и информационно-статистических характеристик (ИВХ и ИСХ) НСВ в качестве основной меры информации обычно применяется дифференциальная энтропия H(X). Формула для ее определения имеет вид [1]: (1) где - плотность вероятности НСВ. Основные недостатки величины заключаются в следующем: 1. может быть и меньше, и больше нуля. 2. Не ясны единицы, в которых измеряется величина . 3. однозначно не определяет вид закона распределения НСВ. Рассмотрим отмеченные недостатки более подробно. 1. В самом деле, например, для НСВ, распределенной по непрерывному прямоугольному закону, определяется по формуле где b и a - конечные точки распределения плотности вероятности. При имеем , при . 2. Измерение единиц проводим следующим образом. Произведение является безразмерной величиной, в то же время измеряется в величинах, обратных размерности x, а единицы измерения неясны. Таким образом, для произведения сложно определить единицу измерения, следовательно, для она остается неясной. 3. Одному и тому же полученному значению будут соответствовать различные законы распределения НСВ. Например, получим значения для непрерывного прямоугольного закона: бита. Но точно такое же значение мы получим и для нормального закона распределения: при бита. Таким образом, одному и тому же значению могут соответствовать различные законы распределение НСВ. Для устранения отмеченных недостатков в [2] была введена мера информации Q для ДСВ и НСВ: (2) где - вероятность появления значений ДСВ; f(x) - плотность вероятности появления значений НСВ; n - количество вероятностей ДСВ. Оказалось, что получаемые значения и лежат в пределах от 0 до 1, т. е. в этом плане они напоминают значения вероятностей ДСВ. Максимальные значения (1) и соответствуют определенным законам непрерывных и дискретных случайных величин, а именно закону Коши для НСВ и закону Пирсона для ДСВ. Минимальные значения и соответствуют таким законам, как непрерывный прямоугольный закон и дискретный равномерный закон. Значения и для других законов распределения лежат в пределах от 0 до 1 [3]. Следует отметить, что для решения задачи идентификации предлагаемого экспериментального закона распределения ДСВ или НСВ нужно увеличить точность определения значений и до четвертого-пятого знака. Именно в этом случае мы достоверно узнаем, по какому конкретному закону распределяются экспериментальные данные. Еще одним достоинством введенных мер является то, что они не зависят от числовых характеристик ДСВ или НСВ - математического ожидания, дисперсии, корреляционных моментов, эксцессов, вариации и т. п. Таким образом, значения и являются числами, т. е. количествами информации по Селиванову, при этом полученные значения Q являются мерами информации и в то же время значениями меры знаний, изменяющейся от 0 до 1. Нулевое значение меры знаний означает наличие полного незнания об исследуемом объекте; при значении равном единице мы имеем максимальное значение знаний об исследуемом объекте. В настоящее время используются четыре основные модели знаний [4]: 1. Продукционные модели. 2. Семантические сети. 3. Фреймовые модели. 4. Формальные логические модели. В стадии разработки находится информационная алгебра, т. е. алгебра, использующая совокупность информационно-вероятностных характеристик и информационно-статистических характеристик, основанных на мере знаний Сs. При этом используются достаточно простые соотношения, вытекающие из свойств. Например: и т. д. В таблице приведены результаты расчетов и для различных законов распределения ДСВ и НСВ. Результаты расчетов и Закон Аналитическое выражение Количество информации Q Дискретные законы Биномиальный 0,19 Гипергеометрический 0,21 Паскаля 0,408689 Пойа 0,408689 Пуассона 0,11 Геометрический 0,40 Отрицательный биномиальный 0,35 Отрицательный гипергеометрический 0,06 Окончание табл. Закон Аналитическое выражение Количество информации Q Дискретные законы Логарифмический 0,42 Дискретный равномерный 0 Непрерывные законы Гиперэкспоненциальный 0,446116 Показательно-степенной 0,443396 Эрланга 0,446316 Пирсона 0,448288 Гамма-распределение 0,442637 Вейбулла 0,44046 Нормальный 0,444997 Односторонний нормальный 0,219611 Распределение модуля нормальной СВ 0,224997 Усеченный нормальный 0,224997 t-распределение Стьюдента 0,226204 β-распределение Эйлера 0,22698 Рассмотрим пример расчета с использованием средств MathCAD. Рассчитаем количество информации для дискретного закона Пуассона. Функция распределения имеет вид Выберем фиксированное число . Число k изменяется в интервале . Для каждого k определим значения вероятностей . Затем рассчитаем значения , и , необходимые для расчета . По формуле (2) вычислим значение для закона распределения Пуассона. k :=1...11 a :=1 1 0,337 0,0011 -0,1648 2 0,0842 0,0071 -0,3006 3 0,1404 0,0197 -0,3976 4 0,1755 0,0308 -0,4406 5 0,1755 0,0308 -0,4406 6 0,1462 0,0214 -0,4056 7 0,1044 0,0109 -0,3404 8 0,0653 0,0043 -0,257 9 0,0363 0,0013 -0,1735 10 0,0181 3,288·10-4 -0,1049 11 0,0082 6,7933·10-5 -0,0571 Заключение Разработанные меры информации и меры знаний могут найти применение при различных исследованиях информационных систем и их подсистем. Приведенные в таблице данные о значениях и позволяют исследователям не проводить аналогичных расчетов, а использовать полученные результаты. Таким образом, значения изменяются от 0 до 1, т. е. мы получили численные значения, которые помогут далее при анализе различных информационных систем и процессов.
Список литературы

1. Шеннон К. Э. Работы по теории вероятности и кибернетике / К. Э. Шеннон. М.: Иностр. лит., 1963. 832 с.

2. Селиванов Е. П. Методы системного и структурного анализа статистических анализаторов и ИИС по информационным критериям: дис. … д-ра техн. наук / Е. П. Селиванов. Пенза, 2000. 234 с.

3. Селиванов Е. П. Определение и исследование количества знаний для различных законов распределения случайных величин и случайных процессов / Е. П. Селиванов. Пенза, ПензГТУ, 2014. 80 с.

4. Гаврилов Т. А. Базы знаний интеллектуальных систем / Т. А. Гаврилов, В. Ф. Хорошевский. СПб.: Питер, 2001. 384 с.


Войти или Создать
* Забыли пароль?