Abstract and keywords
Abstract (English):
The article discusses the shortcomings of the differential Shannon entropy and proposes an alternative measure of information, which does not have these disadvantages, quantitatively expressed through the integral Lebesgue - Stieltjes and exists for mathematical models as continuous random variables (CRV) and for discrete random variables (DRV) - the amount of information Q . Its mathematical description is given, potential advantages of the proposed measures information before the Shannon entropy are justified. Under the identification problem of the distribution law of a random variable, as a rule, the task of choosing a parametric model of the probability distribution, which best fits to the experimental results, is understood. Measurement errors as values are influenced by many factors, random and non-random origin acting continuously or episodically. However, the true distribution law describing the uncertainty of the particular measurement system remain unknown, in spite of all the attempts to identify it. On the basis of the measured data and theoretical considerations you can just pick up a probabilistic model, which in some sense makes this law best approximated. If the designed model is adequate, that is the used criteria do not give grounds for its rejection, on the basis of this model, we can calculate all the probabilistic characteristics of the random component of the error measuring device, which will differ from the true values only at the expense of non-excluded systematic (unobserved or unrecorded) component of the measurement error. The amount of information minimizes the error in the solution of the problems of identification of the experimental distribution laws DRV or CRV. The proposed measure does not depend on numerical characteristics of DRV or CRV - mathematical expectation, variance, correlation moments, incidents, variations, etc. The results of the calculations of the amount of information for different distribution laws DRV and CRV are given. As an example, the calculation of the amount of information for the discrete Poisson law is considered.

Keywords:
amount of information, discrete random variables, continuous random variables, entropy, identification of the distribution law
Text
Введение Применение математического аппарата теории информации к исследованию различных параметров и характеристик элементов и систем традиционно отражается на мерах информации, связанных с основоположником теории информации К. Э. Шенноном. Существуют различные критерии применения теории информации, и обычно исследуются математические модели детерминированных и случайных сигналов, информационные модели сигналов и сообщений, их значения, получаемые при передаче информации при отсутствии и наличии помех, эффективность информационных систем, вопросы помехоустойчивости и приема сигналов и информационной оценки автоматизированных систем различного назначения. Одним из основных направлений в области теории информации является создание и исследование информационных моделей, моделей данных и знаний, методов работы со знаниями. Огромный вклад в создание таких моделей внес К. Э. Шеннон, но, к сожалению, его работы по применению информационных моделей не во всем удовлетворяют требованиям, предъявляемым к ним. Перечислим кратко эти требования: - функционал энтропии, по Шеннону, не является однозначным, т. е. получаемое конкретное значение функционала является величиной, которая может принадлежать различным законам распределения дискретных и непрерывных случайных величин (ДСВ и НСВ); - энтропия НСВ не имеет четкого математического обоснования, т. е. непонятно, в каких единицах измеряется эта величина и что означает отрицательное значение дифференциальной энтропии по Шеннону; - значение энтропии ДСВ не ограничено ни сверху, ни снизу, т. е. пределы ее изменения неизвестны; - недостаточно обоснована мера измерения энтропии бит, т. е. понятие бита в виде одного двоичного разряда подходит для вычислительной техники, но не оправдано в информатике, т. к. значение энтропии не обязательно может быть целочисленной величиной; - при анализе информационных моделей по Шеннону условная энтропия всегда меньше безусловной энтропии. Это положение вещей противоречит следующему правилу - добавление условий приводит к возрастанию применяемого функционала. Здесь же наблюдается обратный процесс. Понятие максимального значения функционала не имеет четкого математического значения, оно весьма расплывчато, поэтому лучше, чтобы были заданы конкретные значения максимума и минимума функционалов. Недостатки энтропии Шеннона и альтернативная ей мера информации Q Для исследования информационно-вероятностных и информационно-статистических характеристик (ИВХ и ИСХ) НСВ в качестве основной меры информации обычно применяется дифференциальная энтропия H(X). Формула для ее определения имеет вид [1]: (1) где - плотность вероятности НСВ. Основные недостатки величины заключаются в следующем: 1. может быть и меньше, и больше нуля. 2. Не ясны единицы, в которых измеряется величина . 3. однозначно не определяет вид закона распределения НСВ. Рассмотрим отмеченные недостатки более подробно. 1. В самом деле, например, для НСВ, распределенной по непрерывному прямоугольному закону, определяется по формуле где b и a - конечные точки распределения плотности вероятности. При имеем , при . 2. Измерение единиц проводим следующим образом. Произведение является безразмерной величиной, в то же время измеряется в величинах, обратных размерности x, а единицы измерения неясны. Таким образом, для произведения сложно определить единицу измерения, следовательно, для она остается неясной. 3. Одному и тому же полученному значению будут соответствовать различные законы распределения НСВ. Например, получим значения для непрерывного прямоугольного закона: бита. Но точно такое же значение мы получим и для нормального закона распределения: при бита. Таким образом, одному и тому же значению могут соответствовать различные законы распределение НСВ. Для устранения отмеченных недостатков в [2] была введена мера информации Q для ДСВ и НСВ: (2) где - вероятность появления значений ДСВ; f(x) - плотность вероятности появления значений НСВ; n - количество вероятностей ДСВ. Оказалось, что получаемые значения и лежат в пределах от 0 до 1, т. е. в этом плане они напоминают значения вероятностей ДСВ. Максимальные значения (1) и соответствуют определенным законам непрерывных и дискретных случайных величин, а именно закону Коши для НСВ и закону Пирсона для ДСВ. Минимальные значения и соответствуют таким законам, как непрерывный прямоугольный закон и дискретный равномерный закон. Значения и для других законов распределения лежат в пределах от 0 до 1 [3]. Следует отметить, что для решения задачи идентификации предлагаемого экспериментального закона распределения ДСВ или НСВ нужно увеличить точность определения значений и до четвертого-пятого знака. Именно в этом случае мы достоверно узнаем, по какому конкретному закону распределяются экспериментальные данные. Еще одним достоинством введенных мер является то, что они не зависят от числовых характеристик ДСВ или НСВ - математического ожидания, дисперсии, корреляционных моментов, эксцессов, вариации и т. п. Таким образом, значения и являются числами, т. е. количествами информации по Селиванову, при этом полученные значения Q являются мерами информации и в то же время значениями меры знаний, изменяющейся от 0 до 1. Нулевое значение меры знаний означает наличие полного незнания об исследуемом объекте; при значении равном единице мы имеем максимальное значение знаний об исследуемом объекте. В настоящее время используются четыре основные модели знаний [4]: 1. Продукционные модели. 2. Семантические сети. 3. Фреймовые модели. 4. Формальные логические модели. В стадии разработки находится информационная алгебра, т. е. алгебра, использующая совокупность информационно-вероятностных характеристик и информационно-статистических характеристик, основанных на мере знаний Сs. При этом используются достаточно простые соотношения, вытекающие из свойств. Например: и т. д. В таблице приведены результаты расчетов и для различных законов распределения ДСВ и НСВ. Результаты расчетов и Закон Аналитическое выражение Количество информации Q Дискретные законы Биномиальный 0,19 Гипергеометрический 0,21 Паскаля 0,408689 Пойа 0,408689 Пуассона 0,11 Геометрический 0,40 Отрицательный биномиальный 0,35 Отрицательный гипергеометрический 0,06 Окончание табл. Закон Аналитическое выражение Количество информации Q Дискретные законы Логарифмический 0,42 Дискретный равномерный 0 Непрерывные законы Гиперэкспоненциальный 0,446116 Показательно-степенной 0,443396 Эрланга 0,446316 Пирсона 0,448288 Гамма-распределение 0,442637 Вейбулла 0,44046 Нормальный 0,444997 Односторонний нормальный 0,219611 Распределение модуля нормальной СВ 0,224997 Усеченный нормальный 0,224997 t-распределение Стьюдента 0,226204 β-распределение Эйлера 0,22698 Рассмотрим пример расчета с использованием средств MathCAD. Рассчитаем количество информации для дискретного закона Пуассона. Функция распределения имеет вид Выберем фиксированное число . Число k изменяется в интервале . Для каждого k определим значения вероятностей . Затем рассчитаем значения , и , необходимые для расчета . По формуле (2) вычислим значение для закона распределения Пуассона. k :=1...11 a :=1 1 0,337 0,0011 -0,1648 2 0,0842 0,0071 -0,3006 3 0,1404 0,0197 -0,3976 4 0,1755 0,0308 -0,4406 5 0,1755 0,0308 -0,4406 6 0,1462 0,0214 -0,4056 7 0,1044 0,0109 -0,3404 8 0,0653 0,0043 -0,257 9 0,0363 0,0013 -0,1735 10 0,0181 3,288·10-4 -0,1049 11 0,0082 6,7933·10-5 -0,0571 Заключение Разработанные меры информации и меры знаний могут найти применение при различных исследованиях информационных систем и их подсистем. Приведенные в таблице данные о значениях и позволяют исследователям не проводить аналогичных расчетов, а использовать полученные результаты. Таким образом, значения изменяются от 0 до 1, т. е. мы получили численные значения, которые помогут далее при анализе различных информационных систем и процессов.
References

1. Shennon K. E. Raboty po teorii veroyatnosti i kibernetike / K. E. Shennon. M.: Inostr. lit., 1963. 832 s.

2. Selivanov E. P. Metody sistemnogo i strukturnogo analiza statisticheskih analizatorov i IIS po informacionnym kriteriyam: dis. … d-ra tehn. nauk / E. P. Selivanov. Penza, 2000. 234 s.

3. Selivanov E. P. Opredelenie i issledovanie kolichestva znaniy dlya razlichnyh zakonov raspredeleniya sluchaynyh velichin i sluchaynyh processov / E. P. Selivanov. Penza, PenzGTU, 2014. 80 s.

4. Gavrilov T. A. Bazy znaniy intellektual'nyh sistem / T. A. Gavrilov, V. F. Horoshevskiy. SPb.: Piter, 2001. 384 s.


Login or Create
* Forgot password?