Энтропия. Теория информации

H  = Nln N – N –(S Ni ln Ni  – S Ni)


i


i


С учетом условия S Ni = N, выражение для Н приводится к виду:

H = Nln N –S Ni ln Ni 

(1.8)


i


Далее Планк ввел в рассмотрение вероятности различных сос­тояний молекул, определив их как :

pi =

Ni

(1.9)

N

При этом второе слагаемое в правой части (1.8) можно пред­ставить как:

S  Ni ln Ni =S pi N ( ln pi + ln N ) = N S pi ln pi + N ln N Si pi

(1.10)

i

 

i

 

i

 

i

 


С учетом известного из теории вероятностей условия норми­ровки S pi = 1, подстановка (1.10) в (1.8) приводит выражение для Н к окончательному виду :

H = –S pi ln pi 

(1.11)


i



Проделанные Планком с помощью формулы Стирлинга чисто формальные преобразования не только позволили получить новое выражение для исчисления энтропии, но помогли более глубоко осознать смысл вычисляемой величины Н . Выражение (1.11) позволяет сделать два важных вывода :

1. Введение в формулу энтропии значений вероятностей расширило рамки применимости этой формулы далеко за пределы исследуемых термодинамикой молекулярных систем. Символ pi может обозначать вероятность не толь­ко тех или иных состояний молекул, но и различных сост­ояний элементов любых систем (в частности, вероятностей появления букв текста или других символов пер­едаваемых сообщений).

2. Выражение (1.11) соответствует полной энтропии системы. Поделив подсчитанную по формуле (1.11) величину на Ni , можно определить усредненную величину энтропии Н , относящуюся к одному элементу рассматриваемой системы, т.е.




(1.8)

  H = –S pi ln pi 


i


Именно в таком виде использовал функцию энтропии Шеннон для определения среднего значения энтропии одной буквы текста (опуская при этом знак усреднения).

. Согласно Шеннону, средняя энтропия одной буквы текста вычисляется по формуле (1.2) путем суммирования слагаемых pi log pi , в которых символом pi , обозначены вероятности соот­ветствующих букв. Таким образом :


i=я


(1.13)

H = –S pi ln pi  = - (pа log pа + pб log pб +…+  pя log pя)


i=а


Для удобства исчисления энтропии сообщений, передаваемых двоичным кодом, Шеннон заменил используемый термодинамикой натуральный логарифм ln двоичным логарифмом log2.

МЕТОДЫ ИСЧИСЛЕНИЯ КОЛИЧЕСТВА СТРУКТУРНОЙ ИНФОРМАЦИИ И ИНФОРМАЦИОННОЙ ЭНТРОПИИ ТЕКСТОВ

До опубликования созданной К.Шенноном теории Р.Хартли предложил определять количество информации по формуле :

I = log2 N

(2.1)

где I - количество информации ;

N - число возможных (ожидаемых) сообщений.

Для учета различной степени неожиданности (вероятности) сообщений К.Шеннон предложил использовать заимствованную из статистической физики вероятностную функцию энтропии, приве­денную к виду (1.13)

В случае равной вероятности появления любой из N букв алфавита выполняется условие:

Pа = Pб = Pв = … = Pя = 1/N

(2.2)

В результате подстановки (2.2) в (2.1) и с учетом того, что:

- log1/N = + log N

получаем :

H = – (

1

log

1

)=log N

(2.3)

N

N

Сопоставляя (2.1) и (2.3), приходим к выводу, что количество информации, вычисляемое по формуле Хартли, соответствует ус­транению неопределенности Н при получении сообщения об одной из букв алфавита, при условии равной вероятности появления любой из букв (условие 2.2).

При равных вероятностях появления всех букв алфавита текст становится наиболее хаотичным. Подсчитанная по формуле (2.3) величина информационной энтропии достигает максимальной ве­личины :

Hmax = log N

(2.4)

За единицу количества информации принята величина ин­формации, содержащейся в сообщении об одном из двух равновероятных событий.

До получения сообщения выполняются условия :

P1 = P2 =

1

=

1


(2.5)

N

2

При подстановке (2.5) в (1.13) получаем :

H = (½ log2 ½ + ½ log2 ½) = + log2 2 = 1 bit


Наименование «бит» (“bit”) происходит от сокращения английских слов «двоичная единица» (binary unit).

В реальных текстах появлению разных букв соответствуют разные вероятности. Так, например, для русских текстов вероят­ность появления буквы "О" в 30 раз превышает вероятность появ­ления буквы «Щ» или «Э» (Ро= 0,09;
Рщ= Рэ= 0,003).

При подстановке в формулу (1.13) реальных значений вероятностей букв русского текста величина реальной информационной энтропии Нr уменьшается по сравнению с максимальной энтропией, определяемой выражением (2.4).

Разность между величиной максимальной энтропии Нmax и реальной энтропии Нr соответствует количеству избыточной (пред­сказуемой ) информации In.

Таким образом:

In = Hmax – Hr

(2.6)

Учет реальных значений вероятностей букв при передаче пись­менных текстов позволяет уменьшить избыточность сообщений, передаваемых по каналам связи. Так, например, для избавления от избыточности используется способ кодирования букв алфавита, при котором часто повторяющимся в тексте буквам
(т.е. буквам, имеющим наибольшую вероятность, такую, например, как Ра = =0,062; Рв = 0,038 ; Ре = 0,072 ; Рл = 0,035 ; Ро = 0,09 и др.) соответ­ствуют или меньшая трата энергии за счет уменьшения величины (амплитуды) сигналов или, увеличенная скорость передачи за счет сокращения числа знаков двоичного кода, соответствующего обозначению указанных букв.

Помимо учета реальных вероятностей букв, для уменьшения избыточности сообщений следует учитывать также вероятности их сочетаний (например, высокую вероятность появления буквы Я после переданного сочетания ТЬС , малую вероятность появления согласной буквы после передачи следующих друг за другом трех согласных букв и т.п.).

Таблица 1

Способ формирования «фраз»

№№ пп

"Фразы", полученные на основе статистических

свойств русского языка

Статистические характеристики фраз

 

Нr (бит)

D Is (бит )

При равной вероятности всех букв

 

1

СУХРРОБЬТ ЯИХВЩИЮАЙЖТЛ-ФВНЗАГФОЕВШТТЦРПХГРКУ -ЧЖОРЯПЧЬКЙХРЫС

5,0

0,0

При учете реальных вероятностей :

отдельных букв 3-х - буквенных сочетаний

Страницы: 1, 2, 3, 4, 5, 6, 7, 8



Реклама
В соцсетях
рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать рефераты скачать