Энтропия с точки зрения теории информации. F. Теория информации

Для Windows Phone 13.05.2019
Для Windows Phone

Энтропия источника сообщений

Для большинства реальных источников сообщения имеют разные вероятности. Например, в тексте буквы А, О, Е встречаются сравнительно часто, а Щ, Ы – редко. Согласно экспериментальным данным, для букв русского алфавита характерны безусловные вероятности, сведенные в табл. 4.1.

Таблица 4.1 Безусловные вероятности букв русского алфавита

вероятность

вероятность

вероятность

При разных вероятностях сообщения несут различное количество информации . При решении большинства практических задач необходимо знать среднее количество информации, приходящееся на один элемент сообщения. Это среднее количество информации при общем числе элементов сообщения источника n и числе символов алфавита m равно:

(бит/сообщение).

Величину называют энтропией источника сообщений. Термин «энтропия» заимствован из термодинамики, где она характеризует среднюю неопределенность состояния системы молекул вещества. В теории информации этот термин введен в 1948 г. американским ученым К. Шенноном и далее более строго определен советскими математиками А.Я. Хинчиным и А.Н. Колмогоровым . Физически энтропия выражает среднюю неопределенность состояния источника сообщений и является объективной информационной характеристикой источника. Энтропия всегда положительна и принимает максимальное значение при равновероятных сообщениях :

.

Минимальное значение энтропии соответствует случаю, когда одна из вероятностей , а остальные равны нулю, т.е. имеется полная определенность.

Для источника с зависимыми сообщениями энтропия тоже вычисляется как математическое ожидание количества информации на один элемент этих сообщений. Следует заметить, что полученное в этом случае значение энтропии будет меньше, чем для источника независимых сообщений. Это следует из того, что при наличии зависимости сообщений неопределенность выбора уменьшается и, соответственно, уменьшается энтропия. Так, в тексте после сочетания "чт" вероятнее всего, что третьей буквой будет "о" и маловероятно появление в качестве третьей буквы "ж" или "ь". В среднем, сочетание "что" несет меньше информации, чем эти буквы в отдельности.

Наиболее широкое применение в дискретных системах передачи информации получили двоичные источники. Двоичные источники характеризуются передачей только двух возможных сообщений. Причем, если вероятность передачи одного из них , то вероятность передачи другого .

Определим энтропию двоичного источника. Из формулы (4.2) получим:

График зависимости (4.4) представлен на рис. 4.1. Как следует из графика, энтропия двоичного источника изменяется в пределах от нуля до единицы. Энтропия равна нулю, когда вероятность передачи одного из символов равна нулю или единице, т.е. передается только одно сообщение. Получение же одного единственно возможного сообщения никакой новой информации не дает. Энтропия двоичного источника будет максимальна, если существует наибольшая неопределенность, т.е. . При этом .

Избыточность источника сообщений

Избыточными в источнике являются сообщения, которые несут малое, иногда нулевое, количество информации. Наличие избыточности означает, что часть сообщений можно и не передавать по каналу связи, а восстановить на приеме по известным статистическим связям. Так и поступают при передаче телеграмм, исключая из текста союзы, предлоги, знаки препинания, поскольку они легко восстанавливаются по смыслу телеграммы на основании известных правил построения фраз.

Количественно избыточность оценивается коэффициентом избыточности:

,

где – энтропия источника; – максимальная энтропия источника с алфавитом из сообщений.

Избыточность при передаче сообщений имеет свои положительные и отрицательные стороны. Увеличение избыточности приводит к увеличению времени передачи сообщений, излишней загрузке каналов связи. За определенный промежуток времени по каналу передается меньшее количество информации, чем это возможно; поэтому одной из задач теории информации и техники кодирования является задача сокращения избыточности.

Однако при увеличении избыточности появляется возможность повышения помехоустойчивости передачи сообщений. Так, избыточность текста позволяет исправлять отдельные ошибки или восстанавливать пропущенные буквы или даже слова в телеграмме. У русского и всех европейских языков избыточность с учетом всех статистических зависимостей букв примерно одинакова . Она сформировалась в результате длительной, общественной практики на основе требований исправления искажения слов и фраз под воздействием различных мешающих факторов. Для систем связи устанавливается компромиссное значение избыточности, которое обеспечивает заданную скорость и надежность передачи сообщений.

Производительность источника сообщений

Для источников сообщений с фиксированной скоростью важным параметром является его производительность , определяемая выражением:

[бит/с],

где – интервал времени для передачи элементарного сообщения.

Физический смысл производительности – количество информации, выдаваемое источником в среднем за единицу времени (одну секунду) его непрерывной работы.

Как мы можем измерить информацию в событии? Сколько информации нам доставляет событие? Давайте ответим на эти вопросы с помощью примеров.

Пример F.1

Вообразите человека, сидящего в комнате. Глядя из окна, он может ясно видеть, что сияет солнце. Если в этот момент он получает сообщение (событие) от соседа, который говорит "Хороший день", это сообщение содержит какую-либо информацию? Конечно нет! Человек уже уверен, что это день и погода хорошая. Сообщение не уменьшает неопределенности его знаний.

Пример F.2

Вообразите, что человек купил лотерейный билет. Если друг звонит, чтобы сказать, что он выиграл первый приз, это сообщение (событие) содержит информацию? Конечно да! Сообщение содержит много информации, потому что вероятность выигрыша первого приза является очень маленькой. Приемник сообщения потрясен.

Вышеупомянутые два примера показывают, что есть отношения между полноценностью события и ожиданиями приемника. Если приемник удален от места события, когда событие случается, сообщение содержит много информации; иначе - это не так. Другими словами, информационное содержание сообщения обратно пропорционально связано с вероятностью возникновения этого сообщения. Если событие очень вероятно, оно не содержит никакой информации (Пример F.1); если оно является маловероятным, оно содержит много информации (Пример F.2).

F.2. Энтропия

Предположим, что S - распределение вероятностей конечного числа событий (См. "приложение D"). Энтропия или неопределенность в S может быть определена как:

где - возможный результат одного испытания. Обратите внимание, что, если. P (s) = 0 , то мы будем считать, что P(S) x равно 0 , чтобы избежать деления на 0.

Пример F.3

Предположим, что мы бросаем правильную монету. Результаты - "орел" и "решка", каждый с вероятностью 1/2, и это означает

H (S) = P(орел) x + P (решка) x H (S) = (1/2) x = 1 бит

Этот пример показывает, что результат бросания правильной монеты дает нам 1 бит информации (неопределенность). При каждом бросании мы не знаем, каков будет результат, поскольку две возможности одинаково вероятны.

Пример F.4

Предположим, что мы бросаем неправильную (поврежденную) монету. Результаты выпадения "орла" и "решки" следующие P ("орел") = 3/4 и P ("решка") = 1/4 . Это означает, что

H (S) = (3/4) x + (1/4) x = 0,8 бит

Этот пример показывает, что результат бросания неправильной монеты дает нам только 0,8 битов информации (неопределенность). Количество информации здесь меньше, чем количество информации в Примере F.3, потому что мы ожидаем получить "орлов" большее число раз, чем "решек".

Пример F.5

Теперь предположим, что мы бросаем полностью неправильную монету, в которой результат является всегда "орел", P ("орел") = 1 и P ("решка") = 0 . Энтропия в этом случае

H (S) = (1) x + (0) x = (1) x (0) + (0) = 0

В этом эксперименте нет никакой информации (неопределенности). Мы знаем, что результатом всегда будет "орел" ; энтропия - 0.

Максимальная энтропия

Может быть доказано, что для распределения вероятностей с n возможными результатами максимальная энтропия может быть достигнута, только если все вероятности равны (все результаты одинаково вероятны). В этом случае максимальная энтропия

H max = log 2 n бит

Другими словами, энтропия любого множества вероятностей имеет верхний предел , который определяется этой формулой.

Пример F.6

Предположим, что бросается шестигранная игральная кость. Энтропия испытания равна

Минимальная энтропия

Можно доказать, что для распределения вероятностей с n возможными результатами, получается минимальная энтропия тогда и только тогда, когда все время получается один из результатов. В этом случае минимальная энтропия

H min (S) = 0 битов

Другими словами, эта формула определяет нижний предел энтропии для любого набора вероятностей.

Энтропия любого набора вероятностей находится между 0 бит и log 2 n бит, где n - число возможных результатов .

Интерпретация энтропии

Энтропию можно воспринимать как число бит , которым можно представить каждый результат из множества вероятностей, в том случае, когда результаты одинаково вероятны. Например, когда возможное случайное распределение имеет восемь возможных результатов, каждый результат может быть представлен в виде трех бит (от 000 до 111 ). Когда мы получаем результат эксперимента, мы можем сказать, что получили 3 бита информации. Энтропия этого набора вероятностей - также 3 бита (ln 2 8 = 3 ).

Совместная энтропия

Когда мы имеем два набора распределения вероятностей, S 1 и S 2 , мы можем определить совместную энтропию H (S 1 , S 2) как

Условная энтропия

Мы часто должны знать неопределенность распределения вероятностей S 1 , при условии получения результата, который определяется неопределенностью распределения вероятности S 2 . Она называется условной энтропией H (S 1 | S 2) . Может быть доказано, что

H (S 1 | S 2) = H (S 1 , S 2) - H (S 2) бит

Другие соотношения

Приведем здесь без доказательства некоторые другие соотношения для энтропии:

  1. H (S 1 , S 2) = H (S2 | S 1) + H (S 1) = H (S 1 | S 2) + H (S2)
  2. H (S 1 , S 2) <= H (S 1) + H (S2)
  3. H (S 1 | S 2) <= H (S 1)
  4. H (S 1 , S2, S3) = H (S 1 | S2, S3) + H (S 1 , S3)

Второе и третье соотношения справедливы, если S 1 и S 2 статистически независимы.

Пример F.7

В криптографии, если P - распределение вероятностей исходного текста, C - распределение вероятностей зашифрованного текста и K - распределение вероятностей ключей, то H (K|C) может интерпретироваться как сложность атаки зашифрованного текста, в которой знание C может привести к знанию K .

Пример F.8

В криптографии, учитывая исходный текст и ключ, детерминированный алгоритм шифрования создает уникальный зашифрованный текст, что означает H (C | K, P) = 0 . Также учитывая зашифрованный текст и ключевой алгоритм дешифрования, создается уникальный исходный текст, что означает H (P | K, C) = 0 . Если дан зашифрованный текст и исходный текст, ключ также определяется уникально: H (K | P, C) = 0 .

Совершенная секретность

В криптографии, если P , K и C - пространства выборки вероятности исходного текста, зашифрованного текста и ключа соответственно, то мы имеем H (P|C) <=H (P) . Это может быть интерпретировано так: неопределенность P данного C меньше или равна неопределенности P . В большинстве криптографических систем, справедливо отношение H (P|C)< H (P) , что означает, что перехват зашифрованного текста уменьшает знание, которое требуется для того, чтобы найти исходный текст. Криптографическая система обеспечивает совершенную секретность , если соблюдается соотношение H (P|C)=H (P) , - это означает, что неопределенность исходного текста и данного зашифрованного текста - одна и та же неопределенность исходного текста. Другими словами, Ева не получает никакой информации, перехватив зашифрованный текст; она по-прежнему должна исследовать все возможные варианты.

Криптографическая система обеспечивает совершенную секретность, если H (P | C) = H (P) .

Пример F.9

В предыдущих лекциях мы утверждали, что одноразовый шифр блокнота обеспечивает совершенную секретность. Докажем этот факт, используя предыдущие соотношения энтропии. Предположим, что алфавит - только 0 и 1 . Если длина сообщения - L , может быть доказано, что ключ и зашифрованный текст состоят из 2 L символов, в которых каждый символ является одинаково вероятным. Следовательно, H (K) = H (C) = log 2 2 L = L . Используя отношения, полученные в примере F.8, и то, что H (P, K) = H (P) + H (K) , потому что P и K независимы, мы имеем

H (P, K, C) = H (C|P, K) + H (P, K) = H (P, K) = H (P) + H (K) H (P, K, C) = H (K|P, C) + H (P, C) = H (P, C) = H (P|C) + H (C)

Это означает, что H (P | C) = H (P)

Пример F.10

Шеннон показал, что в криптографической системе, если (1) ключи возникают с равной вероятностью и (2) для каждого исходного текста и каждого зашифрованного текста есть уникальный ключ, то криптографическая система обеспечивает совершенную секретность. Доказательство использует тот факт, что в этом случае распределения вероятностей ключей, исходного текста и зашифрованного текста имеют один и тот же размер.

F.3. Энтропия языка

Интересно связать концепцию энтропии с естественными языками, такими как английский язык. В этом разделе мы касаемся некоторых пунктов, связанных с энтропией языка.

Энтропия произвольного языка

Предположим, что язык использует N букв и все буквы имеют равную вероятность появления. Мы можем сказать, что энтропия этого языка - H L = log 2 N . Например, если мы используем двадцать шесть прописных букв (от A до Z), чтобы передать наше сообщение, то

6.2. Энтропия источника дискретных сообщений

Энтропия источника независимых сообщений. До сих пор определялось количество информации, содержащееся в отдельных сообщениях. Вместе с тем во многих случаях, когда требуется согласовать канал с источником сообщений, таких сведений оказывается недостаточно. Возникает потребность. в характеристиках, которые, бы позволяли оценивать информационные свойства источника сообщений в целом. Одной из важных характеристик такого рода является среднее количество информации, приходящееся на одно сообщение.

В простейшем случае, когда все сообщения равновероятны, количество информации в каждом из них одинаково и, как было показано выше, определяется выражением (6.3). При этом среднее количество информации равно log т. Следовательно, при равновероятных независимых сообщениях информационные свойства источника зависят только от числа сообщений в ансамбле т.

Однако в реальных условиях сообщения, как правило, имеют разную вероятность. Так, буквы алфавита О, Е, А встречаются в тексте сравнительно часто, а буквы Щ, Ы, Ъ - редко. Поэтому знание числа сообщений т в ансамбле является недостаточным, необходимо иметь сведения о вероятностях каждого сообщения: .

Так как вероятности сообщений неодинаковы, то они несут различное количество информации J (a )= - logP (a ). Менее вероятные сообщения несут большее количество информации и наоборот. Среднее количество информации, приходящееся на одно сообщение источника, определяется как математическое ожидание J (a ):

Величину Н(а) называется энтропией. Этот термин заимствован из термодинамики, где имеется аналогичное по своей форме выражение, характеризующее неопределенность состояния физической системы. В теории информации энтропия Н(а) также характеризует неопределенность ситуации до передачи сообщения, поскольку заранее неизвестно, какое из сообщений ансамбля источника будет передано. Чем больше энтропия, тем сильнее неопределенность и тем большую информацию в среднем несет одно сообщение источника.

В качестве примера вычислим энтропию источника сообщений, который характеризуется ансамблем, состоящим из двух сообщений и с вероятностями и . На основании (6.6) энтропия такого источника будет равна:

Рис. 6.1. Зависимость энтропии от вероятности р

Зависимость Н(а) от р показана на рис. 6.1. Максимум имеет место при р=1/2 , т. е. когда ситуация является наиболее неопределенной. При р=1 или р = 0 , что соответствует передаче одного из сообщений или , неопределенность отсутствует. В этих случаях энтропия Н(а) равна нулю.

Среднее количество информации, содержащееся в последовательности из п сообщений, равно:

Отсюда следует, что количество передаваемой информации можно увеличить не только за счет увеличения числа сообщений, но и путем повышения энтропии источника, т. е. информационной емкости его сообщений.

Обобщая полученные выше результаты, сформулируем следующие основные свойства энтропии источника независимых сообщений (6.6):

Энтропия- величина всегда положительная, так как

При равновероятных сообщениях, когда , энтропия максимальна и равна:

(6.7)

Энтропия равняется нулю лишь в том случае, когда все вероятности Р(a ) равны нулю, за исключением одной, величина которой,равна единице;

Энтропия нескольких независимых источников равна сумме энтропии этих источников .

Энтропия источника зависимых сообщений. Рассмотренные выше источники независимых дискретных сообщений являются простейшим типом источников. В реальных условиях картина значительно усложняется из-за наличия статистических связей между сообщениями. Примерам может быть обычный текст, где появление той или иной буквы зависит от предыдущих буквенных сочетаний. Так, например, после сочетания ЧТ вероятность следования гласных букв О, Е, И больше, чем согласных.

Статистическая связь ожидаемого сообщения с предыдущим сообщением количественно оценивается совместной вероятностью или условной вероятностью , которая выражает вероятность появления сообщения при условии, что до этого было передано сообщение а Количество информации, содержащееся в сообщении , при условии, что известно предыдущее сообщение а согласно (6.1) будет равно:. Среднее количество информации при этом определяется условной энтропией , которая вычисляется как математическое ожидание информации по всем возможным сообщениям а и . Учитывая соотношение (2.25), .получаем

В тех случаях, когда связь распространяется на три сообщения , условная энтропия источника определяется аналогичным соотношением

В общем случае n зависимых сообщений

Важным свойством условной энтропии источника зависимых сообщений является то, что при неизменном количестве сообщений в ансамбле источника его энтропия уменьшается с увеличением числа сообщений, между которыми существует статистическая взаимосвязь. В соответствии с этим свойством, а также свойством энтропии источника независимых сообщений можно записать неравенства

Таким образом, наличие статистических связей между сообщениями всегда приводит к уменьшению количества информации, приходящегося в среднем на одно сообщение.

Избыточность источника сообщений. Уменьшение энтропии источника с увеличением статистической взаимосвязи (6.11) можно рассматривать как снижение информационной емкости сообщений. Одно и то же сообщение при наличия взаимосвязи содержит в среднем меньше информации, чем при ее отсутствии. Иначе говоря, если источник создает последовательность сообщений, обладающих статистической связью, и характер этой связи известен, то часть сообщений, выдаваемая источником, является избыточной, так как она может быть восстановлена по известным статистическим связям. Появляется возможность передавать сообщения в сокращенном виде без потери информации, содержащейся в них. Например, при передаче телеграммы мы исключаем из текста союзы, предлоги, знаки препинания, так как они легко восстанавливаются, при чтении телеграммы на основании известных правил построения фраз и слов. и согласно (6.11) является неубывающей функцией п. Для русского языка, например, дв. ед., , , дв. ед. Отсюда на основании (6.12) для русского языка получаем избыточность порядка 50%.

Коэффициент

называется коэффициентом сжатия. Он показывает, до какой величины можно сжать передаваемые сообщения, если устремить избыточность. Источник, обладающий избыточностью, передает излишнее количество сообщений. Это увеличивает продолжительность передачи и снижает эффективность использования канала связи. Сжатие сообщений можно осуществить посредством соответствующего кодирования. Информацию необходимо передавать такими сообщениями, информационная емкость которых используется наиболее полно. Этому условию удовлетворяют равновероятна и независимые сообщения.

Вместе с тем избыточность источника не всегда является отрицательным свойством. Наличие взаимосвязи между буквами текста дает возможность восстанавливать его при искажении отдельных букв, т. е. использовать избыточность для повышения достоверности передачи информации.

Аннотация: Вводится понятие энтропии. На нескольких примерах показывается, как вычисляется энтропия дискретной случайной величины. Вводится понятие префиксного кодирования. Задачи на самостоятельную работу улучшают восприятие материала. Также много различных математических исследований

Энтропия д.с.в. - это минимум среднего количества бит , которое нужно передавать по каналу связи о текущем значении данной д.с.в.

Рассмотрим пример (скачки). В заезде участвуют 4 лошади с равными шансами на победу, т.е. вероятность победы каждой лошади равна 1/4. Введем д.с.в. , равную номеру победившей лошади. Здесь . После каждого заезда по каналам связи достаточно будет передавать два бита информации о номере победившей лошади. Кодируем номер лошади следующим образом: 1-00, 2-01, 3-10, 4-11. Если ввести функцию , которая возвращает длину сообщения, кодирующего заданное значение , то м. о. - это средняя длина сообщения, кодирующего . Можно формально определить через две функции , где каждому значению ставит в соответствие некоторый битовый код, причем, взаимно однозначно, а возвращает длину в битах для любого конкретного кода. В этом примере .

Пусть теперь д.с.в. имеет следующее распределение

Т.е. лошадь с номером 1 - это фаворит. Тогда

Закодируем номера лошадей: 1-0, 2-10, 3-110, 4-111, - т.е. так, чтобы каждый код не был префиксом другого кода (подобное кодирование называют префиксным ). В среднем в 16 заездах 1-я лошадь должна победить в 12 из них, 2-я - в 2-х, 3-я - в 1-м и 4-я - в 1-м. Таким образом, средняя длина сообщения о победителе равна бит /сим или м. о. . Действительно, сейчас задается следующим распределением вероятностей: , , . Следовательно,

Итак, .

Можно доказать, что более эффективного кодирования для двух рассмотренных случаев не существует.

То, что энтропия Шеннона соответствует интуитивному представлению о мере информации, может быть продемонстрировано в опыте по определению среднего времени психических реакций. Опыт заключается в том, что перед испытуемым человеком зажигается одна из лампочек, которую он должен указать. Проводится большая серия испытаний, в которых каждая лампочка зажигается с определенной вероятностью , где - это номер лампочки. Оказывается, среднее время, необходимое для правильного ответа испытуемого, пропорционально величине энтропии , а не числу лампочек , как можно было бы подумать. В этом опыте предполагается, что чем больше информации будет получено человеком, тем дольше будет время ее обработки и, соответственно, реакции на нее.

Упражнение 13 Найти энтропию д.с.в. и среднюю длину каждого из приведенных кодов для этой д.с.в.

Упражнение 14 д.с.в. равна количеству "гербов", выпавших на двух идеальных монетках. Найти энтропию . Придумать минимальный код для , вычислить его среднюю длину и обосновать его минимальность.

Упражнение 15 д.с.в. задана распределением , Найти энтропию этой д.с.в. Придумать минимальный код для , вычислить его среднюю длину и обосновать его минимальность.

Упражнение 16 Про д.с.в. известно, что ее значениями являются буквы кириллицы. Произведен ряд последовательных измерений , результат которых - "ТЕОРИЯИНФОРМАЦИИ". Составить на основании этого результата приблизительный закон распределения вероятностей этой д.с.в. и оценить минимальную среднюю длину кодов для .

Семантическая информация

В 50-х годах XX века появились первые попытки определения абсолютного информационного содержания предложений естественного языка. Стоит отметить, что сам Шеннон однажды заметил, что смысл сообщений не имеет никакого отношения к его теории информации, целиком построенной на положениях теории вероятностей. Но его способ точного измерения информации наводил на мысль о возможности существования способов точного измерения информации более общего вида, например, информации из предложений естественного языка. Примером одной из таких мер является функция , где - это предложение, смысловое содержание которого измеряется, -

Человечество в прошлом не испытывало потребностей в количественном измерении информации. Такая потребность возникла в связи с развитием средств коммуникаций, измерительной техники, компьютерных систем.

Первую количественную метрику предложил Хартли в 1928 году и назвал её информационной емкостью.

Рассмотрим некоторую ячейку из n реле. Считая, что каждое реле может хранить два состояния m = 2, вся ячейка может содержать N = 2 n состояний. Хартли ввел двоичную логарифмическую меру, позволяющую измерять информацию в двоичных единицах – битах. Один бит – это количество информации, которое может храниться в элементарной ячейке на два состояния: . В ячейке на состояний хранится . Основание логарифма определяет размерность единиц измерения информации. Поскольку используют двоичные единицы – биты, основание логарифма опускают. Двоичная единица информации «бит» произошла от «сжатия» английских слов binary digit – двоичная единица.

Такая мера является аддитивной , она позволяет осуществлятьсложение информации в разных ячейках при объединении их в одну.

Мера Хартли (структурная метрика информации) не отражала вероятностного характера информации и не могла быть использована для оценки информационных свойств источников сообщений. В 1948 году Шенноном была предложена статистическая, т.е. вероятностная мера.

Пусть дискретный источник выдает сообщение а , принадлежащее некоторому конечному ансамблю А (). Определим количество информации, содержащееся в этом сообщении, используя три исходных естественных (очевидных) требования:

1) количество информации должно быть аддитивной величиной, т. е. в двух независимых сообщениях количество информации определяется как сумма количеств информации в каждом из них;

2) количество информации в сообщении о достоверном событии равно 0;

3) количество информации не должно зависеть от качественного содержания сообщения (степени важности, возможных последствий его передачи, эмоциональной окраски и т. п.).

В общем случае сообщение а из ансамбля А характеризуется вероятностью , что источник формирует или посылает это сообщение, т. е. количество информации I (a ), содержащейся в сообщении а , должно быть функцией от вероятности .

,

где – вероятности формирования сообщения а 1 и а 2 соответственно.

Общее количество информации I (a 1 , а 2), содержащейся в этих двух сообщениях, согласно условию аддитивности определяется как сумма количеств информации в каждом из них:



Таким образом, надо найти функцию от вероятности такую, чтобы при перемножении двух аргументов значения функции складывались. Этому условию удовлетворяет только логарифмическая функция

,

где k – произвольный коэффициент.

Логарифм, вообще говоря, может быть взят по любому основанию. Эта формула может быть использована для определения количества информации, содержащейся в сообщении а i . Эта формула удовлетворяет и требованию 2): в случае достоверного события вероятность сообщения = 1. Тогда количество информации согласно полученной формуле:

Поскольку < 1, и следовательно, log ≤ 0, то, чтобы измерять количество информации неотрицательными числами, выбираем значение коэффициента k = –1:

.

Основание логарифма чаще всего в формуле для определения количества информации выбирают равным двум. Получаемая при этом единица информации носит название двоичная единица, или бит.

Такая единица наиболее удобна потому, что в современной вычислительной технике, технике связи широко используются двоичные коды, двоичные дискретные устройства.

Пусть дискретный источник сообщений вырабатывает полный ансамбль сообщений , где – вероятность -го сообщения. Этот источник может быть охарактеризован средним количеством информации, приходящимся на одно сообщение:

.

Эту величину Шеннон назвал энтропией источника . Понятие энтропии (от греческого «эн-тропе» – обращение) существовало и до Шеннона и распространилось на ряд областей знания. В термодинамике энтропия означает вероятность теплового состояния вещества, в математике – степень неопределенности ситуации или задачи, в информатике она характеризует способность источника отдавать информацию . Количество информации, которое переносится одним сообщением источника . Эта мера вытекает из меры Хартли: и является ее обобщением на случай неравновероятности сообщений. Видно, что чем меньше вероятность сообщения, тем большее количество информации оно несет. Мера Шеннона также аддитивна.

И количество информации I в сообщении и энтропия источника H измеряются в одних единицах – в битах, но эти величины различны. Энтропия H источника определяет способность источника производить информацию; при наличии достаточной статистики она может быть вычислена априори, до получения сообщений. Получение информации I снимает часть неопределенности источника, уменьшает его энтропию. Это уменьшение энтропии происходит после (апостериори) получения сообщения, т.е. I определяется апостериорно. Таким образом, количество информации может рассматриваться как противоположность энтропии , в этом проявляется диалектический закон единства и борьбы противоположностей.

Энтропия источника дискретных сообщений обладает следующими свойствами:

1. Энтропия положительна.

2. Энтропия детерминированных сообщений равна нулю. Если одно из сообщений источника достоверно, т.е. его вероятность равна 1, то вероятности других сообщений равны нулю.

3. Энтропия максимальна, если сообщения источника равновероятны.

.

4. В случае равновероятных сообщений энтропия возрастает с увеличением числа сообщений.

5. Энтропия источника бинарных (двоичных) сообщений изменяется от нуля до единицы в зависимости от вероятности сообщений и имеет максимум при . В этом случае мера Шеннона совпадает с мерой Хартли. Источник с энтропией в 1 бит полностью согласован с каналом, например, реле, имеющим информационную емкость в 1 бит. При неравновероятности сообщений канал будет недогружен. Зависимость энтропии от вероятности для бинарного источника иногда называют функцией Шеннона (рис. 40). При большом числе сообщений источника и при равновероятности сообщений они могут быть переданы с помощью равномерного двоичного кода. Так, восемь сообщений кодируются: 000, 001, 010, 011, 100, 101, 110, 111. Энтропия источника равна трем: это совпадает со средним числом символов на сообщение. Иногда используется понятие удельной энтропии , это – энтропия, приходящаяся на один символ. Данный источник имеет энтропию 3 бита на сообщение, можно также сказать, что его энтропия 1 бит/символ. Такая оценка удобна при сравнении различных источников.

Рассмотрим, как можно использовать введенные понятия при вскрытии неопределенности источника.

Пример 1. Пусть, надо отгадать задуманное число от 1 до 32, задавая источнику двоичные вопросы. Так как задуманное число с равной вероятностью может быть любым, энтропия источника Н = log 32 = 5 бит/число. Задаем первый вопрос: Число в нижней половине? Ответ: да. Количество полученной от источника информации I = 1 бит. Энтропия источника уменьшилась и стала Н = 4 бит/число. Задавая подобный вопрос еще раз и получая любой ответ, мы сужаем диапазон поиска вдвое и уменьшаем неопределенность источника на один бит. Таких вопросов и ответов будет ровно пять, после чего энтропия источника будет равна нулю.

Пример 2. Предположим, среди 25 монет одна фальшивая, более легкая. Какое минимальное число взвешиваний на рычажных весах необходимо сделать для нахождения фальшивой монеты?

Прежде всего определяем энтропию источника. Так как весы могут быть в трех состояниях, каждое взвешивание уменьшает энтропию источника на одну троичную единицу информации. Поэтому монеты следует разделить на три примерно равные кучки: 8, 8 и 9 монет. Положив на чашки весов одинаковое число монет 8 и 8, определяем, есть ли среди них фальшивая и, если есть, то в какой чашке. Предположим, что первая кучка легче второй. Значит, монета здесь. Эту кучку делим на три части 3, 3 и 2. Взвешиваем одинаковые части. Допустим, они равны. Значит, искомая монета находится среди двух оставшихся. При третьем взвешивании монета найдена.

Число характеризует число кодовых признаков, используемых при передаче сообщений. Это число определяет алфавит источника. При удельная энтропия источника возрастает. В принципе, такой источник более эффективен, он позволяет передавать больше информации в единицу времени. Так, если алфавит источника равен 32 буквам, то энтропия источника – 5 бит/букву; если в китайском языке используется около 2000 иероглифов, то энтропия такого источника – 11 бит/иероглиф, т.е. 11 бит/символ. Ясно, что использование большого алфавита приводит к техническим сложностям, отсюда, наибольшее распространение в технике получил двоичный алфавит с буквами или символами 0 и 1. Источник, работающий на таком алфавите, не может иметь энтропию больше 1 бит/символ.

Количество и качество информации помимо статистической теории могут характеризоваться также терминами структурной теории, рассматривающей строение массивов информации, а также семантической теории, учитывающей целесообразность, полезность и ценность информации.



Рекомендуем почитать

Наверх