summaryrefslogtreecommitdiff
path: root/sem5/information-theory/lectures/lecture7.tex
blob: 21c1f0063d0e56672b9edb1116aa4e09f22113fd (plain)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
% Лекция (21.11.21)
\section{Каналы передачи информации}
Классической теорией информации является теория Шеннона. В основе её лежит
понятие, что человек принимает информацию к сведению постоянно устраняя
некоторую неопределённость. То есть чем больше случайных событий, снимающих
неопределённость системы, тем больше информации они несут.

Дадим определение источника информации. Самым простым источником информации
является дискретный источник информации без памяти. Простейший дискретный
источник без памяти $X$ в каждый момент времени выдаёт некоторый символ $X_i$ из
конечного алфавита $X = \{x_1, x_2, \dots, x_n\}$ с вероятностью $P(x_i) = p_i$.
Как правило дискретные источники без памяти выбор символов производится
независимо друг от друга. Распределение информации при этом как правило
равномерное. В качестве примера можем привести источник без памяти двоичной
системы. $X = \{ x_1 = 0, x_2 = 1 \}$. Соответственно вероятность $0 \leq p_1
\leq 1$, $p_2 = 1 - p_1$. При этом в данном источнике выбор очередной цифры
будет производиться независимо от прежних последовательностей и схематически
данный источник можно изобразить следующим образом: **рисунок**.

Для определения количества информации такого источника используются следующие
три аксиомы.

\begin{axiom}
  Информация одиночного события $x_i \in X$ происходящего с вероятностью $p_i$
  имеет положительное значение.
\end{axiom}

\begin{axiom}
  Совместная информация двух независимых событий $x_i, x_j \in X$ с совместной
  вероятностью $P_{ij}$ равно сумме их информаций.
  \begin{equation*}
    P(x_i, x_j) = P_{ij} = P_i \cdot P_j, \, I(P_{ij}) = I(P_i) + I(P_j)
  \end{equation*}
\end{axiom}

\begin{axiom}
  Информация является непрерывной функцией от вероятности события.
\end{axiom}

Следует отметить, что акс 1 и 2 утверждают то, что информация нескольких событий
не может взаимно уничтожаться. Акс 2 вводит понятие совместной информации
событий. Аксиома 3 говорит о том, что небольшое изменение вероятности событий
приводит к небольшому изменению её информации. Аксиома 2 определяет информацию
двух независимых событий.

Согласно аксиоме 2 можно заключить, что информация события определяется
как логарифмическая функция её вероятности. Информация события происходящая
с вероятностью $P$ будет равна $I(P) = -\log(P)$. Причём основание логарифма
будет определять алфавит события и единицы измерения информации.

Наряду с двоичным логарифмом наиболее часто используют натуральный логарифм,
при этом единицы измерения называются ``наты''.

Исходя из аксиомы 3 можно заключить, что информация постоянно происходящего
события будет равна нулю. Соответственно информация для невозможного события
стремится к бесконечности.

\subsection{Энтропия и избыточность}

Рассмотрим источник события. Для его описания будем использовать информацию,
которую несут происходящие в нём события. По аналогии с термодинамикой
введём понятие \textbf{энтропии} как меры неопределённости.

\textbf{Энтропия} --- это функция, которая возрастает, когда неопределённость
системы возрастает. Неупорядоченность системы. Таким образом, используя
информацию отдельных событий в источнике выразим энтропию следующим образом.

Энтропия простейшего источник без памяти с алфавитом $X = \{ x_1, x_2, \dots,
x_n \}$ и  соответствующими вероятностями $P = \{ p_1, \dots, p_n \}$ будет
обозначаться 
\begin{equation*}
  H = \sum_{i}^n -P_i \log(P_i)
\end{equation*}

Предположим эргодичность источника (постоянство поведения). Будем рассматривать
эргодичность во времени. Если провести аналогию с теорией вероятности, то
процесс эргодичности предполагается когда мы бросаем кубик или монетку.
При этом с ростом числа испытаний среднее значение информации источника будет
вычисляться следующим образом:
\begin{equation*}
  \overline{I} = \lim_{N \to \infty} \frac{1}{N} \sum_{n = 0}^{N - 1} I(n)
\end{equation*}

Устремив данное выражение к математическому ожиданию мы получим, что данная
формула будет стремиться к формуле энтропии. Проводя аналогичные рассуждения
Шеннон положил в определение энтропии три следующих аксиомы:

\begin{axiom}
  Энтропия является непрерывной функцией вероятности. Для источников, в которых
  события равновероятны и вероятность каждого события равна единица делить на
  количество событий.
\end{axiom}

\begin{axiom}
  Энтропия будет возрастать с ростом числа событий.
\end{axiom}

\begin{axiom}
  Разложение процедуры выбора событий на несколько этапов не изменяет энтропию.
\end{axiom}

Определим максимальную энтропию источника. Для этого воспользуемся теоремой
Шеннона.

\begin{theorem}
  Энтропия простейшего дискретного источника без памяти максимальна, если все
  события в нём имеют одинаковую вероятность и в этом случае энтропия будет
  равна логарифму от числа событий. $H_0 = \log N$
\end{theorem}
\begin{proof}
  Пусть имеется два дискретных источника $P = \{ p_i \}$ и $Q = \{ q_i \}$
  каждый из которых генерирует свои события. Всего есть $N$ событий . Для
  доказательства теоремы нам понадобится верхняя оценка логарифмической функции:
  $\ln x \leq x - 1$ Используя оценку получаем, что
  \begin{equation*}
    \ln q_i - \ln p_i = \ln \frac{q_i}{p_i} \leq \frac{q_i}{p_i} - 1
  \end{equation*}

  Умножив обе части данного равенства на вероятность $p_i$ и просуммировав по
  всем событиям $N$ мы получим 
  \begin{equation*}
    \sum_{i = 1}^N p_i (\ln q_i - \ln p_i) \leq \sum_{i = 1}^N p_i(\frac{q_i}{p_i} - 1)
  \end{equation*}

  Получаем
  \begin{equation*}
    H(P) + \sum_{i = 1}^N p_i \ln q_i \leq \sum_{i = 1}^N q_i - \sum_{i = 1}^N p_i = 0
  \end{equation*}

  Таким образом, можем заключить, что энтропия равна
  \begin{equation*}
    H(P) \leq -\sum_{i = 1}^N p_i \ln q_i =
  \end{equation*}

  Если предположить, что источник $Q$ содержит только равновероятные события,
  то эта сумма будет равна
  \begin{equation*}
    = -\sum_{i = 1}^N p_i \ln \frac{1}{N} = \ln N \sum_{i = 1}^N p_i = \ln N
  \end{equation*}
  
  Таким образом при доказательстве на источник $P$ не накладывались никакие
  ограничения, то данное неравенство имеет место для любого дискретного
  источника без памяти, который содержит $N$ событий.

  Получаем \begin{equation*}
    H(x) \leq \log N
  \end{equation*}
\end{proof}

Соответственно максимум достигается тогда, когда имеются одинаковые события.

\begin{corollary}
  Любой источник, содержащий $N$ событий не все из которых имеют одинаковую
  вероятность обладает энтропией меньшей, чем $\log N$  
\end{corollary}

\begin{definition}
  Рассмотрим источник событий, который имеет ёмкость $H_0 = \log N$. ДАнный
  источник будет являться резервуаром, который никогда не переполняется
  и зависит только от количества событий.

  Пусть есть источник $X$ в котором не все события равновероятны, который также
  состоит из $N$ событий.

  Разность $R = H_0 - H(X)$ называется \textbf{избыточностью источника}.
\end{definition}

\begin{equation*}
  r = \frac{R}{H_0} = 1 - \frac{H(X)}{H_0}
\end{equation*}

\begin{definition}
  Введём понятие функции Шеннона. Пусть задан двоичный алфавит и есть
  источник событий. $P_0 = P$, $P_1 = 1 - P_0$. Выбор символа производится
  независимо, соответственно энтропия данного источника будет называться
  функцией Шеннона и будет зависеть только от вероятности $P$.  

  \begin{equation*}
    H(P) = -P \log P - (1 - P) \log(1 - P)
  \end{equation*}

  Функция Шеннона всегда положительна и симметрична относительно значения $0.5$.
  **рисунок**
\end{definition}

\subsection{Энтропия связанных источников. Понятие взаимной и условной информации.}

При аксиономическом ... . Рассмотрим это понятие более подробно. Пусть у нас
есть два источника: $X$ и $Y$. Пусть эти источники связаны между собой.
Результатом работы данных источников будет пара $(x_i, y_i)$.
Если два источника связаны между собой, то события одного источника будут
влиять на события другого источника. То есть по событиям источника $X$ мы
можем предсказать события источника $Y$, то есть в терминах теории информации,
можно определить, что из-за влияния источника $X$ снижается неопределённость
источника $Y$. $P(x_i, y_i) \neq P(x_i) + P(y_i)$

То есть данные источники обмениваются какой-то дополнительной информации. Для
определения данной информации введём понятие условной вероятности. Введём
совместную вероятность через их априорные условные вероятности.

\begin{equation*}
  P(x_i, y_i) = P(x_i / y_i) P(y_i) = P(y_i / x_i) P(x_i)
\end{equation*}

\begin{equation*}
  \log P(x_i, y_i) = \log P(x_i / y_i) + \log P(y_i) = \log P(x_i / y_i) + -I(y_i)
\end{equation*}

То есть
\begin{equation*}
  I(x_i, y_i) = I(y_i) - \log P(x_i / y_i) = I(x_i) - \log P(y_i / x_i)
\end{equation*}

Прибавляя и одновременно вычитая в первой части $I(x_i)$, а во второй части
$I(y_i)$ мы получим следующую формулу:
\begin{equation*}
  I(x_i, y_i) = I(x_i) + I(y_i) - \log \frac{P(x_i / y_i)}{P(x_i)} =
  I(x_i) + I(y_i) - \log \frac{P(y_i/x_y)}{P(y_i)}
\end{equation*}

Таким образом если источники связаны, то информация пары $(x_i, y_i)$
определяется суммой информаций этих событий за вычетом некоторой неотрицательной
величины, которая также снимает неопределённость и, следовательно, тоже является
информацией. Такую информацию называют взаимной информацией пары событий.
Обозначается 
\begin{equation*}
  I(x_i, y_i) = \log \frac{P(x_i/y_i)}{P(y_i)} = \log \frac{P(y_i/x_i)}{P(x_i)}
\end{equation*}

Следует отметить, что $I(x_i, y_i)$ всегда положительная и является симметричной
относительно источников. Симметричность относительно источников показывает,
что источники обмениваются взаимной информацией друг с другом, а не в
одностороннем порядке. Возможны два граничных случая:
\begin{enumerate}
  \item
    Источники независимы. Тогда совместная информация равна нулю (источники не
    обмениваются информацией).
  \item
    Источники жёстко связаны между собой. То есть события одного источника
    однозначно определяют события другого источника. То есть условная
    вероятность будет равна единице. В этом случае взаимная информация будет
    равна информации первого источника и также равна информации второго
    источника.
\end{enumerate}

Введём понятие условной информации. Условная информация будет называться 
информация $I(x_i / y_i) = -\log P(x_i / y_i)$. Тогда взаимная информация
через условную будет выражаться следующим образом:
\begin{equation*}
  I(x_i, y_i) = I(x_i) + I(y_i / x_i) = I(y_i) + I(x_i / y_i)
\end{equation*}

То есть информацию пары событий можно определить как сумму информаций событий
источника $Y$ и информации источника событий $X$ при условии, что события
$Y$ уже известно, или наоборот.