Information Theory For Source Compression

用 Fake coin hypothesis 思考 information theory 如何使用非 constructive method to prove things.

Major Reference

book.pdf (inference.org.uk) from MacKay 是經典 information theory textbook.

(1) High Probability Set vs Typical Set - YouTube

Information Theory Application

Shannon 的信息論 (Information Theory) 包含兩個部分:

Information	Source	Noisy Channel
Application	Compression	Communication
Source/Channel Capacity	Source entropy: $H(X)$	Max source/receiver mutual-info: $\max I(X;Y)$
Shannon Theory	Source Coding Theorem	Channel Coding Theorem

本文聚焦在 source code 也就是 data compression 部分。下文討論 noisy channel communication.

Source Compression

直觀壓縮

Symbol (Lossless) Compression

最常見且容易理解的是 variable length symbol encoding, 例如以下 6-symbol 理論上需要 3-bit ($2^3 = 8 > 6$) to encode.

如果 symbols 出現的頻率不同，可以根據出現的頻率 (機率) encode, 如下圖。例如 “a” 最常出現，直接 encode 為 “0”, 只要 1-bit. “b,r,d” encode 成 3-bit. 最少出現的 encode 成 4-bit. 假設 “a” 的機率是 0.5, “b,r,d” 是 “0.125”， “r,!” 是 0.0625.

如此平均的長度是: $0.5 \times 1 + 3 \times 0.125 \times 3 + 2 \times 0.0625 \times 4= 2.125$ bits. 壓縮率為 2.125/3 = 71%, 也就是省了 30%.

注意此處假設不用 start-bit indictor, 而是 first match, 例如 01101100111010101011 = 0’110’110’0’111’0’1010’1011=arraba!c
沒有 start-bit indictor 要確定 code 不會有 ambiguity. 一般壓縮還是會加上一些 check bit 避免 error propagation.
如果每個 symbol 出現的頻率都一樣，顯然這樣的壓縮無效，反而多此一舉。存在其他壓縮的方法嗎？如何證明沒有更好的壓縮？

Shannon 定義 information 的度量 (self)-entropy: $H(X) = - \sum_i p_i \log_2 p_i$

Shannon 天才之處是看到 information entropy 和壓縮的關係。例如我們可以計算 6-symbol 的 entropy.

$H(X) = - (0.5 \log_2 0.5 + 3 \times 0.125 \log_2 0.125 + 2 \times 0.0625 \log_2 0.0625) = 2.125$ bits

這是巧合? 顯然不是。我們再看一個例子。

Ensemble Compression

如果一個 binary coin with biased probability p. 例如 p = 0.02. 如何壓縮？另外 entropy $H_2(0.02) = 0.141$-bit, 如何連結？

這是 binary outcome $\mathcal{A}_X$ = {H:0, T:1}, 不像剛才的 6-symbol case, 至少要 1-bit to encode H or T. 似乎無法直接壓縮 1-bit, 如何解決？

一個聰明的想法是集合 N-bits 再壓縮, i.e. ensemble compression。

$\mathcal{A}_X^N = {HH..H, HH..T, …}$ 共有 $2^N$ sequences. 每一個 sequence 的長度是 N.

假設 p 很小，很大的機率會出現 HHHH..HTHHHHTH .. 可以出現連續 H 時，只要用數字代表，不需要真的存所有的 H. 例如 10H, instead of HHHHHHHHHH (10-bit), 只要存 10H (4+1=5 bit, 1 是 indicting start bit). 但是因爲出現 T 的機率很小 (p=0.02), 就直接存 T.

例: THHHHHHHHHHTHHHHHTHHHHHHHHHT = ‘T’HHHHHHHHHH’T’HHHHH’T’HHHHHHHHH’T = “1”0“1010”1”0”0101”1”0“1001”1”

T 直接用 1 代表, 如果有連續的 1，直接用 11…1。如果 $p$ 很小，連續 1 的機會非常小。
H 用 leading 0 加上 4-bit encode 連續的 0. 因此最多 encode 15 個連續的 0. 如果超過 15 個連續的 0, 可以用特別的 code 暗示, 例如 0000 代表。所以 18 個連續的 0, 可以用 “0”0000”0010” encode. 第一個 0 代表一個或連續的 0 開始，0000 代表超過 16 個 0，接下的 0010 代表 2 個連續的 0. 所以共有 16+2=18 個連續 0.
可以用比 4-bit 更多 bit encode 連續 0 嗎？Yes, 但顯然和連續 0 長度發生的機率有關。$p$ 越小，發生長連續 0 的機會越大，用更多的 bits encode 連續 0 會得到更好的壓縮率。不然增加連續 0 encode bits 反而是 overhead. 所以對於每一個 $p$ 應該都有最佳的 bits to encode 連續 0.
考慮 ensemble length N = 100 and $p=0.02$. 連續 0 出現 sequence 的機率如下：
- sequence with no 1, 100 連續 0: $(1-p)^{100} = 0.1326$ (most probable)
- sequence with a single 1, 視為 2 段連續 0: $(1-p)^{99} p = 0.0027$ x 100 sequences = 0.27
- sequence with a two 1’s, 視為 3 段連續 0: $(1-p)^{98} p^2 = 5.25\times 10^{-5}$ x 4950 sequences = 0.2734 (most typical)
- sequence with a three 1’s, 視為 4 段連續 0: $(1-p)^{97} p^3 = 1.12\times 10^{-6}$ x 161700 sequences = 0.1823
- sequence with a four 1’s, 視為 5 段連續 0: $(1-p)^{96} p^4 = 2.3\times 10^{-8}$ x 3.9M sequences = 0.09
- Other: 小於 5% 機率。
因為連續 0 的長度可以到 100, 我們用 7-bit encode 連續 0 (最多 127 個)
N= 100 ensemble 用以上方法壓縮的初估平均長度：0.1326 * 1 * (1+7) + 0.27 * 2 * (1+7) + 0.2734 * 3 * (1+7) + 0.1823 * 4 * (1+7) + 0.09 * 5 * (1+7) = 21.376 bits, 顯然比不壓縮的 100-bit 好不少。此處 *1 *2 *3 代表有 1 代表 encode 1,2,3 段連續 0, etc.
圖像其實使用類似的 compression 方法，因為同一區塊常常有同樣的顏色。
如果 $p$ 很大，顯然這種壓縮無效，反而增加 overhead.
有更好的壓縮方法嗎？21.376-bits 除以 100 -> 平均 0.214 bits, 比 H(0.02) = 0.141-bit 大。

Question

有更好的方法? 例如用 1000-bit?
What is the fundamental limitation or bound?

Ensemble Compression on Typical Set

Shannon 天才之處在於他看出

N 很大時，只需要 encode typical set sequences！因為非 typical set sequences 發生機率是任意小。
- 這是大數法則，重要性常常被忽略！
- 如果直接忽略其他 sequences，就是 lossy encode/compression
- 如果不忽略，還是可以 encode 這些 sequences 用比較長的 bits (如例一的 “c” or “!”) encode. 因為非 typical set 出現機率很小，增加的 content 非常有限。
Typical set 的 number of sequence $ \to 2^{n H(X)}$ 當 $n \to \infty$ (見 Appendix)
因為只需要 encode $2^{n H(X)}$ sequences, 如果 $2^{nH(X)} \ll 2^n \to H(X) \ll 1$ 可以達到壓縮的效果。
- $H(X)$ 愈小，Information 愈少，代表 redundancy 愈多，壓縮率愈大。
- $H(X) = 1$ for binary outcomes or $H(X) = log_2 S$ for S outcomes, 代表uniform random sequences 無法壓縮。

Typical Set Vs. N

再看一個 P(H) = 0.2, P(T) = 0.8 的例子。

N=5:

Most probable: P(TTTTT) = 0.32768 (32.768%), 但是只有 C(5,0) = 1 case.
Most typical: P(HTTTT) = 0.08192, 但是有 C(5,1) = 5 cases, 所以 total probability = 0.4096 (40.96%). 比 1 的機率更大。
P(HHTTT) = 0.02048, 共有 C(5,2) = 10 cases, total probability = 0.2048 (20.48%). 排名第三。
P(HHHTT) = 0.00512, 共有 C(5,3) = 10 cases, total probability = 0.0512 (5.12%)
P(HHHHT) = 0.00128, total probability = 0.00128 x C(5,4) = 0.0064 (0.64%)
P(HHHHH) = 0.00032 (0.032%), C(5,5)=1

推廣到 N = 10 和 N = 100 如下圖右一和右二。基本上以 fraction of tails = 0.8 (對應 P(T) = 0.8 ) 爲中心，在 N=100 大約 +/-10% (0.7-0.9) 範圍内的機率接近 98%, 其他可能出現的機率可以忽略不計，這就是 typical set 的概念。

幾個問題: (i) 到底 +/- 多少範圍之外機率可以忽略不計? (ii) 這和 biased coin 的 entropy 有什麽關係? (iii) 到底有多少 sequences 是 typical set? (iv) 如何做 compression?
第一個問題：如果我們從 N=5,10,100, 可以推論這個範圍是和 N 大小有關。 N 愈大，這個範圍就越集中在 0.8 附近。如果 N 非常非常大，我們甚至可以視爲就是在 0.8 占據了所有的機率分佈。下圖把 N = 5,10,100,1000 畫在一起，同時把機率乘上 $\sqrt{N}$ 同normlize peaks to 1 方便比較。可以看到的確如此。其實這就是有名的 ”Law of Large Numbers” 大數法則。當 $N$ 夠大，只有在 0.8 附近才有可能找到 sequences.

第二個問題：這裏 0.8 非常直觀，就是 P(T)=0.8. 但是對於比較複雜 case, 例如 multiple symbol (6 個或是 26 字母) 就沒有這麽直觀。所以我們還是要用數學。因爲 $H(X) = -0.2 \log_2 0.2 - 0.8 \log_2 0.8 = 0.722$-bit. 如果 N 是 i.i.d.

第三個問題：$2^n$ 中的 $2^ {nH(X)}$ 比例。H(0.2) = 0.722-bit, 雖然 sequence 隨著 N 變大變多，但是 ratio 卻是變少

	all sequence	typical set (> 9x%)	Percentage
N=5	32	12	0.38
N=10	1024	149	0.16
N=100	$1.3\times10^{30}$	$5.4\times10^{21}$	$4.2\times10^{-9}$
N=1000	$10^{301}$	$2.2\times10^{217}$	$2.2\times10^{-84}$

	all sequence (2^N)	typical set C(n,k), k/n=0.2	typical set percentage
N=5	32	C(5,1) = 5	0.38
N=10	1024	C(10,2) = 90	0.16
N=100	$1.3\times10^{30}$	C(100,20)	$4.2\times10^{-9}$
N=1000	$10^{301}$	C(1000,200)	$2.2\times10^{-84}$

寫成數學模式：我們從 Law of Large Numbers 出發

Recap Stirling’s approximation of C(N, m)

Shannon Source Coding 理論

核心在於 AEP (Asymptotic Equipartition Principle).

Typical Set and AEP Principle

Typical set $A^n_{\varepsilon}$ 的定義如下： $A^n_{\varepsilon}=\left\{\left(x_1, \cdots, x_n\right):\left|-\frac{1}{n} \log p\left(x_1, \cdots, x_n\right)-H(X)\right|<\varepsilon\right\} .$

AEP 的 typical set 有 $

\mathcal{A}^n

= 2^{n H(X)}$ sequences. 每一 sequence 都是 equal probability, i.e. $2^{-n H(x)}$. 檢查一些特例:

$p(H) = 0 \text{ (or 1) } \to H(X) = 0, \, nH(X) = 0$. 所以 $p(HHH…H)=1 \text{ or } p(TT…T)=1$, 其他 $2^n -1$ sequences 機率都是 0. 因此 AEP 只有一條 sequence, $

\mathcal{A}^n

= 2^{n H(x)} = 1$.

$p(H) = 0.5 \to H(X) = 1,\, nH(X) = n$. 所有 $2^n$ sequences 機率都是 $2^{-n}$. $

\mathcal{A}^n

= 2^{n H(x)} = 2^n$.

AEP 所佔的機率，當 $n\to \infty$ P(AEP) $\to$ 1.
AEP 的觀念是從統計力學而來，在熱平衡態，每一個分子的平均能量都是 $\frac{3}{2} kT$.

AEP 如何用於壓縮?

以下是“思想實驗”，並非真正的實踐方式。這也是 Shannon source coding and channel coding 被稱爲 non-constructive theory, 沒有提供可以實踐的方式。這不是壞事，至少培養了幾十萬個 PhD 以及十萬或百萬的 papers.

原始 sequences 共有 $2^n$, 除非 {H,T} 數目一樣，彼此的機率不相同。但可以應用 AEP 的結論，只需要 encode 其中 $2^{n H(X)}$ sequence. 其他 {$2^n - 2^{n H(X)}$} sequences 可以直接忽略，因爲發生的機率可以忽略不計。
- 如果不想忽略其他 sequences, 也可以 encode 成 n-bit sequence, 因為所佔的比例非常小，對於壓縮比例影響不太。
我們可以事先做一個 codebook 給 encoder 和 decoder, 如何 index 這 $2^{n H(X)}$ sequences.
因此只需要存或傳 indexes 就可以達到壓縮的目的！只要 $\log_2 2^{nH(X)} = n H(X)$ bits! 不需要 n bits.

Typical Set Definition

Typical set $A_n^{\varepsilon}$ 的定義如下： $A_n^{\varepsilon}=\left\{\left(x_1, \cdots, x_n\right):\left|-\frac{1}{n} \log p\left(x_1, \cdots, x_n\right)-H(X)\right|<\varepsilon\right\} .$ The Asymptotic Equipartition Property (AEP) shows that for large enough $n$, the probability that a sequence generate by the source lies in the typical set, $A_n^{\varepsilon}$, as defined approaches one. In particular, for sufficiently large $n$, $P\left(\left(X_1, X_2, \cdots, X_n\right) \in A_n^{\varepsilon}\right)$ can be made arbitrarily close to 1 , and specifically, greater than $1-\varepsilon$ (See AEP for proof). The definition of typical sets implies that those sequences that lie in the typical set satisfy: $2^{-n(H(X)+\varepsilon)} \leq p\left(x_1, \cdots, x_n\right) \leq 2^{-n(H(X)-\varepsilon)}$ Note that:

The probability of a sequence $\left(X_1, X_2, \cdots X_n\right)$ being drawn from $A_n^{\varepsilon}$ is greater than $1-\varepsilon$.

$\left

A_n^{\varepsilon}\right

\leq 2^{n(H(X)+\varepsilon)}$, which follows from the left hand side (lower bound) for $p\left(x_1, x_2, \cdots x_n\right)$.

$\left	A_n^{\varepsilon}\right	\geq(1-\varepsilon) 2^{n(H(X)-\varepsilon)}$, which follows from upper bound for $p\left(x_1, x_2, \cdots x_n\right)$ and the lower bound on the total probability of the whole set $A_n^{\varepsilon}$.
Since $\left	A_n^{\varepsilon}\right	\leq 2^{n(H(X)+\varepsilon)}, n(H(X)+\varepsilon)$ bits are enough to point to any string in this set.

In the last three chapters on data compression we concentrated on random vectors x coming from an extremely simple probability distribution, namely the separable distribution in which each component xn is independent of the others.

Step 1: lossy compression with fixed length

use fixed length n, of 1 word, total words K < 2^n. compute Hx, n > Hx 因爲 fixed length n 一定有 redundancy.
use group of N: with compression: total length = N x n.
With lossy compression, N x Hx.
Assuming binary with p = 0.5. Hx = 1 bit. N x 1bit = N bit, 也沒有 compression value.
Assuming binary with p = 0.1, Hx = 0.47bit. N x 0.47bit = 0.47N bit. 比起 N-bit compress 50%!
如果 lossy compression with fixed length n, 在小於 N x Hx 一定無法 recover. 但是大於 N x Hx 可以忽略 lossy part with any error (to be proved).

Step 2: lossless compression with variable length

1 word use variable length of Hx already!
N words. 當然也是 N x Hx.

Lossless coding example:

Huffman coding

Lempel-Ziv coding

Appendix

A: Stirling’s approximation and C(N, m)

從 Poisson distribution with mean $\lambda$ 開始：

$P(r \mid \lambda)=e^{-\lambda} \frac{\lambda^r}{r !} \quad r \in\{0,1,2, \ldots\}$ For large $\lambda$, this distribution is well approximated - at least in the vicinity of $r \simeq \lambda$ - by a Gaussian distribution with mean $\lambda$ and variance $\lambda$ : $e^{-\lambda} \frac{\lambda^r}{r !} \simeq \frac{1}{\sqrt{2 \pi \lambda}} e^{-\frac{(r-\lambda)^2}{2 \lambda}} .$ Let’s plug $r=\lambda$ into this formula, then rearrange it. $\begin{aligned} e^{-\lambda} \frac{\lambda^\lambda}{\lambda !} & \simeq \frac{1}{\sqrt{2 \pi \lambda}} \\ \Rightarrow \lambda ! & \simeq \lambda^\lambda e^{-\lambda} \sqrt{2 \pi \lambda} \end{aligned}$ This is Stirling’s approximation for the factorial function. $x ! \simeq x^x e^{-x} \sqrt{2 \pi x} \Leftrightarrow \ln x ! \simeq x \ln x-x+\frac{1}{2} \ln 2 \pi x .$ We have derived not only the leading order behavior, $x ! \simeq x^x e^{-x}$, but also, at no cost, the next-order correction term $\sqrt{2 \pi x}$. We now apply Stirling’s approximation to $\ln C(n,k)$ : $\ln C(n,k) = \ln \frac{n !}{(n-k) ! k !} \simeq(n-k) \ln \frac{n}{n-k}+ k \ln \frac{n}{k} .$ Since all the terms in this equation are logarithms, this result can be rewritten in any base. We will denote natural logarithms $\left(\log _e\right)$ by ‘ln’, and logarithms to base $2\left(\log _2\right)$ by ‘ $\log$ ‘. If we introduce the binary entropy function, $H_2(x) \equiv x \log_2 \frac{1}{x}+(1-x) \log_2 \frac{1}{(1-x)},$

then we can rewrite the approximation as $\log_2 C(n, k) \simeq n H_2(k / n),$ or, equivalently, $C(n, k) \simeq 2^{n H_2(k/n)} .$ If we need a more accurate approximation, we can include terms of the next order from Stirling’s approximation: $\log_2 C(n,k) \simeq n H_2\left(\frac{k}{n}\right)-\frac{1}{2} \log_2 \left[2 \pi n \frac{n-k}{n} \frac{k}{n}\right] .$

B: Typical Set and AEP Principle

以上 n repeated coin with k heads: $C(n,k)$ 只有考慮 sequences, 如果再加上 probability

$p(H=k,T=n-k) = C(n, k) p^k (1-p)^{n-k}$

$ \log_2 p(H=k,T=n-k) = \log_2 C(n,k) + k \log_2 p + (n-k) \log_2 (1-p) = \log_2 C(n,k) + n { \frac{k}{n} \log_2 p + (1-\frac{k}{n}) \log_2 (1-p) }$

$= \log_2 C(n,k) - n H_2(\frac{k}{n}, p)$ 第二項是 cross-entropy

$\approx n H_2(\frac{k}{n}) - n H_2(\frac{k}{n}, p)$

$= -n \, KL(\frac{k}{n}| p) \le 0$ KL 是 KL divergence, always 大於等於 0。負的 KL divergence 自然小於等於 0.

等號成立條件 $\frac{k}{n} = p$ , 即是 $k = np$. 其實就是大數法則。

當 $n$ 夠大，除了 $k = np$ 的 $\log_2 p(H=np,T=n(1-p)) = 0 \to p(H=np,T=n(1-p)) = 1$. 其他所有的 sequences $\log_2 p(H=k,T=n-k) \to -\infty$, 也就是 $p(H=k, T=n-k) \to 0$.

$p(H=k,T=n-k)$ 對應的 number of sequence 就是 $C(n,k) \approx 2^{n H_2(k/n)} = 2^{n H_2(p)}$. 另外每一條 sequence 都是 equal probability! 這就是 AEP principle.

另一個 AEP principle 的表示法：

C: Stirling’s approximation of multi-values

以上 A and B 是 binary results, e.g. X = {H, T}, repeat n 次的結果，可以推廣到 multi-values. 先簡化成 3 個 results, e.g. X = {R, G, B}, repeat n 次的結果。四個五個或是多個 results 可以類推，不再贅述。

$p(k, m, n) = \frac{n!}{k! l! m!} p^k q^l s^m$ 此處 $k+l+m=n$ 以及 $p+q+s=1$

同樣利用 $x! \simeq x^x e^{-x}$

$ \log_2 p(R=k,G=l,B=m) \simeq n \log_2 n - k \log_2 k - l \log_2 l - m \log_2 m + k \log_2 p + l \log_2 q + m \log_2 s $

$= (k+l+m) \log_2 n - k \log_2 k - l \log_2 l - m \log_2 m + k \log_2 p + l \log_2 q + m \log_2 s $

$ = k \log_2 \frac{n}{k} + l \log_2 \frac{n}{l} + m \log_2 \frac{n}{m} + k \log_2 p + l \log_2 q + m \log_2 s $

$ = n (\frac{k}{n} \log_2 \frac{n}{k} + \frac{l}{n} \log_2 \frac{n}{l} + \frac{m}{n} \log_2 \frac{n}{m} + \frac{k}{n} \log_2 p + \frac{l}{n} \log_2 q + \frac{m}{n} \log_2 s) $

$= n H([\frac{k}{n}, \frac{l}{n}, \frac{m}{n}]) - n H([\frac{k}{n}, \frac{l}{n}, \frac{m}{n}], [p,q,s]) $

$ = -n \, KL([\frac{k}{n}, \frac{l}{n}, \frac{m}{n}] | [p,q,s]) \le 0$ 等號成立條件 $[\frac{k}{n},\frac{l}{n}, \frac{m}{n}] = [p, q, s]$.

當 $n$ 夠大，除了 $[\frac{k}{n},\frac{l}{n}, \frac{m}{n}] = [p, q, s]$ 的 $\log_2 p(R=np,G=nq,B=ns) = 0 \to p(R=np,G=nq,B=ns) = 1$. 其他所有的 sequences $\log_2 p(R=k,G=l,B=m) \to -\infty$, 也就是 $p(R=k,B=l,G=m) \to 0$.

$p(R=np, G=nq, B=ns)$ 對應的 number of sequence 就是 $\approx 2^{n H(X)}$. 每一條 sequence 都是 equal probability! 這是推廣的 AEP principle. 對於 general multi-values case 皆為真。

D: N Repeated Coin Distribution Vs. Binomial Distribution, Probability and Entropy

我常常會混淆 N repeated biased coin distribution vs. binomial distribution.

N repeated biased coin distribution

Let $X_1, X_2,\cdots, X_n$, 是 repeated i.i.d. of biased coin with HEAD probability $P(X=\text{H}) = p$; $P(X=\text{T}) = q = 1-p$.

$\mathcal{A}^n = { X_1, X_2,\cdots, X_n }$ , 一共有 $2^n$ samples (sequences).
Example sequence probability 如 $P({ H, H, \cdots, H, T})= p^{n-1} q = p^{n-1} (1-p)$.
$n H$ and $0 T$ 的 sequence 有 $C(n,0) = 1$ 條
$(n-1) H$ and $1T$ 的 sequences 有 $C(n,1) = n$ 條
$(n-2) H$ and $2T$ 的 sequences 有 $C(n,2) = n (n-1) / 2$ 條
$(p + q)^n = 1^n = C(n,0) p^n + C(n,1) p^{n-1} q + \cdots + C(n,k) p^{n-k} q^k + \cdots+ C(n,n) q^n = 1$
所以 $k H$ and $(n-k) T$ 的 sequences 機率: $C(n,k) p^{n-k} q^k$, 同時 $\sum_{k=0}^{n} C(n,k) p^{n-k} q^k = 1$.
Entropy of 1 biased coin: $H(\text{1 biased coin}) = H_2(p) = - p \log_2 (p) - q \log_2(q) = - p \log_2 (p) - (1-p) \log_2(1-p)$
- $H_2 (0) = H_2 (1) = 0$; $H_2 (0.5) = 1$ (bit)
Entropy: $H(\text{n biased coin}) = - \sum C(n,k) p^{n-k} q^k \log_2 (p^{n-k} q^k)$. 不過因爲每一次 biased coin 是 i.i.d. Entropy 可以直接相加！
Entropy: $H(\text{n biased coin}) = n H_2(p) = - np \log_2 (p) - nq \log_2(q) = - np \log_2 (p) - n(1-p) \log_2(1-p)$

Binomial Distribution

我們稍微修正 $H = 1$ and $T = 0$

$P(X=1) = P(X=\text{H}) = p$; $P(X=0) = P(X=\text{T}) = q = 1-p$.

另外定義 $S_n = X_1 + X_2 + \cdots + X_n$

$S_n$ 一共有 $n+1$ samples. $S \in [0,n]$.
$P(S_n =0) = C(n,0) p^n = p^n$
$P(S_n =1) = C(n,1) p^{n-1}q = n p^{n-1}q$
$P(S_n =2) = C(n,2) p^{n-2} q^2 = \frac{n(n-1)}{2} p^{n-2}q^2$
$P(S_n =k) = C(n, k) p^{n-k} q^k$. $\sum_{k=0}^n P(S_n =k) = C(n,k) p^{n-k} q^k = 1$. 這個部分和 N repeated biased coin 數學形式完全一樣。
注意: Binomial 和 N repeated coin 不同點是在 Entropy!
- $n = 1$, Entropy: $H(S_1) = H_2(p) = - p \log_2 (p) - q \log_2(q) = - p \log_2 (p) - (1-p) \log_2(1-p)$
- In general, Entropy: $H(S_n) = - \sum_{k=0}^n C(n,k) p^{n-k} q^k \log_2 ( C(n,k) p^{n-k} q^k)$.
- 注意多了一個 $C(n,k)$ factor 在 entropy 中！所以 binomial distribution entropy 和 N repeated coin entropy 不同！
- 因爲 $H(S_2) \ne 2 H_2(p)$ 事實上因爲有 dependency 關係，$H(S_2) < 2 H_2(p)$. In general $n H_2(p) > H(S_n)$ when $n > 1$!
- 上述不等式，直覺 make sense, 因為 N repeated coin 包含的 information (entropy) 比起只有多少 H 更多。

Major Reference

Information Theory Application

Source Compression

直觀壓縮

Symbol (Lossless) Compression

Ensemble Compression

Question

Ensemble Compression on Typical Set

Typical Set Vs. N

Shannon Source Coding 理論

Typical Set and AEP Principle

AEP 如何用於壓縮?

Typical Set Definition

Appendix

A: Stirling’s approximation and C(N, m)

B: Typical Set and AEP Principle

C: Stirling’s approximation of multi-values

D: N Repeated Coin Distribution Vs. Binomial Distribution, Probability and Entropy

N repeated biased coin distribution

Binomial Distribution

Citation