Rachunek prawdopodobieństwa 1, 2

11.3 Dowód centralnego twierdzenia granicznego

W oparciu o teorię funkcji charakterystycznych możemy podać dowód Centralnego Twierdzenia Granicznego. Najpierw udowodnimy twierdzenie Lindeberga-Lévy’ego, twierdzenie 9.1, a jak się okaże wynikają z niego twierdzenie 9.2 oraz twierdzenie 9.3.

Przypominamy, że: \(X_1,\,X_2,\, X_3,\dots \) jest ciągiem niezależnych zmiennych losowych określonych (i.i.d.) na przestrzeni probabilistycznej (Ω, Σ, P ) . Wszystkie zmienne losowe \(X_i\) mają taki sam rozkład, a ich wspólna nadzieja matematyczna \(m\) oraz wariancja \(\sigma ^2\) istnieją i są skończone, przy czym \(\sigma > 0\) .

\[S_n = X_1 + \dots +X_n, \ \ \ Z_n := \frac {S_n -E(S_n)}{\sqrt {D^2(S_n)}} = \frac {S_n-nm}{\sigma \sqrt {n}}. \]

Wtedy \(E(Z_n) = 0\) oraz \(D^2(Z_n) = 1\) (ćwiczenie).

Mamy wykazać, że: Dla każdego \(x \in \r \) zachodzi równość:

\[ \lim _{n\rightarrow \infty }P(Z_n \le x) = \Phi (x), \]

gdzie \(\Phi \) jest dystrybuantą standardowego rozkładu normalnego, czyli, że \(P_{Z_n} \stackrel {d}{\str } N(0,1)\).

Dowód. Skorzystamy z drugiej części twierdzenia o ciągłości.

Musimy więc wykazać, że ciąg funkcji charakterystycznych \(h_n := h_{Z_n}\) jest zbieżny do funkcji charakterystycznej \(h_\Phi \), którą to funkcję wyznaczyliśmy.

\[ h_\Phi (u) = e^{-\frac {1}{2}u^2}. \]

Ponieważ

\[ Z_n = \frac {(X_1 -m) + \dots +(X_n - m)}{\sigma \sqrt {n}}, \]

więc korzystając z niezależności zmiennych losowych \((X_1 -m) , \dots ,(X_n - m)\) oraz z własności funkcji charakterystycznych otrzymujemy:

\[ h_n(u) = h\left ( \frac {u}{\sigma \sqrt {n}}\right )^n, \]

gdzie przez \(h\) oznaczamy funkcję charakterystyczną rozkładu zmiennej losowej \(X_i - m\).

Ponieważ zmienne losowe mają z założenia moment rzędu 2, więc wiemy, że funkcja \(h\) jest dwukrotnie różniczkowalna w zerze. Mamy przy tym

\[ h(0) = 1,\;\;\;\;\; h'(0) = i E(X_i - m) = 0,\;\;\;\;\;h''(0) = i^2 E((X_i -m)^2) = - \sigma ^2. \]

Mamy więc:

\[ h(u) = 1 - \frac {1}{2} \sigma ^2 u^2 +o(u^2), \;\;\;\mbox { gdy } u \longrightarrow 0. \]

Przypomnienie Dla funkcji \(f, g\) określonych na przestrzeni topologicznej \(A\) oraz \(a \in A\) definiujemy:

\[ f(x) = o(g(x), x \to a \ \rwn \ \forall \ve > 0 \ \exists U \mbox { otoczenie } a \ \forall x \in U \ |f(x)| \le \ve |g(x)|. \]

Intuicja Gdy \(g(x) \to 0\) dla \(x \to a\) oraz \(f(x) = o(g(x), x \to a\),
to \(f(x)\) ZMIERZA ISTOTNIE SZYBCIEJ do 0 niż \(g(x)\).

Ustalmy teraz \(u\). Mamy wtedy

\[ h\left (\frac {u}{\sigma \sqrt {n}}\right ) = 1 - \frac {1}{2}\frac {u^2}{n} + o\left (\frac {1}{n}\right ),\mbox { gdy } n \longrightarrow \infty . \]

Oznacza to, że dla dużych \(n\) wartości \(h(\frac {u}{\sigma \sqrt {n}})\) leżą w kole o środku w punkcie \(z = 1\) i promieniu \(r = 1\).

Jak wiadomo z kursu funkcji analitycznych, w kole tym istnieje dokładnie jedna funkcja analityczna (nazywa się ją gałęzią logarytmu naturalnego i oznacza przez \(\log \)), taka, że: \(e^{\log z} = z\) oraz \(\log \,1 = 0\). Możemy też skorzystać z faktów, że: \(\log z^n = n \log z\) oraz:

\[ \log \,(1 + z) = z + o(z),\;\;\; \mbox { dla } z \longrightarrow 0 .\]

Kolejno mamy:

\[ \log h_n(u) = n\log h\left (\frac {u}{\sigma \sqrt {n}}\right ) = n\log \left ( 1 - \frac {1}{2}\frac {u^2}{n} + o\left (\frac {1}{n}\right )\right ) ,\mbox { gdy } n \longrightarrow \infty , \]

\[ \log h_n(u) = - \frac {1}{2}u^2 + \phi (n), \]

gdzie \(\phi (n) = o\left (- \frac {1}{2}\frac {u^2}{n}+ n o\left (\frac {1}{n}\right )\right )\) dla \(n \longrightarrow \infty \).

Widać, że \(\phi (n) \longrightarrow 0\) dla \(n \longrightarrow \infty \).

Tak więc ostatecznie

\[ h_n(u) = e^{-\frac {u^2}{2}}e^{\phi (n)} \longrightarrow e^{-\frac {u^2}{2}} = h_\Phi (u), \;\; \mbox { dla }n \longrightarrow \infty .\‚\]

Z twierdzenia o ciągłości \(P_{Z_n} \stackrel {d}{\longrightarrow } N(0,1)\). \(\Box \)

Komentarz. Wiadomo, że \(\di \lim _{n\to \infty }\left (1 - \frac {1}{2}\frac {u^2}{n} \right )^n = e^{-\frac {u^2}{2}}\). Stosując elementy teorii funkcji analitycznych pokazaliśmy, że również \(\di \lim _{n\to \infty }\left (1 - \frac {1}{2}\frac {u^2}{n} +o\left (\frac {1}{n}\right )\right )^n = e^{-\frac {u^2}{2}}\), co jest raczej zgodne z intuicją.

Twierdzenie – 11.21 W tezie twierdzenia Lindeberga – Lévy’ego zachodzi zbieżność jednostajna ze względu na \(x \in \r .\)

Jest to konsekwencja następującego lematu.

Lemat – 11.22 Załóżmy, że

\[ F_n \stackrel {d}{\longrightarrow } F, \]

gdzie \(F_n\) oraz \(F\) są dystrybuantami. Załóżmy ponadto, że \(F\) jest funkcją ciągłą. Wtedy

\[ F_n \longrightarrow F, \;\;\;\;\mbox { jednostajnie na } \r . \]

Czyli: \(\forall \, \ve > 0 \ \exists \, n_0 \ \forall \, x \in \r \ \forall n \ge n_0 \ \ |F_n(x) - F(x)| < \ve \).

Dowód lematu. Ustalmy \(\varepsilon > 0\) i bez straty ogólności załóżmy, że \(\varepsilon < 1\). Ponieważ dystrybuanta \(F\) jest funkcją ciągłą, istnieją punkty \(x_1, \dots , x_r\) takie, że \(F(x_k) = \frac {k\varepsilon }{2},\;\; k = 1,\dots ,r\), gdzie \(r\) jest największą liczbą taką, że \(\frac {r\varepsilon }{2} < 1\). Połóżmy dodatkowo \(x_0 = -\infty ,\;x_{r+1} = \infty \). Oczywiście jest \(F(x_{k+1}) - F(x_k) \le {\varepsilon \over 2}.\) Z założenia wiemy, że we wszystkich punktach \(x_k\) mamy \(\lim _{n\rightarrow \infty }F_n(x_k) = F(x_k)\). Ponieważ jest ich skończenie wiele, istnieje takie \(N\), że dla \(n >N\) i dla wszystkich \(k = 1, \dots r\)

\[ |F_n(x_k) - F(x_k)| \le {\varepsilon \over 2}. \]

Niech \(x \in \r \) będzie dowolnie ustalone. Istnieje taki przedział \([x_k,x_{k+1})\), który zawiera \(x\). Mamy teraz

\[ F_n(x) - F(x) \le F_n(x_{k+1}) - F(x_k) \le F(x_{k+1}) +{\varepsilon \over 2} - F(x_k) \le \varepsilon \]

i podobnie

\[ F(x) - F_n(x) \le F(x_{k+1}) - F_n(x_k) \le F(x_{k+1}) - (F(x_k) - {\varepsilon \over 2}) \le \varepsilon , \]

co oznacza, że \(\;\;\;|F_n(x) - F(x)| \le \varepsilon \) dla dowolnego \(x\) oraz \(n >N\).

Dowód twierdzenia 9.2, CTG dla sum.

Ponieważ z określenia zmiennej losowej \(Z_n\) mamy \(S_n = \sigma \sqrt {n}Z_n + nm\), więc mamy

\[ F_{S_n}(x) = F_{Z_n}\left (\frac {x-nm}{\sigma \sqrt {n}}\right ). \]

Natomiast także w naszym przypadku:

\[ \Phi _{nm,\sigma \sqrt {n}}(x) = \Phi \left (\frac {x-nm}{\sigma \sqrt {n}}\right ). \]

Twierdzenie 11.21 mówi, że: \(\forall \, \ve >0 \ \exists \, n_0 \ \forall n \ge n_0 \ \forall \, x \in \r \)

\[ \left | F_{S_n}(x) - \Phi _{nm,\sigma \sqrt {n}}(x) \right | = \left | F_{Z_n}\left (\frac {x-nm}{\sigma \sqrt {n}}\right ) - \Phi \left (\frac {x-nm}{\sigma \sqrt {n}}\right )\right | < \ve . \]

Dowód twierdzenia 9.3, CTG dla średnich (ćwiczenie).