Celem tego punktu jest przedstawienie Mocnego Prawa Wielkich Liczb, które jest odpowiednikiem Słabego Prawa Wielkich Liczb i opiera się na pojęciu zbieżności z prawdopodobieństwem 1. Pierwszym krokiem będzie nierówność Kołmogorowa, która w pewnym szczególnym przypadku wzmacnia nierówność Czebyszewa.
Twierdzenie – 10.10 (Nierówność Kołmogorowa) Niech \(X_1,X_2,X_3, \dots \) będą niezależnymi zmiennymi losowymi, \(E(X_i) \in \r \), dla \(i = 1,2,3,\dots \). Ustalmy \(\ve > 0\). Wtedy
\[ \forall n \ge 1 \, \, P\left (\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \right ) \le \frac {D^2(S_n)}{\ve ^2}. \]
Uwaga. Z nierówności Czebyszewa wynika istotnie mniej, mianowicie:
\[ P\left (|S_n - E(S_n)| \ge \ve \right ) \le \frac {D^2(S_n)}{\ve ^2}. \]
Tymczasem:
\[ \{|S_n - E(S_n)| \ge \ve \} \subset \bigcup _{k=1}^n \{|S_k - E(S_k)| \ge \ve \} = \{\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \} \]
Dowód. Bez straty ogólności zakładamy, że wszystkie \(E(X_i) = 0\). Definiujemy zdarzenia: \(\di A = \{\max _{1 \le k \le n}|S_k| \ge \ve \}\) oraz
\(\di A_1 = \{|S_1| \ge \ve \}\). \(\di A_k = \{|S_i| < \ve , i = 1,2,, \dots , k - 1, |S_k| \ge \ve \}\), dla \(k = 2, \dots , n\). Widać, że: \(\di A = \bigcup _{k=1}^n A_k\), oraz \(A_i \cap A_j = \emptyset \) dla \(i\neq j\).
Szacujemy:
\(\di D^2(S_n) = \int _\Omega S_n^2 \,dP \ge \int _A S_n^2 \,dP = \sum _{k=1}^n \int _{A_k} S_n^2 \,dP\).
Ale \(\di S_n = S_k + Y_k\). Zauważmy najpierw, że::
\(\di \int _{A_k} S_kY_k \,dP = \int _{\Omega } I_{A_k} S_k Y_k \,dP = E(I_{A_k}S_k \cdot Y_k) = E(I_{A_k}S_k) \cdot E(Y_k) = 0\), gdyż zmienne losowe \(I_{A_k}S_k\) oraz \(Y_k\) są niezależne jako funkcje wektorów niezależnych.
\(\di \int _{A_k} S_n^2 \,dP = \int _{A_k} (S_k +Y_k)^2 \,dP = \int _{A_k} S_k^2 \,dP + 2\int _{A_k} S_kY _k \,dP + \int _{A_k} Y_k^2 \,dP \ge \int _{A_k} S_k^2 \,dP \ge P(A_k) \ve ^2\), z określenia zdarzenia \(A_k\). Ostatecznie: \(\di D^2(S_n) \ge \sum _{k=1}^nP(A_k)\ve ^2 = P(A) \ve ^2\). \(\Box \)
Dowód. Bez straty ogólności zakładamy, że \(E(X_i) = 0\). Wystarczy pokazać, że dla każdego \(\omega \) ze zbioru, którego prawdopodobieństwo = 1 spełniony jest warunek Cauchy’ego zbieżności sum częściowych \(S_n(\omega )\) . Chcemy więc pokazać, że:
\[ P\left (\bigcap _{\ve > 0 }\bigcup _N \bigcap _{k,l \ge N} \{\o : |S_k(\o ) - S_l(\o )| < \ve \} \right ) =1. \]
Wystarczy więc pokazać, że:
\[ \forall \ve > 0 \ P\left (\bigcup _N \bigcap _{k,l \ge N} |S_k - S_l| < \ve \right ) =1. \]
Oznaczmy:
\[ A_{N,\ve } = \bigcap _{k,l \ge N} \{|S_k - S_l| < \ve \}, \ \ B_{N,\ve } = \bigcap _{k \ge 1} \{|S_{N+k} - S_N| < \ve \}. \]
Ponieważ zbiory \(A_{N,\ve }\) tworzą ciąg wstępujący, więc wystarczy pokazać, że:
\[ \forall \ve > 0 \lim _{N \to \infty }P(A_{N,\ve }) = 1. \]
Ponieważ \(|S_k - S_l| \le |S_k - S_N| + |S_l - S_N|\), to \(B_{N,\frac {\ve }{2}} \subset A_{N,\ve }\). Wystarczy więc wykazać, że:
\(\di \forall \ve > 0 \lim _{N \to \infty }P(B_{N,\ve }) = 1. \)
Ustalmy \(\ve > 0\) oraz \(N < M\). Teraz, z Nierówności Kołmogorowa:
\[\di P \left ( \bigcup _{k=1}^M |S_{N+k} - S_N| \ge \ve \right ) = P(\max _{1\le k \le M}|S_{N+k} - S_N| \ge \ve ) \le \frac {D^2(S_M - S_N)}{\ve ^2}. \]
Inaczej:
\[\di P \left ( \bigcup _{k=1}^M |S_{N+k} - S_N| \ge \ve \right ) \le \frac {1}{\ve ^2}\sum _{k=N+1}^M D^2(X_k).\]
Niech \(M \to \infty \). Wtedy lewa strona ma granicę (ciąg zbiorów wstępującyh) \(\di P \left ( \bigcup _{k=1}^\infty |S_{N+k} - S_N| \ge \ve \right )\), a prawa strona ma granicę \(\di \frac {1}{\ve ^2}\sum _{k=N+1}^\infty D^2(X_k)\). Zachodzi więc też nierówność:
\(\di P \left ( \bigcup _{k=1}^\infty |S_{N+k} - S_N| \ge \ve \right ) \le \frac {1}{\ve ^2}\sum _{k=N+1}^\infty D^2(X_k)\).
Niech \(N \to \infty \). Wtedy prawa strona, a więc i lewa strona dążą do zera.
Ponieważ \(\di \Omega \setminus B_{N,\ve } = \bigcup _{k=1}^\infty \left \{|S_{N+k} - S_N| \ge \ve \right \}\), otrzymujemy żądaną tezę:
\[ \forall \ve > 0 \lim _{N \to \infty }P(B_{N,\ve }) = 1. \]
\(\Box \)
Przykład – 10.12 Zbadamy zbieżność szeregu \(\di \sum _{n=1}^\infty \frac {a_n}{n}\), gdzie \(a_n\) są niezależnymi zmiennymi losowymi o wspólnym rozkładzie: \(P(a_n = -1 ) = \frac {1}{2}\), \(P(A_n = 1) = \frac {1}{2}\). Ponieważ \(D^2\left (\frac {a_n}{n}\right ) = \frac {D^2(a_n)}{n^2} = \frac {\frac {1}{4}}{n^2}\), to szereg \(\di \sum _{n=1}^\infty D^2\left (\frac {a_n}{n}\right )\) jest zbieżny. Z powyższego twierdzenia wynika, że \(\di \sum _{n=1}^\infty \frac {a_n}{n}\) jest zbieżny z prawdopodobieństwem 1.
W dalszej części będziemy korzystać z dwóch faktów z analizy matematycznej.
Dowód. Niech \(\ve >0\). Istnieje takie \(n_1\), że dla \(n \ge n_1\) \(|x_n - x| < \frac {\ve }{2}\). Istnieje takie \(n_0 > n_1\), że dla \(\di n \ge n_0\) \(\frac {1}{n} \sum _{i=1}^{n_1}|x_i - x| < \frac {\ve }{2}\). Niech \(n\ge n_0\). \(\di \left | \frac {1}{n} \sum _{i=1}^n x_i - x \right | \le \frac {1}{n}\sum _{i=1}^{n_1}|x_i - x | + \frac {1}{n}\sum _{i=n_1+1}^{n}|x_i - x | \le \frac {\ve }{2} + \frac {n-n_1}{n} \frac {\ve }{2} \le \ve \) \(\Box \)
Dowód. Oznaczmy: \(s_0 = 0\), \(s_n = x_1 + \dots + x_n\). Wtedy. \(\di \sum _{i=1}^n i x_i = s_1 - s_0 + 2(s_2 - s_1) + \dots + n(s_n - s_{n-1}) = \) \(= -s_0 - s_1 - s_2 - \dots - s_{n-1} + ns_n = - \sum _{i=1}^ns_{i-1} + n s_n\).
Niech \(\di s = \sum _{i=1}^\infty x_i\). Z Lematu Toeplitza:
\(\di \frac {1}{n} \sum _{i=1}^n i x_i = -\frac {1}{n} \sum _{i=1}^ns_{i-1} + s_n \to - s + s = 0 \). \(\Box \).
Jesteśmy przygotowani do dowodu jednego z dwóch głównych twierdzeń tego punktu.
Twierdzenie – 10.15 (Mocne Prawo Wielkich Liczb, MPWl) Niech \(X_1,X_2,X_3, \ldots \) będzie ciągiem niezależnych zmiennych losowych.
Niech \(S_n = X_1+X_2 + \ldots + X_n\).
Niech szereg \(\di \sum _{n=1}^\infty \frac {D^2(X_n)}{n^2}\) będzie zbieżny.
Wtedy:
\[ \frac {S_n- E(S_n)}{n} \stackrel {1}{\longrightarrow } 0. \]
Dowód.
Korzystamy z twierdzenia o zbieżności szeregu oraz z Lematu Kroneckera.
Ponieważ szereg \(\di \sum _{i=1}^\infty D^2\left (\frac {X_i- E(X_i)}{i} \right ) = \sum _{i=1}^\infty D^2\left (\frac {X_i}{i} \right )\) jest zbieżny, więc szereg \(\di \sum _{i=1}^\infty \frac {X_i- E(X_i)}{i}\) jest zbieżny z prawdopodobieństwem 1.
Ale w takim razie: \(\di \frac {S_n- E(S_n)}{n} = \frac {1}{n}\sum _{i=1}^n i \frac {X_i- E(X_i)}{i} \stackrel {1}{\longrightarrow } 0\) \(\Box \)
Założenie o wariancjach można opuścić, gdy się założy, że wszystkie zmienne losowe mają ten sam rozkład, czyli są i.i.d (independent, identically distributed)
Twierdzenie – 10.16 (Mocne Prawo Wielkich Liczb dla i.i.d.) Niech \(X_1,X_2,X_3, \ldots \) będzie ciągiem niezależnych zmiennych losowych o tym samym rozkładzie i skończonej wartości oczekiwanej \(m\).
Niech \(S_n = X_1+X_2 + \ldots + X_n\).
Wtedy
\[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } m. \]
Dowód polega na zastąpieniu ciągu \(\{X_n\}\) innym ciągiem, który spełnia założenia poprzedniego twierdzenia, ale ma średnie tak samo zbieżne jak średnie \(\{X_n\}\).
Wykażemy jednak wcześniej dwa pomocnicze lematy i przypomnimy podstawowe twierdzenie o zbieżności całek.
Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(A_1, A_2,A_3, \dots \in \Sigma \). Interesuje nas zbiór:
\[A =\bigcap _{n=0}^\infty \bigcup _{i=n }^\infty A_i. \]
Zauważmy, że:
\(\o \in A \ \rwn \ \o \) należy do nieskończenie wielu spośród zdarzeń \(A_i\).
Dowód. Ad 1. Dla każdego \(n\) \(\di P(A) \le P\left (\bigcup _{i=n }^\infty A_i\right ) \le \sum _{i=n}^\infty P(A_i)\). Ponieważ jednak szereg \(\di \sum _{i=1}^\infty P(A_i)\) jest zbieżny, to jego „końcówka"\(\di \sum _{i=n}^\infty P(A_i) \to 0\), gdy \(n \to \infty \). Stąd \(P(A) = 0\).
Ad 2. Zauważmy najpierw że korzystając z założenia o niezależności oraz ze standardowej nierówności \(1+x \le e^x \forall x \in \r \), otrzymujemy dla wszystkich \(n < m\):
\[\di P\left (\bigcap _{i=n}^m(\Omega \setminus A_i)\right ) = \prod _{i=n}^m P(\Omega \setminus A_i) = \prod _{i=n}^m (1 - P( A_i)) \le \prod _{i=n}^m e^{- P(A_i)} = e^{-\sum _{i=n}^m P(A_i)}. \]
Ponieważ szereg \(\di \sum _{i=1}^\infty P(A_i)\) jest rozbieżny, więc dla każdego ustalonego \(n\):
\[ P\left (\bigcap _{i=n}^\infty (\Omega \setminus A_i)\right ) = \lim _{m \to \infty } P\left (\bigcap _{i=n}^m(\Omega \setminus A_i)\right ) \le \lim _{m \to \infty }e^{-\sum _{i=n}^m P(A_i)} =0. \]
i stąd kolejno:
\[ P\left (\bigcup _{i=n}^\infty A_i\right ) = 1 \mbox { oraz } P\left ( \bigcap _{n=1}^\infty \bigcup _{i=n}^\infty A_i \right ) = 1. \]
\(\Box \)
Dowód. Udowodnimy pierwszą nierówność. Dowód drugiej (ćwiczenie). Mamy kolejno:
\[ \sum _{n=1}^\infty P(Y \ge n) = \sum _{n=1}^\infty \sum _{k=n}^\infty P(k \le Y < k+1) = \]
\[ \sum _{k=1}^\infty \sum _{n=1}^k P(k \le Y < k+1) = \sum _{k=1}^\infty k P(k \le Y < k+1)= \]
\[ \sum _{k=0}^\infty \int _{\{k \le Y < k+1 \}} k\,dP \le \sum _{k=0}^\infty \int _{\{k \le Y < k+1 \}} Y\,dP = E(Y). \]
\(\Box \)
Przypominamy podstawowe twierdzenie o przechodzeniu do granicy pod znakiem całki.
Twierdzenie – 10.19 (Twierdzenie Lebesgue’a) Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X_1, X_2, X_3, ...\), \(X\), \(Z\) zmiennymi losowymi określonymi na \(\Omega \).
1. \(0 \le X_1 \le X_2 \le X_3 \le ... \) p.w., \(X_n \stackrel {1}{\str } X \imp E(X_n) \nearrow E(X)\).
2. \(|X_n| \le Z\), \(E(Z) \in \r \), \(X_n \stackrel {1}{\str } X \imp E(X_n) \str E(X)\).
Wracamy do Mocnego Prawa Wielkich Liczb.
Dowód. Definiujemy nowe zmienne losowe:
\[ Y_n = \left \{ \begin {array}{ll} X_n, & \mbox { gdy } |X_n| < n\\ 0, & \mbox { gdy } |X_n| \ge n \end {array} \right . \]
Wykażemy najpierw, że ciąg \(\{Y_n\}\) spełnia założenia Mocnego Prawa Wielkich Liczb, Twierdzenie 10.15. Zauważmy najpierw, że: \(\di Y_n = I_{\{|X_n| < n\}} \cdot X_n \) gdzie \(I_A\) oznacza funkcję charakterystyczną (indykator) zbioru \(A\). W związku z tym zmienne losowe \(Y_n\) są niezależne jako funkcje zmiennych losowych niezależnych.
Wykażemy, że \(\di \sum _{n=1}^\infty \frac {D^2(Y_n)}{n^2} < \infty \). Mamy kolejno:
\[ \sum _{n=1}^\infty \frac {D^2(Y_n)}{n^2} \le \sum _{n=1}^\infty \frac {E(Y^2_n)}{n^2} = \sum _{n=1}^\infty \frac {1}{n^2} E(I_{\{|X_n| < n\}} \cdot X_n^2) = \]
\[ \sum _{n=1}^\infty \frac {1}{n^2} E(I_{\{|X_1| < n\}} \cdot X_1^2) = \sum _{n=1}^\infty \frac {1}{n^2} \sum _{k=1}^n E(I_{\{k-1 \le |X_1| < k\}} \cdot X_1^2) = \]
\[ \sum _{k=1}^\infty E(I_{\{k-1 \le |X_1| < k\}} \cdot X_1^2) \sum _{n=k}^\infty \frac {1}{n^2} \le \]
\[ \sum _{k=1}^\infty E(I_{\{k-1 \le |X_1| < k\}} \cdot |X_1|)\cdot k \cdot (\frac {1}{k} + \frac {1}{k^2}) \le \sum _{k=1}^\infty 2 E(I_{\{k-1 \le |X_1| < k\}}\cdot |X_1|) = 2E(|X_1|) < \infty . \]
Skorzystaliśmy tutaj z nierówności:
\[\di \sum _{n=k}^\infty \frac {1}{n^2} \le \frac {1}{k^2} + \frac {1}{k(k+1)} + \frac {1}{(k+1)(k+2)} + \dots = \frac {1}{k^2} + \frac {1}{k}.\]
Wykazaliśmy więc, że zmienne losowe \(Y_N\) spełniają Mocne Prawo Wielkich Liczb. Czyli:
(MPL) \(\di \frac {\sum _{i=1}^n Y_i - \sum _{i=1}^n E(Y_i)}{n} \stackrel {1}{\longrightarrow } 0\).
Niech \(A_n = \{X_n \neq Y_n\}\). Oczywiście \(A_n \subset \{|X_n| \ge n \}\). Mamy więc:
\[ \sum _{n=1}^\infty P(A_n) \le \sum _{n=1}^\infty P(|X_n| \ge n) = \sum _{n=1}^\infty P(|X_1| \ge n) \le E(|X_1|) < \infty . \]
Z Lematu Borela-Cantellego \(\di P\left (\bigcap _{n=0}^\infty \bigcup _{i=n }^\infty A_i\right ) = 0\). Czyli \(\di P\left (\bigcup _{n=0}^\infty \bigcap _{i=n }^\infty \{X_i = Y_i\}\right ) = 1\). Inaczej: \(\di P(X_i = Y_i\), dla prawie wszystkich \(i ) = 1\).
W szczególności:
(B-C) \(\di \frac {\sum _{i=1}^n X_i}{n} - \frac {\sum _{i=1}^n Y_i}{n} \stackrel {1}{\longrightarrow } 0\).
Zauważmy też, że:
(L+T) \(\di \frac {1}{n}\sum _{i=1}^n E(Y_i) \longrightarrow m \).
Rzeczywiście, korzystając z Twierdzenia Lebesgue’a wiemy, że \(\di E(I_{\{|X_1| <i \}}X_1) \to m \), gdy \(i \to \infty \). Mamy więc \(\di \frac {1}{n}\sum _{i=1}^n E(Y_i) = \frac {1}{n}\sum _{i=1}^n E(I_{\{|X_i| <i \}}X_i) = \frac {1}{n}\sum _{i=1}^n E(I_{\{|X_1| <i \}}X_1) \to m\), co wynika z Lematu Toeplitza.
Wykorzystując kolejno (B-C), (MPL) oraz (L+T), mamy:
\[ \frac {\sum _{i=1}^n X_i}{n} = \frac {\sum _{i=1}^n X_i}{n} - \frac {\sum _{i=1}^n Y_i}{n} + \frac {\sum _{i=1}^n Y_i - \sum _{i=1}^n E(Y_i)}{n} + \frac {1}{n}\sum _{i=1}^n E(Y_i)\]
\[\stackrel {1}{\longrightarrow } 0 + 0 + m = m. \]
\(\Box \)
Jako natychmiastową konsekwencję mocnego prawa wielkich liczb otrzymujemy:
Wniosek – 10.20
1. Niech \(X_1,X_2,X_3, ...\) będzie niezależnym ciągiem prób Bernoulliego o prawdopodobieństwie sukcesu \(p\) (\(X_i \sim B(1,p)\)). Wtedy
\[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } p. \]
2. Niech \(A \in \Sigma \) i niech \(X_1,X_2,X_3, ...\) będzie niezależnym ciągiem prób Bernoulliego o prawdopodobieństwie sukcesu \(p = P(A)\). Wtedy
\[ \frac {S_n}{n} \stackrel {1}{\longrightarrow } P(A). \]
Komentarz, Przybliżone wyznaczanie nadziei
W wielu przypadkach chcemy poznać nadzieję matematyczną \(m = E(X)\) zmiennej losowej \(X\), ale analitycznie jest to trudne lub niemożliwe. Tymczasem, zarówno słabe prawo wielkich liczb jak i pośrednio centralne twierdzenie graniczne mówią, że \(m\) jest przybliżana w określonym sensie przez średnie \(\frac {S_n}{n}\) ciągu niezależnych zmiennych losowych \(X_1, ..., X_n\) mających ten sam rozkład co zmienna losowa \(X\).
Niekiedy potrafimy generować na komputerze wielkości \(x_1, ... x_n\), które można traktować jako niezależne realizacje zmiennej \(X\), czyli \(x_1 = X_1(\o ), ..., x_n = X_n(\o )\) dla pewnego \(\o \in \Omega \), gdzie \(X_1, ..., X_n\), są niezależnymi zmiennymi losowymi mającymi taki sam rozkład jak \(X\).
Właśnie z mocnego prawa wielkich liczb wynika, że prawie zawsze dla dużych \(n\) średnia \(\di \hat {x_n} = \frac {\sum _{i=1}^nx_i}{n}\) będąca realizacją \(\di \frac {S_n}{n}\) jest blisko \(m\).
Dla każdego zdarzenia \(A\) jego prawdopodobieństwo \(P(A)\) jest równe wartości oczekiwanej \(E(I_A)\), gdzie \(I_A\) jest funkcją charakterystyczną zbioru \(A\). W związku z tym mocne prawo wielkich liczb może być użyte także do szacowania \(P(A)\) przy pomocy komputera.
Konkluzja. Aby wyznaczyć przybliżaną wartość nadziei matematycznej \(m = E(X)\) zmiennej losowej \(X\) (prawdopodobieństwo zdarzenia \(A\)) wystarczy wygenerować odpowiednio dużo niezależnych realizacji tej zmiennej (zmiennej \(I_A\)), a ich średnia jest poszukiwaną wielkością.
Co oznacza zwrot „odpowiednio dużo"będzie częściowo wyjaśnione w trakcie omawiania metod Monte Carlo.
Przykład – 10.21 Leon wchodzi do apteki i widzi, że jest dziesiąty, w kolejce oraz, że czynne są cztery okienka obsługujące aktualnie klientów, Jego poprzednie obserwacje wskazują, że jedna osoba jest obsługiwana około 1 – 5 minut (przypuszcza więc, że czas obsługi jednego klienta \(X\) ma rozkład \(N(3,1)\)). Zakłada, że czas podejścia pierwszej osoby z kolejki do zwalnianego okienka ma rozkład jednostajny \(U(0,mt)\), gdzie \(mt\) jest minimalnym czasem obsługi osób aktualnie stojących przy okienkach. Ile czasu spędzi Leon w kolejce?
Czas oczekiwania Leona \(T\) jest zmienną losową, którą można wyrazić za pomocą sumy i minimów innych zmiennych losowych i w tej sytuacji trudno jest wyznaczyć bezpośrednio jej nadzieję. Można jednak łatwo wygenerować, powiedzmy 10 000 niezależnych realizacji zmiennej \(T\). Ich średnia przybliża średni czas oczekiwania naszego klienta. W kilku wykonanych próbach średnie te wynosiły: 7.55012877309712, 7.52607461327209, 7.52962450258854, 7.53444237897340, 7.52881780301394. Wynik ten można było z pewnym przybliżeniem przewidzieć. Gdyby w aptece było czynne tylko jedno okienko i musiało ono obsłużyć 9 klientów stojących przed Leonem, a wcześniej skończyć obsługę poprzedniego klienta, to zajęłoby to średnio 1.5 + 27 = 28.5 minut. Gdy są czynne 4 okienka, to obsługa trwa około 4 razy krócej.
Przykład – 10.22 Oszacujmy prawdopodobieństwo zbioru \(A\) występującego w nierówności Kołmogorowa:
\[ A = \{\max _{1 \le k \le n}|S_k - E(S_k)| \ge \ve \}. \]
Założymy tutaj, że \(S_k = X_1 + ... + X_k\), gdzie \(X_1, ..., X_n\) są niezależnymi zmiennymi losowymi o jednakowym rozkładzie, a \(\ve \) oraz \(n\) są znane. Przy okazji przybliżymy (łatwiejsze do wyliczenia analitycznie) prawdopodobieństwo \(P(A_n)\), gdzie
\[ A_n = \{|S_n -E(S_n)| \ge \ve \} \]
oraz wartość prawej strony nierówności Kołmogorowa: \(\frac {D^2(S_n)}{\ve ^2}.\)
Ponieważ chcemy znaleźć wartości średnie \(E(I_A)\) oraz \(E(I_{A_n})\) będziemy generować \(N\) realizacji zmiennych losowych \(I_A\) oraz \(I_{A_n}\) i wyliczać ich średnie. Przykładowo otrzymaliśmy:
Gdy \(X_i\) mają rozkład jednostajny \(U(-3,5)\), \(n = 10\), \(\ve = 15\), \(N= 100\):
\(P(A) \cong \frac {3}{100}\), \(P(A_n) \cong \frac {2}{100}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {32}{135}\).
Gdy \(X_i\) mają rozkład Poissona \(P_5\), \(n = 200\), \(\ve = 40\), \(N= 100\):
\(P(A) \cong \frac {32}{100}\), \(P(A_n) \cong \frac {16}{100}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {5}{8}\)
Gdy \(X_i\) mają rozkład normalny \(N(0,2)\), \(n = 200\), \(\ve = 70\), \(N= 1000\):
\(P(A) \cong \frac {29}{1000}\), \(P(A_n) \cong \frac {17}{1000}\), \(\frac {D^2(S_n)}{\ve ^2} = \frac {8}{49}\).
Mocne Prawo Wielkich Liczb ma szereg innych ważnych konsekwencji. W szczególności stanowi podstawę całej statystyki. O jego kluczowym znaczeniu w metodach Monte Carlo powiemy jeszcze więcej później. Teraz podamy pewne inne zastosowanie.
Przykład – 10.23 Definiujemy ciąg ciąg; \(x_0 = 1\), \(x_{n+1}\) – liczba wylosowana zgodnie z rozkładem \(U(0,2x_n)\), \(n = 0,1,2,3, \dots \). Badamy jego zbieżność.
Niech \(X_n\) oznacza zmienną losową, której realizacją jest \(x_n\).
\(X_0 := 1, \ \ X_1 := 2 X_0 \cdot U_1 =2 U_1, \ \ X_2 := 2 X_1\cdot U_2 = 2^2 U_1\cdot U_2, ...\)
\(X_n = 2^nU_1\cdot \dots \cdot U_n,\), gdzie \(U_1,...U_n\) i.i.d. o rozkładzie \(U(0,1)\), a więc:
\[\ln X_n = n\ln 2 + \sum _{i=1}^n \ln U_i = \sum _{i=1}^n (\ln 2 + \ln U_i).\]
Łatwo obliczyć (ćwiczenie), że \(m = E(\ln 2 + \ln U_i) = \ln 2 - 1 < 0\).
Stąd, oznaczając \(Y_i = \ln 2 + \ln U_i\), mamy: \(X_n = e^{\sum _{i=1}^nY_i} = e^{n\frac {1}{n}\sum _{i=1}^nY_i}\).
MPWL zapewnia, że \(\frac {1}{n}\sum _{i=1}^nY_i \to m < 0\) w prawie każdym punkcie, a więc \(X_n \stackrel {1}{\to } 0\).
Komentarz. Ze zbieżności \(X_n\stackrel {1}{\to } X\) nie zawsze wynika zbieżność \(E(X_n) \to E(X)\). Taką zbieżność gwarantuje Twierdzenie Lebesgue’a, o ile jednak są spełnione pewne założenia. Poniższy przykład dotyczy sytuacji, gdy nie są one spełnione.
W powyższym przykładzie:
\(E(X) = 0 \). Zauważmy też (indukcja), że \(E(X_n) = E(X_0) = 1\).
Ciąg \(X_n\) nie jest monotoniczny. Trudno byłoby też wskazać funkcję sumowalną ograniczającą wszystkie \(X_n\) z góry, gdyż nie mogą być one ograniczone od góry przez żadną stałą:
Niech \(A_i = \{\o : U_i(\o ) > \frac {3}{4}\}\). Wtedy \(X_n(\o ) > (\frac {3}{2})^n\) na zbiorze \(\bigcap _{i=1}^nA_i\).
Ponieważ jak widzimy, nie jest spełniona teza Twierdzenia Lebesgue’a, to faktycznie nie istnieje funkcja sumowalna ograniczająca z góry wszystkie \(X_n\).
Przy okazji zauważmy, że: \(D^2(X_n) = E(X_n^2) - E(X_n)^2 = E((2^nU_1\cdot \dots \cdot U_n)^2) - 1 = 4^nE(U_1^2)^n - 1 = \left (\frac 43\right )^n - 1\).