(image)

Rachunek prawdopodobieństwa 1, 2

9.2 Centralne twierdzenie graniczne

W tym punkcie zakładamy, że:

Założenie.
\((\Omega , \Sigma ,P)\) jest przestrzenią probabilistyczną, zaś \(X_1,\,X_2,\, X_3,\dots \) – ciągiem niezależnych zmiennych losowych określonych na \(\Omega .\) Wszystkie zmienne losowe \(X_i\) mają taki sam rozkład, a ich wspólna nadzieja matematyczna \(m\) oraz wariancja \(\sigma ^2\) istnieją i są skończone, przy czym \(\sigma > 0\) (ten ostatni warunek oznacza, że zmienne losowe nie są stałymi).

\[S_n = X_1 + \dots +X_n.\]

Zmienną losową:

\[ Z_n := \frac {S_n -E(S_n)}{\sqrt {D^2(S_n)}} = \frac {S_n -nm}{\sigma \sqrt {n}} \]

nazywamy standaryzacją sumy \(S_n.\)

Jak łatwo zauważyć:

\[E(Z_n) = 0\;\; \textrm {oraz}\;\; D^2(Z_n) = 1.\]

  • Twierdzenie – 9.1 (Twierdzenie Lindeberga-Leévy’ego, CTG) Dla każdego \(x \in \r \) zachodzi równość:

    \[ \lim _{n\rightarrow \infty }P(Z_n \le x) = \Phi (x), \]

  • Twierdzenie – 9.2 (CTG dla sum) Rozkład zmiennej losowej \(S_n\) jest asymptotycznie równy rozkładowi \(N(nm,\sigma \sqrt {n})\). Inaczej:

    \[ \lim _{n\rightarrow \infty }(F_{S_n}(x) - \Phi _{nm,\sigma \sqrt {n}}(x)) = 0, \]

    dla \(x \in \r .\)

  • Twierdzenie – 9.3 (CTG dla średnich) Rozkład zmiennej losowej \(\frac {S_n}{n}\) jest asymptotycznie równy rozkładowi \(N(m,{\sigma \over \sqrt {n}})\). Inaczej:

    \[ \lim _{n\rightarrow \infty }(F_{\frac {S_n}{n}}(x) - \Phi _{m,{\sigma \over \sqrt {n}}}(x)) = 0, \]

    dla \(x \in \r .\)

Dowód oparty na teorii funkcji charakterystycznych będzie później.

Centralne twierdzenie graniczne jest prawdziwe przy dużo ogólniejszych założeniach. W szczególności zmienne losowe nie muszą mieć takiego samego rozkładu, a nawet nie muszą być niezależne. Jednakże, różnym wersjom centralnego twierdzenia granicznego przyświeca ta sama idea:

Suma niewiele zależnych od siebie składników losowych, z których żaden nie dominuje istotnie nad pozostałymi, ma w przybliżeniu rozkład normalny.

Z twierdzenia 9.1 otrzymujemy natychmiast klasyczne twierdzenie:

  • Twierdzenie – 9.4 (de Moivre’a-Laplace’a) Niech \(X_1, \,X_2, \, X_3,\dots \) będzie ciągiem niezależnych prób Bernoulliego, z takim samym prawdopodobieństwem sukcesu \(p\) i porażki \(q = 1 - p\) w każdej próbie (\(0<p<1\)). Wtedy:

    \[ P\left (\frac {S_n - np}{\sqrt {npq}} \le x\right ) \longrightarrow \Phi (x), \]

    dla każdego \(x \in \r \).

Ilustracja twierdzenia

  • Przykład – 9.5 (Eksperyment, rzuty kostką) Wyobraźmy sobie eksperyment polegający na wielokrotnym rzucie kostką do gry. Suma uzyskanych oczek \(S\) jest zmienną losową mającą, zgodnie z CTG, w przybliżeniu rozkład \(N(nm, \sigma \sqrt {n})\), gdzie \(m\) oraz \(\sigma \) są odpowiednio nadzieją matematyczną oraz odchyleniem standardowym zmiennej losowej \(X\), reprezentującej wynik pojedynczego rzutu, a \(n\) jest liczbą wykonanych prób. Ponieważ \(X\) ma rozkład dyskretny, skupiony w punktach \(1,2,3,4,5,6\) przyjmowanych z jednakowym prawdopodobieństwem \(\frac {1}{6}\), więc bez trudu można stwierdzić, że:

    \[m = 3.5 \;\;\textrm {oraz}\;\; \sigma = \frac {\sqrt {105}}{6} \approx 1.7078251.\]

    Przypuśćmy, że wykonano 1000 rzutów (\(n = 1000\)). Wówczas na podstawie CTG suma \(S_{1000}\) ma w przybliżeniu rozkład \(N(3500,54,00617)\).

    Zweryfikujmy doświadczalnie uzyskany wynik. W tym celu można przeprowadzić symulację tysiąca rzutów kostką za pomocą komputera, uzyskując odpowiednią wartość sumy wszystkich uzyskanych oczek.

    Doświadczenie to powtórzymy 400 razy, uzyskując \(400\) wartości sumy oczek.

    Wyniki:

    \[3567, 3423, 3424, \dots , 3671, 3558, 3582.\]

    są przedstawione graficznie w postaci histogramu. W tym celu przedział \([3300, 3700]\) został podzielony na 20 równych przedziałów i została policzona liczba danych znajdujących się w każdym z tych przedziałów, \(n_i\), \(i = 1, \dots , 20\), a na rysunku zostały zaznaczone prostokąty o wysokościach \(\frac {n_i}{20 N}\) nad kolejnymi przedziałami. Tutaj \(N = \sum _{i=1}^{20}n_i\). Widać, że suma pól = 1. Histogram porównano na wspólnym rysunku z gęstością rozkładu \(N(3500,54,00617)\).

    (image) (image)

W istocie nie trzeba rzucać kostką aż 1000 razy aby suma oczek miała rozkład normalny. Faktycznie wystarczy ograniczyć liczbę rzutów do kilkunastu. Może o tym świadczyć porównanie rozkładu sumy z odpowiednim rozkładem normalnym z naturalnie dobranymi parametrami.

(image) (image)

(image) (image)

Nawet, gdy kostka jest wyraźnie sfałszowana suma oczek dość szybko „normalnieje".

(image) (image)

(image) (image)

  • Przykład – 9.6 Rzucono \(1000\) razy symetryczną kostką do gry. Obliczyć prawdopodobieństwo tego, że „6"wypadła więcej niż 150 razy.

    Zauważmy najpierw, że interesująca nas ilość „6"jest sumą \(S_n, \;\;n =1000\), niezależnych prób Bernoulliego o prawdopodobieństwie sukcesu \(p = {1\over 6}\) w każdej próbie. Zgodnie z centralnym twierdzeniem granicznym, suma ta ma w przybliżeniu rozkład normalny \(N(np,\sqrt {npq})\). Wstawiając wartości liczbowe otrzymujemy: \(\di P(S_{1000} > 150) = 1 - P(S_{1000} \le 150) \cong 1 - \Phi _{np, \sqrt {npq}}(150) = 1 - \Phi \left (\frac {150 - \frac {1000}{6}}{\sqrt {1000\frac {5}{6}\frac {1}{6}}}\right ) \cong 1 - \Phi (-1,41) = \Phi (1,41) \cong 0,9207, \) gdzie ostatnia liczba pochodzi z tablic rozkładu normalnego.

  • Przykład – 9.7 Jakie jest prawdopodobieństwo, że przy \(1000\) rzutach monetą symetryczną różnica między ilością reszek i orłów będzie wynosić co najmniej \(100\)? Podobnie jak poprzednio, ilość uzyskanych orłów jest sumą \(S_n,\; n =1000\), niezależnych prób Bernoulliego o prawdopodobieństwie sukcesu \(p = \frac {1}{2}\) w pojedynczej próbie.

    Chcemy obliczyć \(P(|S_n -(n - S_n)| \ge 100)\), czyli \(P(|S_n -500| \ge 50).\) Prawdopodobieństwo zdarzenia przeciwnego jest w bardzo dużym przybliżeniu równe:

    \(\di F_{S_n}(550) - F_{S_n}(450) \cong \Phi _{500,\,5 \sqrt {10}}(550) - \Phi _{500,\,5 \sqrt {10}}(450) = \Phi (\sqrt {10}) - \Phi (-\sqrt {10}) = 2\Phi (\sqrt {10}) - 1 \cong 2 \Phi (3,1622) - 1 \cong 0,9984. \)

    Interesujące więc nas prawdopodobieństwo wynosi w przybliżeniu \(0,0016.\)

  • Przykład – 9.8 (Kontynuacja Przykładu 6.15 o liczbie analiz) W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)).

    Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Pamiętamy, że dla \(N = 1000\), oraz \(p = 0.01\) optymalnymi ze względu na średnią liczbę analiz parametrami są: \(n = 10\), \(k = 100\). Wtedy oczekiwana liczba analiz wynosi \(m = E(X) = 195.68\). Pytanie: Czy liczba analiz może przekroczyć 300?

    Stosując Nierówność Czebyszewa stwierdziliśmy, że: \(P(X \ge 300) \le 0.0795\).

    Stosując CTG możemy założyć, że zmienna losowa \(X\) oznaczająca liczbę analiz ma rozkład normalny, \(N(m,\sigma )\). Obliczyliśmy już poprzednio: \(m = 195.68\), \(\sigma ^2 = 865\).

    Mamy więc: \(P(X \ge 300) = 1 - P(X < 300) = 1 - \Phi \left (\frac {300 -m}{\sigma }\right ) = 1- 0.999607712 = 0,000392288\).

  • Uwaga – 9.9 (Reguła 1.96) Jeżeli zmienna losowa \(X\) ma rozkład normalny \(N(m,\sigma )\), to

    \[ P(X \in (m - 1.96\sigma ,m + 1.96\sigma )) \cong 0.95.\]

Dowód.

\[ P(X \in (m - 1.96\sigma ,m + 1.96\sigma )) = \Phi _{m,\sigma }(m+1.96\sigma ) - \Phi _{m,\sigma }(m-1.96\sigma )\]

\[ = 2\Phi (1.96) - 1 \cong 2\cdot 0.975002104851780 - 1 = 0.950004209703559 .\]

  

Dla dowolnej zmiennej losowej \(X\) o parametrach \(m = E(X)\), \(\sigma ^2 = D^2(X)\) z reguły \(3\sigma \) otrzymujemy:

\[ P(X( \in (m - 3\sigma ,m+3\sigma )) \ge \frac 89. \]

Gdy założymy normalność \(X\), to

\[ P(X( \in (m - 3\sigma ,m+3\sigma )) = 2\Phi (3) - 1 \cong 2\cdot 0.999 - 1 \cong 0.997. \]

  • Przykład – 9.10

    Aby stwierdzić, jak wielu wyborców popiera obecnie partię \(AB\)C, losujemy spośród nich reprezentatywną próbkę i na niej przeprowadzamy badanie. Jak duża powinna być ta próbka, aby uzyskany wynik różnił się od rzeczywistego poparcia dla partii \(ABC\) nie więcej niż o \(b =3\%\) z prawdopodobieństwem co najmniej \(1 - \alpha = 0,95\)?

    Niech \(p \in (0,1)\) oznacza faktyczne (lecz nieznane) poparcie dla partii \(ABC\). Jeżeli próbka składa się z \(n\) osób, z których \(S_n\) wyraziło poparcie dla \(ABC\), to liczba \(\frac {S_n}{n}\) jest poparciem wyznaczonym na podstawie próbki. Możemy założyć, że \(S_n\) jest sumą niezależnych zmiennych losowych \(\xi _i\) o rozkładzie: \(P(\xi _i =0) = 1-p\), \(P(\xi _i = 1) =p\). Chcemy znaleźć takie \(n\), żeby:

    \[ P\left ( \left | \frac {S_n}{n} - p \right | \le b \right ) \ge 1 - \alpha . \]

    Ponieważ średnia arytmetyczna \(\frac {S_n}{n}\) ma w przybliżeniu rozkład normalny, więc:

    \begin{eqnarray*} P\left ( \left | \frac {S_n}{n} - p \right | \le b \right ) & = & P\left (\frac {S_n}{n} \in (p-b,p+b\right ) = \\ \Phi _{p,\sqrt {\frac {p(1-p)}{n}}}(p+b) - \Phi _{p,\sqrt {\frac {p(1-p)}{n}}}(p-b) & = & \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - \Phi \left (-\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) \end{eqnarray*}

    Czyli powinna być spełniona następująca nierówność:

    \[ 2 \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - 1 \ge 1 - \alpha , \]

    która jest z kolei równoważna:

    \[ n \ge \left ( \frac {\Phi ^{-1} \left (1- \frac {\alpha }{2} \right )}{b} \right )^2(1-p)p. \]

    Chociaż nie znamy \(p\), wiemy, że \((1-p) p \le \frac {1}{4}\). W takim razie \(n\) spełniające nierówność:

    \[ n \ge \left ( \frac {\Phi ^{-1} \left (1- \frac {\alpha }{2} \right )}{b} \right )^20,25, \]

    spełnia także poprzednią nierówność, a więc określa (z naddatkiem)wystarczającą wielkość próbki.

    Podstawiając \(b = 0,03\), \(\alpha = 0,05\), otrzymamy: \(n \ge 1067\).

    Jeżeli jeszcze przed losowaniem próbki mamy wstępne informacje o poparciu dla partii \(ABC\) – na przykład wiemy, że poparcie to jest mniejsze niż \(20 \%\) – możemy powyższy wynik znacznie polepszyć. Ponieważ \(p \le 0,2\), więc \((1-p)p \le 0,16\), co oznacza, że \(n \ge 683\) jest wystarczającą wielkością próbki.

    Przeprowadzono sondaż i okazało się, że na 1050 badanych osób 299 popiera partię \(ABC\). Jakie jest prawdziwe poparcie dla \(ABC\)? Podobnie jak w poprzednim przykładzie, na tak postawione pytanie nie potrafimy odpowiedzieć. Potrafimy jednak z dużym prawdopodobieństwem wskazać przedział (zwany przedziałem ufności), w którym to poparcie \(p\) się zawiera. Jest to na przykład przedział postaci \((\hat {p} - b, \hat {p} +b)\), gdzie \(\hat {p} = \frac {S_n}{n}\) (w naszym przypadku \(\hat {p} = \frac {299}{1050} = 0.2848\)), natomiast \(b\) jest tak dobrane, aby

    \[P(p \in (\hat {p} - b, \hat {p} +b)) \ge 1 - \alpha ,\]

    przy czym \(\alpha > 0\) jest ustaloną przez nas małą liczbą dodatnią. Rozumując jak poprzednio widzimy, że ten warunek jest równoważny warunkowi

    \[ 2 \Phi \left (\frac {b\sqrt {n}}{\sqrt {p(1-p)}} \right ) - 1 \ge 1 - \alpha , \]

    a dalej warunkowi

    \begin{equation} \label {wzornab} b \ge \frac {\sqrt {p(1-p)}}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ). \end{equation}

    Powiedzmy, że \(\alpha = 0.05\). Ponieważ nie znamy \(p\), nie możemy podać możliwie najmniejszego \(b\). Możemy jedynie formalnie stwierdzić, że

    \[b \ge \frac {\sqrt {\frac 12(1-\frac 12)}}{\sqrt {1050}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ) = \frac {\frac 12}{32.4} 1.96 = 0.0302.\]

    Czyli szukany przedział ufności \((\hat {p} - b, \hat {p} +b) \) jest równy \((0.2545, 0.3150)\). Praktycy postępują jednak inaczej. Ponieważ znamy przybliżoną wartość \(p\), czyli \(\hat {p}\), to we wzorze (9.1) podstawmy \(\hat {p}\) zamiast \(p\). Otrzymamy:

    \begin{equation} \label {wzornab2} b \ge \frac {\sqrt {\hat {p}(1-\hat {p})}}{\sqrt {n}} \Phi ^{-1}\left (1 - \frac {\alpha }{2}\right ) \end{equation}

    i po podstawieniu wartości: \(b \ge 0.0273\) oraz przedział ufności

    \[( 0.2575, 0.3120).\]

    Warto zauważyć, że gdyby partia \(ABC\) miała mniejsze poparcie, na przykład 99 na 1050 ankietowanych, to przedział ufności byłby istotnie krótszy. Mamy teraz \(\hat {p} = 0.0894\), \(b = 0.0177\) oraz przedział ufności

    \[(0.0766, 0.1120.\]

  • Przykład – 9.11 Ze zbioru \(N\)-elementowego losujemy w kolejnych momentach po jednym elemencie, przy czym jest to losowanie ze zwracaniem. Interesuje nas rozkład czasu oczekiwania \(T\) na wylosowanie \(r\) różnych elementów. Widać, że:

    \[T = T_0 + \dots + T_{r-1},\]

    gdzie \(T_n\), \(n = 0,1,2, \dots , r-1\) są niezależnymi zmiennymi losowymi o rozkładach geometrycznych; \(T_n \sim G_{\frac {N-n}{N}}\). Dla ustalonych \(N\) oraz \(r\) można obliczyć (komputer) \(E(T)\) oraz \(D^2(T)\), gdyż znamy te wielkości dla czasów \(T_n\), a czasy te są niezależne. Na przykład, dla \(N = 100\) oraz \(r=8\), \(E(T) = 8.294833858\), \(D^2(T) = 0.3105547438\). Gdy chcemy wylosować 190 różnych elementów spośród 200, potrzebujemy średnio prawie 590 losowań, a wariancja wynosi ponad 3 000.

    Czy dla dużych \(r\) czas \(T\) ma rozkład normalny?

    CTG w wersji, którą znamy, nie może być stosowane. Sprawdzamy to więc doświadczalnie wykonując 1000 symulacji naszego doświadczenia dla \(N = 200\), \(r = 100\).

    Sporządzamy odpowiedni histogram, wyznaczamy średnią i wariancję z otrzymanej próby: \(mD := 138.511\), \(varD= 63.221100100100266\) oraz wyliczamy nadzieję matematyczną oraz wariancję \(T\): \(E(T) = 138.1306861\), \(D^2(T) = 60.37514711\) i porównujemy na wspólnym wykresie:

(image)
histogram

(image)
gęstości

(image)
porównanie

Wydaje się (potwierdzają to testy statystyczne), że \(T\) ma rzeczywiście rozkład normalny.

3