(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 7 Nierówność Czebyszewa i prawa wielkich liczb

Znajomość momentów pozwala oszacować prawdopodobieństwo tego, że zmienna losowa przyjmuje wartość w określonym zbiorze. W szczególności znajomość wariancji pozwala oszacować z góry prawdopodobieństwo tak zwanych ogonów, to znaczy zbiorów postaci \(\{|X - E(X)| \ge \ve \}\).

7.1 Nierówność Czebyszewa

  • Twierdzenie – 7.1 Niech \(X : \Omega \to \r \) będzie zmienną losową, \(\ve > 0\). Wtedy:

    • 1. Niech \(k \ge 1\), \(X \ge 0\). Wtedy \(\di P(X \ge \ve ) \le \frac {E(X^k)}{\ve ^k}\).

    • 2. Niech \(m = E(X) \in \r \). Wtedy \(\di P(|X - m| \ge \ve ) \le \frac {D^2(X)}{\ve ^2}\).

    • 3. Niech \(m = E(X) \in \r \), \(\sigma = \sqrt {D^2(X)} > 0\), \(c >0\). Wtedy

      \[\di P(|X - m| \ge c \sigma ) \le \frac {1}{c^2}.\]

Dowód. Dowód pierwszej nierówności:

\begin{equation} E(X^k) = \int _\Omega X^k \,dP \ge \int _{X\ge \ve } X^k\,dP \ge \int _{X\ge \ve } \ve ^k\,dP = \ve ^k P(X \ge \ve ). \label {dnCz} \end{equation}

Drugą nierówność otrzymujemy stosując nierówność pierwszą dla zmiennej losowej \(|X - m|\) oraz \(k = 2\).

Trzecia nierówność wynika z drugiej, gdy \(\ve = c \sigma \).   

Zauważmy, że w dowodzie, wzór (7.1), wykonaliśmy dwa razy szacowanie, które w wielu przypadkach jest bardzo niedokładne. Dlatego też

  • Wniosek – 7.2 (Reguła \(3\sigma \))

    \[\di P(|X - m| \ge 3 \sigma ) \le \frac {1}{9}.\]

Zauważmy, że w dowodzie nierówności Czebyszewa, wzór (7.1), wykonaliśmy dwa szacowanie, które w wielu przypadkach mogą być bardzo niedokładne (gdy \(\ve \) jest duże – pierwsze, gdy \(\ve \) jest małe – drugie). Dlatego też nierówność tę oraz płynące z niej wnioski warto traktować jako niezbyt precyzyjne. W przypadku, gdy znane są rozkłady interesujących nas zmiennych rezultaty otrzymane za pomocą nierówności Czebyszewa mogą być istotnie poprawione. Jednak, gdy nie znamy rozkładów, nierówność Czebyszewa może być bardzo pomocna.

Nierówność Czebyszewa służy do szacowania prawdopodobieństw na podstawie znajomości samych momentów, najczęściej nadziei oraz wariancji:

  • Przykład – 7.3 Załóżmy, że zmienna losowa o rozkładzie ciągłym ma parametry \(m = E(X) = 100\), \(\sigma = \sqrt {D^2(X)} = 2\). Szacujemy prawdopodobieństwo tego, że:

    (a) \(X \ge 110\).
    \(P(X \ge 110) = P(X - m \ge 10) \le P(|X - m| \ge 10) \le \frac {\sigma ^2}{10^2} = 0.04\).

    (b) \(X \le 105\).
    \(P(X \le 105) = 1 - P(X \ge 105) \ge 1 - \frac {\sigma ^2}{5^2} = 1 - 4/25 = 0.84\).

    (c) Szukamy takiej liczby \(M\), aby \(P(X < M) \ge 0.99\).
    Wiemy, że: \(P(X < M) = 1 - P(X \ge M) = 1 - P(X - m \ge M-m ) \ge 1 - P(|X - m | \ge M-m) \ge 1 - \frac {\sigma ^2}{(M-m)^2}\). Wystarczy więc znaleźć takie \(M\), że \(1 - \frac {\sigma ^2}{(M-m)^2} \ge 0.99\). Czyli, że \(\frac {\sigma ^2}{(M-m)^2} \le 0.01\). Stąd \(M \ge m + \frac {\sigma }{\sqrt {0.01}} = 120.\)

  • Przykład – 7.4 (Kontynuacja zadanie o malinach, Przykład 6.14) Można obliczyć, że przy optymalnej wartości \(a\) (137.5) odchylenie standardowe zmiennej \(Z\), \(\sigma = 89.92184106\). A więc zgodnie z regułą \(3\sigma \) zysk pośrednika zawiera się w przedziale \((86.4844768, 626.0155232)\) z prawdopodobieństwem większym niż \(\frac {8}{9}\) (ćwiczenie). W istocie wynik ten jest wysoce niedokładny, gdyż jak łatwo zauważyć. dla tej wartości \(a\) zysk zawiera sie w przedziale \((112.5,412.5)\).

  • Przykład – 7.5 (Kontynuacja, Przykładu 6.15) W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)). Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Wiemy, że. Dla \(N = 1000\), oraz \(p = 0.01\) optymalnymi ze względu na średnią liczbę analiz parametrami są: \(n = 10\), \(k = 100\). Wtedy oczekiwana liczba analiz wynosi \(m = E(X) = 195.68\).

    Pytanie: Czy liczba analiz może przekroczyć 200? 250? 300?

    Policzmy na przykład \(P(X \ge 300)\). Aby skorzystać z Nierówności Czebyszewa musimy policzyć wariancję \(X\).

    Pamiętamy, że \(X = X_1 + \dots + X_k\), gdzie \(X_i\) są niezależne o takim samym rozkładzie dwupunktowym \(P(X_1 = 1) = (1 - p)^n\), \(P(X_1 = n + 1) = 1 - (1 - p)^n\).

    Z niezależności:

    \[ D^2(X) = D^2(X_1)+ \dots + D^2(X_k). \]

    Można policzyć (w przybliżeniu): \(D^2(X_i) = 8.65\) oraz \(D^2(X) = 865.\) Podobnie jak w przykładzie poprzednim: \(P(X \ge 300) \le \frac {D^2(X)}{(300 - m)^2} = 0.0795\).

    Wynik ten można znacznie polepszyć. W istocie, \(P(X \ge 300)\) jest dużo mniejsze. Odpowiednie oszacowanie będzie możliwe, gdy poznamy szczególny charakter rozkładu zmiennej \(X\).