(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 6 Nadzieja matematyczna i wariancja

W pewnych zagadnieniach nie jest potrzebna (lub nie jest możliwa) znajomość rozkładu zmiennej losowej lub wektora losowego. Natomiast warto znać pewne parametry tego rozkładu. Najczęściej używanymi parametrami są liczby charakteryzujące tendencję centralną oraz wielkość rozrzutu. Kluczową rolę odgrywa tak zwana nadzieja matematyczna. zwana też wartością oczekiwaną, służąca do opisu tendencji centralnej oraz do budowy wielu innych parametrów, w tym parametrów charakteryzujących rozrzut; wariancji i odchylenia standardowego.

6.1 Nadzieja matematyczna – definicja i własności

Zanim podamy ogólną definicję \(E(X)\), nadziei matematycznej zmiennej losowej \(X\), opartą na pojęciu całki, rozpatrzymy dwa najbardziej typowe sytuacje szczególne.

  • Definicja – 6.1 (Rozkład dyskretny skończony) \(X\) ma rozkład zadany przez ciągi: \(x_1,x_2, \dots , x_n\), \(p_1,p_2, \dots , p_n\). Czyli \(P(X = x_i) = p_i\)

    \[E(X) = \sum _{i=1}^nx_ip_i.\]

  • Definicja – 6.2 (Rozkład ciągły) \(X\) ma rozkład zadany przez gęstość \(f\). Czyli \(P(X \in (a,b)) = \int _a^b f(x)\,dx\)

    \[E(X) = \int _{-\infty }^\infty x\cdot f(x)\,dx.\]

Motywacja: Dla uproszczenia załóżmy, że \(f :[a,b] \str \r \) jest funkcją ciągłą. Niech \(a = x_0 < x_1 < \dots < x_n = b\) będzie podziałem odcinka \([a,b]\), \(\xi _i \in [x_{i-1},x_i] \) będą takie, że

\[(x_i - x_{i-1}) f(\xi _i) = \int _{x_{i-1}}^{x_i} f(x)\,dx.\]

Określmy zmienną losową \(\hat {X}\) przyjmującą wartości \(\xi _i\) z prawdopodobieństwami \(p_i = P(\hat {X} = \xi _i) = \int _{x_{i-1}}^{x_i} f(x)\,dx\). Intuicja: \(\hat {X}\) przybliża \(X\), więc \(E(\hat {X})\) powinna przybliżać \(E(X)\). Mamy:

\(E(\hat {X}) = \sum _{i=1}^n\xi _i p_i = \sum _{i=1}^n\xi _i (x_i - x_{i-1}) f(\xi _i) = \sum _{i=1}^n\xi _i f(\xi _i) (x_i - x_{i-1})\).

A więc

\[E(\hat {X}) \str \int _a^b x f(x)\,dx.\]

  • Przykład – 6.3 Załóżmy, że zmienna losowa \(X\) ma rozkład jednostajny na przedziale \([a,b]\). Oznacza to, że gęstość \(f_X = \frac {1}{b-a}I_{[a,b]}\). Mamy więc:

    \(\di E(X) = \int _{\r } x \frac {1}{b-a}I_{[a,b]}\,dx = \frac {1}{b-a} \int _a^b x\,dx = \frac {1}{b-a}(\frac {b^2}{2} - \frac {a^2}{2} ) = \frac {a+b}{2}\).

  • Przykład – 6.4 Zmienna losowa \(X\) ma gęstość:

    \[ f(x) = \frac {x^2(20 - x)^6}{c}, \hbox { dla } 0 \le x \le 20, \]

    gdzie \(c = \frac {128000000000}{63}\), \(f(x) = 0 \) dla pozostałych \(x\). Tego typu rozkłady mają na przykład okresy używania samochodu przez jednego właściciela.

    \[ E(X) = \int _{-\infty }^\infty x \cdot f(x)\,dx = \int _{0}^{20} x \cdot \frac {x^2(20 - x)^6}{c} \,dx = 6.\]

(image)

Powyższe dwie definicje stanowią szczególne przypadki definicji opartej na pojęciu całki. Zaczniemy od przypomnienia definicji całki.

  • Definicja – 6.5 (całka względem miary) Niech \(\Omega \) będzie niepustym zbiorem, \(\Sigma \) \(\sigma \)-algebrą na zbiorze \(\Omega \), \(\mu : \Sigma \str \r \cup \infty \) miarą, a \(f: \Omega \str \r \) funkcją.

    1. Niech \(f = I_A\) będzie funkcją charakterystyczną zbioru \(A \in \Sigma \), \(f = I_A\). Definiujemy:

    \[ \int _\Omega f\,d\mu = \mu (A). \]

    2. Niech \(f\) będzie mierzalną funkcją prostą nieujemną, to znaczy:

    \[ f(x) = c_i, \mbox { dla } x \in A_i, \]

    gdzie \(A_1, \dots , A_k\) są zbiorami mierzalnymi parami rozłącznymi i dającymi w sumie całą przestrzeń \(\Omega \), a liczby \(c_1, \dots , c_k\) są nieujemne. Definiujemy:

    \[ \int _\Omega f\,d\mu = \sum _{i=1}^kc_i\int _\Omega I_{A_i}\,d\mu = \sum _{i=1}^kc_i \mu (A_i). \]

    3. Niech \(f\) będzie funkcją mierzalną nieujemną. Dowodzi się, że istnieją funkcje proste nieujemne mierzalne \(f_n\), \(n = 1,2,3, \dots \) o następujących własnościach:

    \[ f_n(x) \le f_{n+1}(x), \]

    dla wszystkich \(n\) oraz \(x\), i

    \[ \lim _{n \to \infty } f_n(x) = f(x). \]

    Definiujemy:

    \[ \int _\Omega f\,d\mu = \lim _{n \to \infty } \int _\Omega f_n\,d\mu . \]

    4. Niech \(f\) będzie dowolną funkcją mierzalną. Jak łatwo widać, zachodzi związek:

    \[ f = f^+ - f^-, \]

    gdzie \(f^+(x) = \max (f(x),0)\), \(f^-(x) = -\min (f(x),0)\). Są one nieujemnymi funkcjami mierzalnymi. Definiujemy:

    \[ \int _\Omega f\,d\mu = \int _\Omega f^+\,d\mu - \int _\Omega f^-\,d\mu , \]

    o ile ma sens.

Komentarze.

1. Definicja jest poprawna, gdyż dowodzi się, że wielkość zdefiniowana w punkcie 3 nie zależy od wyboru ciągu funkcji \(f_n\).

2. Może się zdarzyć, że definiowane przez nas wielkości są nieskończone. Tak będzie w punkcie 1 oraz 2, gdy miara choćby jednego zbioru \(A_i\) będzie nieskończona, a odpowiadająca mu liczba \(c_i\) (wysokość słupka o podstawie \(A_i\)) będzie dodatnia. W teorii miary przyjmujemy konwencję: \(0\, \infty = 0\), co oznacza, że gdy \(c_i = 0\), to składnik \(c_i \mu (A_i) = 0\).

3. Całka z funkcji nieujemnej \(f\) zdefiniowana w punkcie 3 może być nieskończona, mimo że wszystkie całki \(\di \int _\Omega f_n\,d\mu \) są skończone.

4. Natomiast całka z pewnych funkcji mierzalnych przyjmujących wartości o różnych znakach może nie istnieć. Jest tak wtedy, gdy obie całki \(\di \int _\Omega f^+\,d\mu \) oraz \(\di \int _\Omega f^-\,d\mu \) są nieskończone. W każdym innym przypadku całka istnieje, chociaż może być nieskończona.   

5. Stosuje się różne oznaczenia całki \(\int _\Omega f\,d\mu \). Na przykład: \(\int _\Omega f(x)\,d\mu (x)\), \(\int _\Omega f(s)\,\mu (ds)\).

6. Dla zbioru mierzalnego \(A \in \Sigma \) definiuje się: \(\int _A f \,d\mu = \int _\Omega I_A\cdot f \,d\mu \).

Definicja ogólna nadziei matematycznej.

  • Definicja – 6.6 (Nadzieja matematycznej, wartość oczekiwana) Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(X : \Omega \to \r \) zmienną losową.

    \[ E(X) = \int _\Omega X \,dP. \]

Uwagi:

  • 1. Nadzieja matematyczna może nie istnieć.

  • 2. Nadzieja matematyczna może istnieć, ale być nieskończona.

  • 3. \(E(X) \in \r \rwn E(|X|) \in \r \). Bo \(X = X^+ - X^-\), \(|X| = X^+ + X^-\).

  • 4. Własności nadziei matematycznej wynikają z własności całek: liniowość, nierówności, zbieżność (ćwiczenie: wypisać znane własności).

  • 5. Nadzieja matematyczna uogólnia pojęcie prawdopodobieństwa. Mianowicie

    \[ E(I_A) = P(A), \mbox { dla kaÅijdego } A \in \Sigma .\]

  • 6. Niech \(X\) ma rozkład dyskretny. Wtedy definicja ogólna pokrywa się z definicją poprzednią.

Powyższa definicja uogólnia poprzednie definicje.

  • Przykład – 6.7 \(X\) ma rozkład zadany przez ciągi: \(x_1,x_2, \dots , x_n\), \(p_1,p_2, \dots , p_n\).

    Czyli \(P(X = x_i) = p_i\).

    Więc \(X\) jest kombinacją liniową funkcji charakterystycznych zbiorów \(A_i = \{\o \in \Omega : X(\o ) = x_i\}\). Oczywiście \(P(A_i) = p_i\). Mamy kolejno:

    \[ X = \sum _{i=1}^nx_iI_{A_i}. \]

    \[ E(X) = E\left (\sum _{i=1}^nx_iI_{A_i}\right ) = \sum _{i=1}^nx_i E(I_{A_i}) = \sum _{i=1}^nx_i p_i . \]

Poniższe twierdzenie pozwala wyznaczać nadzieję matematyczną zmiennej losowej lub funkcji zmiennej losowej poprzez całkowanie odpowiedniej funkcji względem rozkładu zmiennej.

  • Twierdzenie – 6.8 (całkowanie względem transportu miary) Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(g: \rn \to \r \) funkcją borelowską. Wtedy:

    \[ E(g(X)) = \int _{\rn } g\,dP_X, \]

    przy czym obydwie strony istnieją jednocześnie.

Dowód. I. \(g = I_B\), gdzie \(B \in \b {\rn }\). Wtedy: \(\di E(g(X)) = \int _\Omega I_B \circ X \,dP\) \(\di = \int _{X^{-1}(B)} 1\, dP = P(X^{-1}(B) ) = P_{X}(B) = \int _{\rn } I_B \,dP_X\).

II. \(g\) – funkcja schodkowa, czyli \(g = \sum _{i=1}^kc_i I_{A_i}\), gdzie \(A_I\) są rozkładem \(\rn \) na sumę zbiorów rozłącznych. Wtedy z liniowości: \(\di E(g(X)) = E(\sum _{i=1}^kc_i I_{A_i}) = \sum _{i=1}^kc_i E(I_{A_i}) = \sum _{i=1}^kc_i \int _{\rn }I_{A_i}\,dP_X = \int _{\rn } g \,dP_X\). III. \(g\) dowolna funkcja borelowska nieujemna. Wtedy \(g\) jest granicą punktową ciągu rosnącego funkcji schodkowych \(g_t\). Oczywiście \(g_t(X)\) zmierza punktowo do \(g(X)\).

Z własności całek: \(\di E(g(X)) = \lim E(g_t(X)) = \lim \int _{\rn } g_t\, dP = \int _{\rn } g\,dP\).

IV. \(g\) – dowolna funkcja borelowska. Wtedy \(g = g^+ - g^-\). Więc \(g(X)= g(X)^+ - g(X)^-\). A więc, gdy jedna ze stron istnieje (nie jest symbolem nieoznaczonym), to istnieje druga strona i zachodzi równość.   \(\Box \)

  • Wniosek – 6.9 Kładąc \(g(x) = x\) z powyższego twierdzenia otrzymujemy dla zmiennej loswej \(X\) wzór:

    \[ E(X) = =\int _\r Id\,dP_X = \int _\r x\,dP_X(x). \]

    A więc nadzieja matematyczna zmiennej losowej jest jednoznacznie wyznaczona przez rozkład tej zmiennej.

  • Uwaga – 6.10 Można spotkać definicję wartości oczekiwanej dowolnego jednowymiarowego rozkładu \(Q\). Mianowicie określa się \(E(Q) = \int _\r x\,dQ(x)\). Wtedy oczywiście \(E(X) = E(P_X)\).

  • Twierdzenie – 6.11 1. \(X\) ma rozkład dyskretny zadany przez ciągi: \(x_1,x_2, \dots , \in \rn \), \(p_1,p_2, \dots , \).

    \(g :\rn \to \r \) jest funkcją borelowską. \(\imp \)

    \[E(g(X)) = \sum g(x_i)p_i,\]

    przy czym obydwie strony istnieją jednocześnie1.

    2. \(X\) ma rozkład ciągły zadany przez gęstość \(f :\rn \to \r \).
    \(g :\rn \to \r \) jest funkcją borelowską. \(\imp \)

    \[E(g(X)) = \int _{\rn } g(x) f(x) \,dx,\]

    przy czym obydwie strony istnieją jednocześnie. Całkowanie odbywa się według miary Lebesgue’a.

Dowód. Ad 1 – jak poprzednio (ćwiczenie). Ad 2 – jak poprzednio (ćwiczenie).   

  • Wniosek – 6.12 \(X\) jest zmienną losową o rozkładzie dyskretnym \((\{x_i\},\{p_i\})\), lub ma gęstość \(f :\r \to \r \). \(\imp \)

    \[ E(X) = \sum _ix_ip_i , \mbox { \ lub \ } E(X) = \int _\r xf(x)\,dx. \]

  • Przykład – 6.13 Znaleźć \(E(X^2)\) dla zmiennej losowej \(X\) mającej rozkład jednostajny na odcinku \([-1,1]\). Gęstość \(X\) wyraża się więc wzorem \(f(x) = \frac {1}{2}I_{[-1,1]}\).

    Sposób 1. Szukam rozkładu \(X^2\) i korzystam z definicji nadziei dla zmiennej \(X^2\). Najpierw wyznaczam dystrybuantę \(F_{X^2}\). Nietrywialna sytuacja jest, gdy \(0 < x < 1\).

    \(\di F_{X^2}(x) = P(X^2 \le x) = P(-\sqrt {x} \le X \le \sqrt {x}) = \int _{-\sqrt {x}}^{\sqrt {x}} f(x)\,dx = \sqrt {x}\). \(\di f_{X^2}(x) = (F_{X^2})'(x) = \frac {1}{2 \sqrt {x}}\).

    \(\di E(X^2) = \int _{\r } x f_{X^2}(x)\,dx = \int _0^1 x f_{X^2}(x)\,dx = \int _0^1 \frac {1}{2} x^{\frac {1}{2}} = \frac {1}{3}. \)

    Sposób 2. Korzystam z poprzedniego twierdzenia. Tutaj \(g(x) = x^2\).

    \(\di E(X^2) = \int _\r g(x)f(x)\,dx = \int _{-1}^1 \frac {1}{2}x^2 = \frac {1}{3}\).

  • Przykład – 6.14 Pośrednik w handlu świeżą żywnością kupuje u producenta maliny w cenie 5 zł/kg i sprzedaje na lokalnym rynku po 8 zł/kg. Pośrednik zna dość dobrze popyt na tym rynku — przyjmijmy dla uproszczenia, że wszyscy klienci detaliczni łącznie każdego dnia mogą zażądać dowolnej ilości malin z przedziału \([100, 200]\) kg (zgodnie z rozkładem jednostajnym). Ile kilogramów malin dziennie powinien kupować pośrednik, aby zmaksymalizować swoje zyski? Zakładamy, że maliny niesprzedane danego dnia psują się i trzeba je wyrzucić.

    Załóżmy, że pośrednik kupuje \(a\) kilogramów malin, \(100 \le a \le 200\). Niech \(X\) oznacza dzienne zapotrzebowanie na maliny. \(X\) jest więc zmienną losową o rozkładzie jednostajnym na przedziale \([100, 200]\), czyli gęstość \(X\), \(f_X\) jest równa \(1/100\) w tym przedziale i zero w pozostałych przypadkach. W takim razie pośrednik sprzeda \(Y = \min (a,X)\) malin, a jego dzienny zysk wyniesie \(Z = 8Y - 5 a\) złotych.

    Chcemy więc wskazać taką wartość \(a\), przy której średni zysk będzie największy. W pierwszym momencie wydaje się, że wystarczy naleźć rozkład \(Y\) i skorzystać z odpowiedniego wzoru. Jednak trudnością jest to, że rozkład zmiennej losowej \(Y\) nie jest ani dyskretny ani ciągły (dlaczego?). Niemniej skorzystamy z poprzedniego twierdzenia dla zmiennej \(X\) oraz funkcji \(g(x) = \min (a,x)\) i obliczymy wartość oczekiwaną \(E(Y)\).

    \[ E(Y) = \int _\r \min (a,x)\frac {1}{100}I_{[100,200]}(x)\,dx = \frac {1}{100}\left (\int _{100}^a x\,dx + \int _a^{200} a\,dx\right ). \]

    Jak widać jest to funkcja kwadratowa zmiennej \(a\), a więc \(E(Z)\) też jest funkcją kwadratową \(a\) i można łatwo wyznaczyć punkt, w którym przyjmuje ona wartość największą. Mianowicie:

    \(E(Z) = 8E(Y) - 5a = - \frac {1}{25}a^2 + 11a - 400\) i najmniejszą wartość przyjmuje, gdy \(a = \frac {275}{2} = 137.5\). Wtedy \(E(Z) = 356.25\) jest oczekiwanym zarobkiem pośrednika.

  • Przykład – 6.15 W celu zbadania dużej populacji osób, podzielono ją na grupy, a następnie pobrano od każdej osoby krew oraz przeprowadzano analizę łączną dla poszczególnych grup, wykonując odpowiedni test na próbkach powstałych przez zmieszanie krwi osób należących do tej samej grupy. Gdy w pewnej grupie wykryto wirus chorobowy, przeprowadzano odrębną analizę dla każdej osoby z tej grupy. Załóżmy, że liczebność populacji wynosi \(N\), liczność grup wynosi \(n\), zaś \(k\) niech będzie liczbą grup (oczywiście \(N = nk\)).

    Zakładamy też, że prawdopodobieństwo tego, że dany człowiek jest zarażony interesującym nas wirusem wynosi \(p\) oraz że obecność wirusa u danej osoby jest niezależna od jego obecności u innych osób.

    Na przykład. \(N = 1000\), \(k = 20\), \(n = 50\), \(p = 0.01\).

    1. Ile analiz będzie trzeba przeprowadzić?

    2. Dobrać wielkość grupy \(n\), tak aby liczba wszystkich (bardzo kosztownych) analiz była, w pewnym sensie, minimalna.

    Określamy \(X\):

    \[ X \hbox { -- liczba wszystkich potrzebnych analiz. } \]

    Bezpośrednie wyznaczenie rozkładu \(X\) jest trudne.

    \[ X = X_1 + X_2 + \dots + X_k. \]

    \(X_1, X_2, \dots , X_k\) są niezależne i mają taki sam rozkład. Wystarczy znaleźć rozkład, na przykład, \(X_1\).

    \(X_1\) przyjmuje dwie wartości:

    • 1. \(X_1 = 1\) – wszystkie osoby w grupie pierwszej są zdrowe.

    • 2. \(X_1 = n+1\) – w przeciwnym przypadku.

    \[ P(X_1 = 1) = (1-p)^n, \ \ \ \ \ P(X_1 = n+1) = 1 - (1-p)^n. \]

    \[E(X_1) = 1\cdot (1-p)^n + (n+1)\cdot (1 - (1-p)^n) = n+1 - n (1-p)^n. \]

    \[ E(X) = E(X_1) + E(X_2) + \dots + E(X_k) = k \cdot E(X_1). \]

    \[ E(X) = k\cdot ( n+1 - n (1-p)^n ) = \frac {N}{n}(n+1 - n (1-p)^n). \]

    Na przykład. \(N = 1000\), \(k = 20\), \(n = 50\), \(p = 0.01\). Wtedy, \(E(X) = 414.99\).

    Optymalizacja. Nadzieja matematyczna \(E(X)\) jako funkcja wielkości grupy. \(n\)

    (image) (image)

    \(n = 10\) – wartość optymalna. Wtedy \(E(X) = 195.68\).

    Pytanie: Czy liczba analiz może przekroczyć 200? 250? 300?

Wspomnieliśmy już poprzednio, że nadzieja matematyczna może nie istnieć.

  • Przykład – 6.16 Niech \(X\) będzie zmienną losową o rozkładzie \(U(0,1)\). Niech \(W = 1/X\). Łatwo wyznaczyć \(f_W\), gęstość \(W\) (ćwiczenie). Mianowicie:

    \[ f_W(w) = \left \{\begin {array}{ll} 0, & \mbox { dla } w < 1\\ \frac {1}{w^2}, & \mbox { dla } 1 < w. \end {array} \right . \]

    \[ E(W) = \int _{\r } w f_W(w)\,dw = \int _0^\infty \frac {1}{w}\,dw = \infty . \]

  • Twierdzenie – 6.17 (Nadzieja iloczynu) Niech \(X\), \(Y\) będą NIEZALEŻNYMI zmiennymi losowymi określonymi na tej samej przestrzeni probabilistycznej (Ω, Σ, P ) .

    Jeżeli \(X \ge 0\), \(Y\ge 0\), lub \(E(X), E(Y) \in \r \), to

    \[ E(XY) = E(X)E(Y). \]

Dowód. W dowodzie skorzystamy z twierdzenia Fubiniego, oraz z twierdzeń 5.24 i 6.8. W pierwszym przypadku mamy

\begin{eqnarray*} E(X Y) & = & \int _{[0,\infty )^2}xy\,dP_{(X,Y)}(x,y) = \int _{[0,\infty )^2}xy\;d(P_X \times P_Y)(x,y) = \\ & = & \int _{[0,\infty )}x\,dP_X(x)\;\int _{[0,\infty )}y\,dP_Y(y) = E(X) E(Y). \end{eqnarray*}

Można było stosować twierdzenie Fubiniego, ponieważ – jak wiemy – zachodzi ono dla wszystkich funkcji mierzalnych nieujemnych.

Załóżmy teraz, że \(E(|X|) < \infty ,\; E(|Y|) < \infty \). Stosujemy udowodniony powyżej wzór dla funkcji nieujemnych \(|X|\) oraz \(|Y|\) i mamy

\[ \int _{{\bf R}^2}|xy|\,dP_{(X,Y)}(x,y)= E(|XY|)= E(|X|)E(|Y|) < \infty . \]

Ale to oznacza, że znowu możemy zastosować twierdzenie Fubiniego i podobnie jak poprzednio

\begin{eqnarray*} E(X Y) & = & \int _{{\bf R}\times {\bf R}}xy\,dP_{(X,Y)}(x,y) = \int _{{\bf R}\times {\bf R}}xy\;d(P_X \times P_Y)(x,y) = \\ & = & \int _{{\r }}x\,dP_X(x)\;\int _{{\r }}y\,dP_Y(y) = E(X) E(Y). \end{eqnarray*}

  

1 Zbieżność szeregu rozumiana jest w sposób opisany w Definicji 6.5.