(image)

Rachunek prawdopodobieństwa 1, 2

13.3 Warunkowa wartość oczekiwana – sytuacja ogólna

Nadzieja warunkowa jest jednym z najważniejszych pojęć rachunku prawdopodobieństwa. Jest kilka obiektów, które określa się tym pojęciem i warto zrozumieć różnice i związki między nimi. Jak dotychczas wspomnieliśmy o wielkości \(E(Y|X=x)\) i była ona określona jako „zwykła" nadzieja rozkładu warunkowego \(P_{Y|X=x}\), ale zakładaliśmy, że \((X,Y)\) ma rozkład dyskretny albo rozkład ciągły. A gdy tak nie jest to co? To właśnie zobaczymy. Najważniejszym będzie zdefiniowanie pewnej zmiennej losowej, którą też nazwiemy nadzieją warunkową. Nie będzie to definicja konstruktywna tylko poprzez wymienienie własności, które ta zmienna losowa ma spełniać. Niedawno mówiliśmy już o tych własnościach, nazwaliśmy je (M) oraz (C) i pokazaliśmy, że istnieje obiekt, który je posiada. Więc nasza definicja nie będzie dotyczyć nieistniejących obiektów! Jednak pokażemy coś więcej, mianowicie, że w każdych okolicznościach istnieje zmienna losowa, która spełnia warunki (M), (C). I to tylko jedna z dokładnością do zbiorów miary zero! I to jest niezwykle ważne (i piękne), gdyż dzięki temu będzie można uzyskać szereg ważnych wyników. Na przykład już wkrótce powiemy, że warunkowanie obniża wariancje, co jest kolosalnie ważne w statystyce oraz w metodach Monte Carlo. A nawet wcześniej przedstawimy sposoby obliczania „zwykłej" nadziei poprzez warunkowania.

Prostą konsekwencją twierdzenia Radona-Nikodyma jest następujące:

  • Twierdzenie – 13.11 Niech \(Y\) będzie zmienną losową określoną na przestrzeni probabilistycznej (Ω, Σ, P ) , \(\a \subset \Sigma \) \(\s \)-algebrą. Zakładamy, że \(E(Y) \in \r \). Wtedy:

    Istnieje odwzorowanie \(\f :\Omega \str \r \) spełniająca warunki:

    (M) \(\f \) jest \(\a \) mierzalne.

    (C) Dla każdego \(A \in \a \) \(\int _A \f \,dP = \int _A Y\,dP\).

    Jeżeli odwzorowanie \(\psi :\Omega \str \r \) spełnia warunki (M) oraz (C), to \(\f = \psi \) prawie wszędzie (skrót p.w.), to znaczy \(P(\{\o : \in \Omega : \f (\o ) = \psi (\o )\}) = 1\).

Dowód. Można skorzystać z twierdzenie Radona-Nikodyma zastosowanego do funkcji \(\lambda \) określonej jako \(\lambda (A) = \int _A Y \,dP\) dla \(A \in \a \) (ponieważ \(E(Y) \in \r \) jest ona przeliczalnie addytywna) oraz miary \(P\).   

Powyższe twierdzenie powoduje, że następująca definicja ma sens.

  • Definicja – 13.12 (Nadzieja warunkowa względem \(\s \)-algebry.)

    \[E(Y|\a ) = \{\f :\Omega \str \r : \f \mbox { speÅĆnia warunki (M) oraz (C)} \}.\]

Poprzednie twierdzenie zapewnia, że \(E(Y|\a )\) jest zbiorem niepustym, a każde dwa jego elementy są sobie równe prawie wszędzie. Najczęściej (nieformalnie) nie rozróżnia się \(E(Y|\a )\) od jego elementów, czyli traktujemy \(E(Y|\a )\) jako odwzorowanie spełniające (M) oraz (C).

  • Przykład – 13.13 (zupełny brak informacji) Niech \(\a = \{\emptyset , \Omega \}.\) Wtedy każda funkcja stała spełnia (M).Gdy stała ta równa się \(E(Y)\), spełniony jest także warunek (C), Tak więc:

    \[E(Y|\a ) = E(Y).\]

  • Przykład – 13.14 (pełna informacja) Niech \(\a = \Sigma \). Wtedy sama zmienna losowa \(Y\) spełnia warunki (M) oraz (C).

    \[ E(Y|\a ) = Y. \]

  • Przykład – 13.15 (częściowa informacja) Niech \(A_i \in \Sigma \), \(i = 1,2,3, \dots , N\), \(N \le \infty \), będzie rozkładem \(\Omega \): \(\Omega = \bigcup _{i=1}^N A_i\), \(A_i \cap A_j = \emptyset \) dla \(i \neq j\). Zakładamy, że \(P(A_i) > 0\) dla wszystkich \(i\). Niech \(\a = \s (A_i: i =1,2,3, \dots N)\). Wtedy:

    \[ E(Y|\a )(\o ) = \frac {\int _{A_i}Y\,dP}{P(A_i)}, \mbox { dla } \o \in A_i. \]

    Wyraźnie widać, że powyższa funkcja jest stała na każdym zbiorze \(A_i\), jest więc A-mierzalna. Ponieważ każdy zbiór \(A \in \a \) jest pewną sumą rozłącznych zbiorów \(A_i\), więc warunek (C) wystarczy sprawdzić na każdym \(A_i\), co jest oczywiste (ćwiczenie).

  • Przykład – 13.16 Przypuśćmy, że wektor losowy \(X\) ma rozkład dyskretny skupiony w punktach \(x_i\), \(i = 1,2,3, ..., N, N \le \infty \). Biorąc \(A_i = X^{-}(x_i)\) mamy sytuację taką jak w poprzednim przykładzie; teraz \(\a = \s (X)\). W takim razie:

    \[ E(Y|\s (X))(\o ) = \frac {\int _{X=x_i}Y\,dP}{P(X = x_i)}, \mbox { gdy } X(\o ) = x_i. \]

    W sytuacji, gdy wektor \((X,Y)\) ma rozkład dyskretny określony przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\) mamy: \(\int _{X=x_i}Y\,dP = \sum _jy_jp_{ij}\), \(P(X = x_i) = \sum _jp_{ij}\). Więc

    \[ E(Y|\s (X))(\o ) = \frac {\sum _jy_jp_{ij}}{\sum _jp_{ij}} = E(Y|X=x_i) \mbox { gdy } X(\o ) = x_i, \]

    gdzie \(E(Y|X=x_i)\) oznaczała nadzieję matematyczną rozkładu warunkowego \(P_{Y|X=x_i}\).

Nadzieja warunkowa względem zdarzenia Czasami używa się określenia: nadzieja matematyczna warunkowa \(Y\) pod warunkiem \(W \in \Sigma \) i definiuje się ją jako, zakładając jednak, że \(P(W) > 0\).

\[ E(Y|W) =\frac {\int _{W}Y\,dP}{P(W)}. \]

W sytuacji opisanej w Przykładzie 13.15 widzimy, że \(E(Y|A_i) = E(Y|\a )(\o ) \mbox { dla } \o \in A_i.\)

UWAGA. Mamy tutaj niestety pewną kolizję oznaczeń. \(E(Y|X = x)\) nie zawsze oznacza \(E(Y|\{\o :X(\o ) = x\})\). Chociaż, gdy \(X\) ma rozkład dyskretny oraz \(P(X = x_i) > 0\), to te dwie wielkości są sobie równe.

  • Definicja – 13.17 (Nadzieja warunkowa względem wektora losowego) Niech \(Y: \Omega \str \r \) będzie zmienną losową, \(E(Y) \in \r \). Niech \(X : \Omega \str \r ^k\) będzie wektorem losowym. Definiujemy:

    \[ E(Y|X) = E(Y|\s (X)). \]

Z twierdzenia 13.7 wynika następująca uwaga.

  • Uwaga – 13.18 Gdy \((X,Y)\) jest wektorem losowym określonym na przestrzeni probabilistycznej (Ω, Σ, P ) o rozkładzie dyskretnym albo ciągłym, \(E(Y) \in \r \), to

    \[ E(Y|X)(\o ) = E(Y|X=X(\o )). \]

    Inaczej:

    \[E(Y|X) = \alpha (X) = \alpha \circ X,\]

    gdzie \(\alpha (x) = E(Y|X=x)\) dla tych \(x\) dla których w tych przypadkach została zdefiniowana \(E(Y|X=x)\).

\(E(Y|X)\) jest zawsze pewną funkcją \(X \).

  • Twierdzenie – 13.19 Niech \((X,Y)\) będzie takim wektorem losowym, że \(X : \Omega \str \r ^k\), \(Y : \Omega \str \r \), \(E(Y) \in \r \). Wtedy istnieje funkcja borelowska \(\alpha : \r ^k \str \r \), taka, że \(E(Y|X) = \alpha (X)\).

Twierdzenie to jest w istocie wnioskiem z bardziej ogólnego twierdzenia.

  • Twierdzenie – 13.20 Niech \(X : \Omega \str \r ^k\) będzie wektorem losowym oraz \(Z : \Omega \str \r \). Wtedy:
    \(Z\) jest odwzorowaniem \(\s (X)\) mierzalnym. \(\rwn \)
    Istnieje taka funkcja borelowska \(\alpha : \r ^k \str \r \), że \(Z = \alpha \circ X\).

Dowód. „\(\imp \)” Rozważamy przypadki:

I. \(Z = I_A\), gdzie \(A = X^{-1}(B)\), \(B\) jest zbiorem borelowskim w \(\r ^k\). Wtedy wystarczy wziąć: \(\alpha = I_B\).

II. \(Z\) jest funkcją prostą postaci \(Z = \sum _{i=1}^n c_i I_{A_i}\), gdzie \(A_i \in \s (X)\). Wtedy bierzemy: \(\alpha = \sum _{i=1}^n c_i \alpha _i\), gdzie \(\alpha _i\) są wybrane jak w punkcie I.

III. \(Z\) jest dowolną funkcją \(\s (X)\) mierzalną. Istnieje wtedy ciąg funkcji prostych \(\s (X)\) mierzalnych taki, że dla każdego \(\o \in \Omega \) \(\lim _{n\to \infty }Z_n(\o ) = Z(\o )\). Na podstawie II istnieją funkcje borelowskie \(\alpha _n\) takie, że dla wszystkich \(n\) \(Z_n = \alpha _n \circ X\).

Definiujemy funkcję \(\alpha : \r ^k \str \r \) jako:

\begin{equation} \label {defalfa} \alpha (x) = \left \{ \begin{array}{ll} \lim _{n \to \infty } \alpha _n(x), & \mbox { gdy } x \in X(\Omega )\\ 0, & \mbox { gdy } x \notin X(\Omega ). \end {array} \right . \end{equation}

Oczywiście \(\alpha \) jet borelowska (dlaczego?). Dla \(\o \in \Omega \) zachodzi wzór:

\[ Z_n(\o ) = \lim _{n \to \infty } \alpha _n(X(\o )), \]

więc \(X(\o )\) jest punktem \(x\) w którym istnieje \(\lim _{\to \infty } \alpha _n(x)\) i jest ona równa \(Z(\o )\). Czyli:

\[ Z = \alpha \circ X. \]

„\(\Longleftarrow \)" Dla dowolnego \(B \in {\cal B}(\r )\) \(Z^{-1}(B) = (\alpha \circ X)^{-1}(B) = X^{-1}(\alpha ^{-1}(B)) \in \s (X)\).   \(\Box \)

Zauważmy, że we wzorze (13.4) można by zadać wartość \(\alpha (x)\) dla \(x \notin X(\Omega )\) na wiele różnych sposobów i nie zmieniłoby to dalszego rozumowania. Tak więc funkcja \(\alpha \) nie jest wyznaczona jednoznacznie na zbiorze \(\r ^k \setminus X(\Omega )\).

Gdy wektor losowy \((X,Y)\) ma rozkład dyskretny lub rozkład ciągły możemy w sposób naturalny mówić o nadziejach warunkowych \(E(Y|X=x)\) – tak postąpiliśmy na początku tego rozdziału. Możemy jednak rozszerzyć określenie \(E(Y|X=x)\) nie zakładając nic o rozkładach. Mianowicie możemy postawić następującą definicję:

  • Definicja – 13.21

    \[ E(Y|X=x) := \alpha (x), x \in \r ^k, \]

    gdzie \(\alpha \) jest funkcją określoną w twierdzeniu 13.19.

Ze względu na możliwą niejednoznaczność funkcji \(\alpha \) wielkość powyższa nie jest jednoznacznie określona dla wszystkich \(z \in \r ^k\). Nie ma to jednak istotnego znaczenia. Na przykład, gdy \(X\) ma rozkład dyskretny skupiony na zbiorze \(K\), to wartość funkcji \(\alpha \) poza tym zbiorem są nieistotne. Tak więc, gdy \(x \notin K\), wartości \(E(Y|X=x)\) są niejednoznacznie określone, ale nie ma to dla nas żadnego znaczenia.

Zawsze można mówić o nadziei warunkowej \(E(Y|X)\); jest to pewna zmienna losowa. Natomiast Twierdzenie 13.19 gwarantuje, że zawsze też można mówić o nadziei warunkowej \(E(Y|X=x)\); jest to liczba. W przypadku, gdy wektor losowy ma rozkład dyskretny lub rozkład ciągły pokazaliśmy, że powyższa definicja \(E(Y|X=x)\) pokrywa się z naturalną definicją postawioną w tamtych przypadkach. Także w wielu innych przypadkach można w sposób naturalny zinterpretować \(E(Y|X=x)\).

  • Przykład – 13.22 (c.d. Przykładu 13.1) \(E(Y|X)\) jest zmienną losową przyjmującą wartości \(\frac {7}{2}\), \(\frac {14}{3}\), \(\frac {14}{3}\) z prawdopodobieństwami \(\frac {1}{6}\), \(\frac {5}{12}\), \(\frac {5}{12}\). Czyli \(\alpha (0) = \frac {7}{2}\), \(\alpha (1) = \frac {14}{3}\), \(\alpha (2) = \frac {14}{3}\). Poza tymi trzema punktami możemy określać wartości \(\alpha \) jak tylko chcemy.

  • Przykład – 13.23 (c.d. Przykładu 13.2) W tamtym przykładzie wyznaczyliśmy nadzieję warunkową \(E(Y|X=x)\) dla \(0< x \le 1\). Mianowicie: \(\di E(Y|X=x) = \frac {x}{2}\). W takim razie nadzieja warunkowa \(\di E(Y|X) = \frac {X}{2}\). Tutaj \(\alpha (x) = \frac {x}{2}\) dla \(0< x \le 1\) oraz 0 dla pozostałych \(x\) (zamiast 0 mogło być na przykład 27 i nie ma to znaczenia, gdyż zmienna losowa \(X\) nie przyjmuje wartości poza \((0,1]\), końce odcinka jako zbiory miary zero mogą być uwzględniane lub nie).

    Podobnie \(\di E(X|Y=y) = \frac {1-y}{- \ln y}\) dla \(0 < y < 1\), więc \(\di E(X|Y) = \frac {1-Y}{- \ln Y}\).

Rozważa się też prawdopodobieństwo warunkowe zdarzenia względem \(\s \)-algebry, a więc także względem wektora losowego, jako szczególny przypadek nadziei warunkowej.

  • Definicja – 13.24 Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną \(\a \subset \Sigma \) \(\s \)-algebrą, \(C \in \Sigma \). Określamy prawdopodobieństwo warunkowe zbioru \(C\) względem \(\s \)-algebry \(\a \) jako:

    \[ P(C|\a ) = E(I_C|\a ). \]

Gdy \(X :\Omega \str \r ^k\) jest wektorem można więc mówić o \(P(C|X)\) oraz o \(P(C|X=x)\):

\[P(C|X) = P(C|\s (X)) = E(I_C|X) \‚\mbox { oraz } \‚P(C|X=x) = E(I_C|X=x). \]

  • Twierdzenie – 13.25 (Własności nadziei warunkowych)

    Niech (Ω, Σ, P ) będzie przestrzenią probabilistyczną, \(\a \subset \Sigma \) – \(\s \)-algebrą, \(Y :\Omega \str \r \), \(E(Y) \in \r \). Wtedy

    • 1. \(E(c|\a ) = c\), dla \(c \in \r \).

    • 2. \(E(E(Y|\a )) = E(Y).\)

    • 3. \(Y \ge 0\) p.w. \(\imp E(Y|\a ) \ge 0\) p.w.

    • 4. \(E(Y_1 + Y_2|\a ) = E(Y_1|\a ) + E(Y_2|\a )\), o ile prawa strona istnieje.

    • 5. \(E(cY|\a ) = cE(Y|\a )\), dla \(c \in \r \).

    • 6. \(Y_1 \le Y_2 \) p.w. \(\imp E(Y_1|\a ) \le E(Y_1|\a )\) p.w.

    • 7. \({\cal B} \subset \a \) – \(\s \)-algebra \(\imp E(E(Y|\a )|{\cal B}) = E(Y|{\cal B}).\)

    • 8. \({\cal B} \subset \a \) – \(\s \)-algebra \(\imp E(E(Y|{\cal B})|\a ) = E(Y|{\cal B}).\)

    • 9. \(Y_1 \ge 0\) p.w., \(Y_n \nearrow Y\) p.w. \(\imp E(Y_n|\a ) \nearrow E(Y|\a )\) p.w.

    • 10. \(|Y_n| \le Z\), \(E(Z) \in \r \), \(Y_n \stackrel {1}{\str } Y \imp E(Y_n|\a ) \stackrel {1}{\str } E(Y|\a )\).

Dowód. Dowody wszystkich tych własności są standardowe i opierają się na definicji nadziei warunkowej i na klasycznych własnościach całek. Dla przykładu udowodnimy dwie własności.

Własność 2. Korzystając z warunku (C) oraz tego, że \(\Omega \in \a \) mamy: \(E(E(Y|\a )) = \int _\Omega E(Y|\a )\,dP = \int _\Omega Y\,dP =E(Y)\).

Własność 8. Pokażemy, że prawa strona spełnia warunki (C) oraz (M) ze względu na zmienną losową \(E(Y|{\cal B})\) oraz \(\sigma \)-algebrę \(\a \). Zmienna losowa \(E(Y|{\cal B})\) jest \(\cal B\) mierzalna, a więc też A mierzalna. Niech \(A \in \a \). Wtedy \(\int _ A E(E(Y|{\cal B})|\a )\,dP = \int _A E(Y|{\cal B})\,dP\), ale to oznacza żądany warunek (C). Prawa strona jest więc równa \(E(E(Y|{\cal B})|\a )\).   \(\Box \)

Powyższe oraz następne własności można sformułować dla nadziei warunkowych postaci \(E(Y|X=x)\).

  • Twierdzenie – 13.26 Niech \(Y\) będzie wektorem losowym, \(E(Y) \in \r \).

    • 1. Jeżeli \(X :\Omega \str \r ^k\) jest wektorem losowym takim, że \(X,Y\) są niezależne, to \(E(Y|X) =E(Y)\).

    • 2. Jeżeli \(Z\) jest \(\a \)- mierzalna oraz \(E(ZY) \in \r \), to \(E(ZY|\a ) = ZE(Y|\a )\).

    • 3. Jeżeli \(g :\r ^k \str \r \) jest funkcją borelowską, \(E(g(X)) \in \r \), to \(E(g(X)|X) = g(X)\).

    • 4. Jeżeli \(X\) jest zmienną losową, \(E(X) \in \r \), to \(E(X|X) = X\).

Dowód. Własność 1.Załóżmy najpierw, że \(Y = I_A\), gdzie \(A \in \Sigma \). Wtedy \(E(I_A) = P(A)\) jest funkcją stałą i w związku z tym jest mierzalna względem \(\s (X)\). Wtedy też zachodzi warunek (C): dla \(B = X^{-1}(D) \in \s (X)\) mamy:

\[\int _B Y \,dP = \int _A I_B\,dP = \int _{A\cap B}dP = P(Y^{-1}(\{1\})\cap X^{-1}(D) ) = \]

\[ P(Y^{-1}(\{1\})) \cdot P( X^{-1}(D) ) = P(A)P(B) = \int _B E(Y)\,dP.\]

Zachodzi więc własność 1 dla funkcji charakterystycznych \(Y\). Z liniowości zachodzi dla funkcji prostych \(Y\), a poprzez standardowe przejście graniczne dla dowolnych \(Y\).

Własność 2. Dowodzi się jak poprzednio, zaczynając od przypadku \(Z = I_A\), gdzie \(A \in \a \) (ćwiczenie).

Własność 3. Wystarczy wziąć \(Z =g(X)\), \(Y = 1\) oraz \(\a =\s (X)\) i skorzystać z własności 2.

Własność 4. Wystarczy we Własności 3 wziąć \(g(x) = x\).