(image)

Rachunek prawdopodobieństwa 1, 2

Rozdział 13 Warunkowa wartość oczekiwana

13.1 Wartości oczekiwana rozkładów warunkowych

Zdefiniowaliśmy poprzednio rozkłady warunkowe w przypadku dwuwymiarowego wektora losowego o rozkładzie dyskretnym lub ciągłym. Można to powtórzyć dla wyżej wymiarowych wektorów losowych:

Niech \((X,Y)\) będzie będzie \(n\times m\)-wymiarowym wektorem losowym o dyskretnym rozkładzie danym przez \((\{(x_i,y_j)\},\{ p_{ij}\} )\). Czyli \(P(X = x_i,Y = y_j) = p_{ij}\). Niech:

\begin{equation} \label {eq:w1} p_{j|i} = P(Y=y_j|X=x_i) = \frac {P(X=x_i,Y=y_j)}{P(X=x_i)} = \frac {p_{ij}}{p_{i.}} = \frac {p_{ij}}{\sum _kp_{ik}}. \end{equation}

Rozkład dany przez ciągi \(\{y_j\}, \{p_{j|i}\}\) nazywamy rozkładem warunkowym \(Y\) pod warunkiem \(X= x_i\). Oznaczamy go jako \(P_{Y|X=x_i}\)..

Jeżeli \(m=1\), czyli gdy \(Y\) jest zmienną losową, \(P_{Y|X=x_i}\) jest rozkładem jednowymiarowym i wtedy można mówić o jego nadziei matematycznej, patrz Uwaga 6.10. Jeżeli istnieje, to dla powyższego rozkładu będzie to liczba oznaczana przez \(E(Y|X=x_i)\), a więc:

\[ E(Y|X=x_i) = \sum _j y_jp_{j|i} \]

  • Przykład – 13.1

    Przypomnijmy przykład dotyczący wektora losowego \((X,Y)\) o rozkładzie określonym przez tabelkę:

    \[ \begin {array}{cccccccc} $X$\backslash $Y$ & 1 & 2 & 3 & 4 & 5 & 6 & \ \color {red}{X} \\[1mm] 0 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & 1/36 & \color {red}{1/6}\\ 1 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12}\\ 2 & 0 & 1/36 & 2/36 & 3/36 & 4/36 & 5/36 & \color {red}{5/12} \\[1mm] \color {blue}{Y} & \color {blue}{1/36} & \color {blue}{3/36} & \color {blue}{5/36} & \color {blue}{7/36} & \color {blue}{9/36} & \color {blue}{11/36} \end {array} \]

    \(X\) oraz \(Y\) były określone w kontekście rzutu dwiema kostkami: \(X\) – numer kostki na której wypadła większa liczba, lub \(0\), gdy liczby były równe.

    \(Y\) – maksimum oczek na dwóch kostkach.

    Rozkładem warunkowym \(P_{Y|X=0}\) jest rozkład jednostajny w punktach \(1, 2, 3, 4, 5, 6\), a więc \(E(Y|X=0) = 3.5\).

    Rozkład warunkowy \(P_{Y|X=2}\) jest określony przez ciągi \(2, 3, 4, 5, 6\) oraz \(1/15\), \(2/15\), \(3/15\), \(4/15\), \(5/15\), a więc \(E(Y|X=2) = 70/15 = 14/3\).

    Rozkład warunkowy \(P_{X|Y = 4}\) jest określony przez ciągi \(0,1,2\) oraz \(\frac 17\), \(\frac 37\), \(\frac 37\), a więc \(E(X|Y=4) = \frac {10}{7}.\)

Niech \((X,Y)\) będzie będzie \(n\times m\)-wymiarowym wektorem losowym o ciągłym rozkładzie danym przez gęstość \(f\).

\begin{equation} \label {eq:w2} f_{Y|X=x}(y) = f(y|x) = \left \{\begin{array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dy} = \frac {f(x,y)}{f_X(x)}, & \mbox { gdy } & f_X(x) >0\\ 0, & \mbox { gdy } & f_X(x) = 0 \end {array} \right . \end{equation}

Tutaj \(f_X\) oznacza gęstość wektora losowego \(X\). Przy ustalonym \(x\), takim, że \(f_X(x) >0\) funkcja \(y \to f(y|x)\) jest gęstością. Zakładając, że \(m =1\) możemy więc, podobnie jak w przypadku dyskretnym mówić o nadziei matematycznej \(E(Y|X=x)\) określonej (o ile istnieje) jako:

\[ E(Y|X=x) = \int _\r y f(y|x)\, dy. \]

Oczywiście można w przypadku dyskretnym i w przypadku ciągłym zdefiniować także \(E(X|Y=y)\) dla zmiennej losowej \(X\) i dowolnego wektora losowego \(Y\).

\[ E(X|Y=y_j) = \sum _i x_ip_{i|j}, \ \ \ \‚E(X|Y=y) = \int _\r x f(x|y)\,dx. \]

  • Przykład – 13.2 (c.d. Przykładu 5.21)

    Losujemy według rozkładu jednostajnego liczbę \(a\) z odcinka \([0,1]\) a następnie według rozkładu jednostajnego liczbę \(b\) z odcinka \([0,a]\). \(X\) oraz \(Y\) są zmiennymi losowymi odpowiadającymi powyższym losowaniom. Pamiętamy, że gęstość warunkowa \(f(y|x)\) była dana jako \(f(y|x) = \frac {1}{x}I_{[0,x]}(y)\), dla \(0 < x \le 1\) oraz 0 w przeciwnym przypadku. W takim razie: \(E(Y|X=x) = \int _\r yf(y|x)\,dy = \int _0^x \frac {y}{x} dy = \frac {x}{2}\) dla \(0 < x \le 1\).

    Pamiętamy, że gęstość wektora losowego \(f\) można otrzymać jako iloczyn: \(f(x,y) = f(y|x)f_X(x) = \frac {1}{x}\) dla \(0 < y \le x \le 1\) oraz 0 w przeciwnym przypadku.

    Można więc wyliczyć gęstość warunkową dla \(0 < y \le x \le 1\):

    \[f(x|y) = \frac {f(x,y)}{\int _\r f(x,y)\,dx} = \frac {\frac {1}{x}}{\int _y^1 \frac {1}{x}\,dx} = \frac {\frac {1}{x}}{-\ln y} \]

    i dalej

    \[ E(X|Y=y) = \int _\r x f(x|y)\,dx = \int _y^1 x \frac {\frac {1}{x}}{-\ln y} = \frac {1-y}{- \ln y}. \]

Naszym celem będzie podanie definicji oraz własności i zastosowań tak zwanej warunkowej nadziei matematycznej zmiennej losowej \(Y\) względem wektora losowego \(X\), \(E(Y|X)\), a także pojęcia bardziej ogólnego, nadziei matematycznej zmiennej losowej \(Y\) względem \(\sigma \)-algebry A, \(E(Y|\a )\). Aby jednak nawiązać do wspomnianych właśnie sytuacji szczególnych zrobimy kilka wstępnych uwag.

  • Uwaga – 13.3

    Każdy wektor losowy określony na przestrzeni probabilistycznej (Ω, Σ, P ) , \(X : \Omega \str \rn \) generuje pewną \(\s \)-algebrę \(\s (X) \subset \Sigma \). Mianowicie:

    \[ \s (X) = \{X^{-1}(B): B \in {\cal B}(\rn )\}. \]

    Jest to oczywiście najmniejsza \(\s \)-algebra przy której \(X\) jest odwzorowaniem mierzalnym.

  • Przykład – 13.4

    Gdy \(X\) ma rozkład dyskretny wyznaczony przez ciągi \(\{x_i\}\), \(\{p_i\}\), \(i = 1,\dots N\), \(N \le \infty \), to \(\s (X)\) jest generowana przez rozkład zbioru \(\Omega \) na przeciwobrazy \(X^{-1}(x_i)\), czyli jest rodziną wszystkich możliwych sun przeciwobrazów \(X^{-1}(x_i)\).

Z poprzedniego semestru znamy już podstawowe twierdzenie 6.8:

Twierdzenie. Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(g: \rn \to \r \) funkcją borelowską. Wtedy:

\[ E(g(X)) = \int _\Omega g(X)\,dP = \int _{\rn } g\,dP_X, \]

przy czym obydwie strony istnieją jednocześnie.

Możemy teraz nieco uogólnić ten wzór:

  • Twierdzenie – 13.5 Niech \(X: \Omega \to \rn \) będzie wektorem losowym, \(h: \rn \to \r \) funkcją borelowską. \(B \in {\cal B}(\rn )\). Wtedy:

    \[ \int _{X^{-1}(B)} h(X)\,dP = \int _{B} h\,dP_X, \]

    przy czym obydwie strony istnieją jednocześnie.

Dowód. W poprzednim twierdzeniu wystarczy wziąć: \(g(x) = I_B(x)\cdot h(x)\), dla \(x \in \rn \), gdzie \(I_B\) jest funkcją charakterystyczną zbioru \(B\).   \(\Box \)

Podobnie można uogólnić wzór na nadzieję matematyczną dla rozkładów dyskretnych i ciągłych.

  • Twierdzenie – 13.6 Niech wektor \(X\) ma rozkład ciągły zadany przez gęstość \(f :\rn \to \r \).
    \(h :\rn \to \r \) jest funkcją borelowską, \(B \in {\cal B}(\rn )\). Wtedy:

    \[\int _{X^{-1}(B)} h(X)\,dP = \int _{B} h(x) f(x) \,dx,\]

    przy czym obydwie strony istnieją jednocześnie. Całkowanie odbywa się według miary Lebesgue’a.

Dowód. (ćwiczenie).   

Sformułować odpowiednią wersję w przypadku rozkładów dyskretnych (ćwiczenie).

Wróćmy do nadziei rozkładu warunkowego \(E(Y|X=x)\), w przypadku wektorów losowych \((X,Y)\) o rozkładach dyskretnych i ciągłych. Możemy teraz rozważać następujące odwzorowanie:

\[ \f : \Omega \ni \o \str E(Y|X = X(\o )). \]

  • Twierdzenie – 13.7 W przypadku, gdy wektor losowy \((X,Y)\) ma rozkład dyskretny, lub rozkład ciągły, odwzorowanie \(\f \), o ile jest dobrze określone, spełnia dwa warunki:

    (M) \(\f \) jest \(\s (X)\) mierzalne.

    (C) Dla każdego \(A \in \s (X)\) \(\int _A \f \,dP = \int _A Y\,dP\).

    Słowami: \(\f \) jest zmienną losową na przestrzenie probabilistycznej \((\Omega ,\s (X),P)\), taką, że na wszystkich zbiorach z \(\s (X)\) ma takie same całki (można mówić o średnich) co zmienna losowa \(Y\).

Dowód. Przypadek dyskretny. Ustalmy punkt \(x_i\). Wtedy \(\f \) jest funkcją stałą na zbiorze \(X^{-1}(x_i)\) równą \(E(Y|X=x_i)\), a to oznacza mierzalność względem \(\s \)-algebry generowanej przez te zbiory. Niech \(A \in \s (X)\). Wtedy \(A\) jest sumą co najwyżej przeliczalną zbiorów postaci \(X^{-1}(x_i)\). Całka po \(A\) jest więc sumą całek po tych zbiorach. Natomiast

\[ \int _{X^{-1}(x_i)}\f \,dP = E(Y|X=x_i)P(X^{-1}(x_i)) = \sum _j y_j p_{j|i}p_{i.} = \frac {\sum _j y_j p_{ij}}{p_i.} p_{i.}\]

\[= \sum _j y_j p_{ij} = \sum _j y_jP(X=x_i,y=y_j) = \sum _j\int _{\{X=x_i,Y=y_j\}}Y\,dP = \int _{X^{-1}(x_i)} Y\,dP.\]

Przypadek ciągły. \(\f \) wyraża się wzorem:

\[\f (\o ) = \int _\r y(f(y|X(\o ))\,dy , \mbox { gdzie }\]

\[ f(y|x) = \left \{\begin {array}{lll} \frac {f(x,y)}{\int _\r f(x,y)\,dy} = \frac {f(x,y)}{f_X(x)}, & \mbox { gdy } & f_X(x) >0\\ 0, & \mbox { gdy } & f_X(x) = 0 \end {array} \right . \]

Widać, że \(\f \) jest złożeniem funkcji mierzalnych względem \(\s (X)\), a więc jest \(\s (X)\)-mierzalne. Niech \(A \in \s (X)\). Oznacza to, że \(A = X^{-1}(B)\), gdzie \(B \in {\cal B}(\rn )\). \(B = B_1 \cup B_2\), gdzie \(B_1 = \{x \in B : f_X(x) > 0\}\), \(B_2 = \{x \in B : f_X(x) =0\}\). Wtedy \(A = X^{-1}(B_1) \cup X^{-1}(B_2)\) = \(A_1 \cup A_2\).

Zauważmy najpierw, że \(P(A_2) = 0\). Rzeczywiście: \(P(A_2) = P_X(B_2) = \int _{B_2}f_X(x)\,dx = 0\). Tak więc \(\int _{A_2} \f \,dP = \int _{A_2} Y\,dP = 0\).

Natomiast stosując dwukrotnie twierdzenie 13.6 dotyczące zmiany całkowania względem miary \(P\) na całkowanie przy użyciu gęstości \(f_X\) oraz \(f\), z Twierdzenia Fubiniego mamy:

\[\di \int _{A_1} \f \,dP = \]

\[ \int _{B_1} \frac {\int _\r yf(x,y) \,dy}{f_X(x)}f_X(x) \,dx = \int _{B_1} \int _\r yf(x,y) \,dy \,dx = \]

\[ \int _{B_1\times \r } yf(x,y) \,d(x,y) = \ (\mbox { bo } A_1 = (X,Y)^{-1}(B_1 \times \r ) \ ) \]

\[\int _{A_1} Y\,dP.\]

Czyli \(\int _A \f \,dP = \int _A Y\,dP\).   \(\Box \)