Niech \((\Omega ,\Sigma ,P)\) będzie przestrzenią probabilistyczną. W zbiorze zmiennych losowych \(\Omega \to \r \) wprowadzamy relację równoważności utożsamiającą \(X\) i \(Y\), gdy \(P(X=Y) = 1\). Pisząc \(X\) rozumiemy klasę równoważności \(X\). Niech \(\a \subset \Sigma \) będzie \(\s \)-algebrą. Definiujemy
\[\h _{\a } = L^2(\Omega , \a ,P) = \{X: X \mbox { jest } \a \mbox {-mieralne, } E(X^2) < \infty \}.\]
Oznaczamy, \(\h = \h _{\Sigma }\).
Każdy zbiór \(\h _{\a }\) wraz z dodawaniem i mnożeniem przez liczby jest przestrzenią wektorową. Wynika to natychmiast z elementarnej nierówności \((x+y)^2 \le 2(x^2+y^2)\). Faktycznie \(\h _{\a }\) jest podprzestrzenią wektorową \(\h \).
Definiujemy iloczyn skalarny na H wzorem:
\[ \f (X,Y) = E(X\cdot Y). \]
Iloczyn skalarny dyktuje normę na \(\h \) w standardowy sposób:
\[ \|X\| = \sqrt {\f (X,X)} \]
oraz metrykę \(d\):
\[ d(X,Y) = \|X - Y\|. \]
Dowodzi się, że dla każdej \(\s \)-algebry A przestrzeń \(\h _{\a }\) wraz z metryką \(d\) jest przestrzenią zupełną, to znaczy \(\h _{\a }\) jest tak zwaną przestrzenią Hilberta. W szczególności \(\h _{\a }\) jest zbiorem domkniętym w \(\h \).
Należy wspomnieć, że można mówić o zbieżności zwanej zbieżnością średnio kwadratową i oznaczaną \(\stackrel {L^2}{\to }\). W szczególności: \(X_n \stackrel {L^2}{\to } X \rwn E((X_n -X)^2) \to 0\), dla \(n \to \infty \).
Określa się prostopadłość wektorów: \(X\perp Y \rwn \ \f (X,Y) = 0\). Dla każdej podprzestrzeni wektorowej domkniętej \({\cal G} \subset \h \) określa się zbiór
\[{\cal G}^\perp = \{X \in \h : \forall \, Y \in {\cal G} \ \ X\perp Y \}.\]
Dowodzi się, że \(\h = {\cal G} \oplus {\cal G}^\perp \). Przez \(P_{\cal G}\) oznaczamy rzutowanie prostopadłe na \(\cal G\).
Mamy więc: dla każdego \(Y \in \h \):
\[Y = P_{\cal G}Y + P_{{\cal G}^\perp } Y, \ \ \ \|Y\|^2 = \|P_{\cal G}Y\|^2 + \|P_{{\cal G}^\perp } Y\|^2. \]
Przypominamy, że odległość \(Y\) od \(\cal G\) określa się następująco:
\[\di d(Y,{\cal G}) \stackrel {def}{=} \inf \{\|Y - Z\|: Z \in {\cal G}\}.\]
Korzystając w twierdzenia Pitagorasa w formie:
\[ \|Y-Z\|^2 = \|Z - P_{\cal G}Y\|^2 + \|P_{{\cal G}\perp } Y\|^2, \mbox { dla } Y \in \h , \ Z \in {\cal G}. \]
widzimy, że wektor \(P_{\cal G}Y\) realizuje odległość \(Y\) od \(\cal G\), która wynosi \(\|P_{{\cal G}\perp } Y\|\).
Dowód. Wiemy już, że \(\h _{\a }\) jest podprzestrzenią wektorową domkniętą.
Dla \(Y \in \h \) \(\pi Y\), z definicji \(\pi \), jest zmienną losową \(\a \)-mierzalną.
Dla dowolnego zbioru \(A \in \a \) funkcja charakterystyczna \(I_A \in \h _{\a }\), więc otrzymujemy \(\f (Y - \pi Y, I_A) = 0.\) Inaczej:
\(0 = E((Y-\pi Y) \cdot I_A) = \di \int _\Omega (Y-\pi Y) \cdot I_A \,dP = \) \(\di \int _A Y- \pi Y \,dP\) = \(\di \int _A Y\,dP - \int _A \pi Y\,dP\).
Czyli \(\pi Y\) spełnia warunek: \(\di \int _A Y\,dP = \int _A \pi Y \,dP\). Są więc spełnione warunki (C) i (M) w definicji nadziei warunkowej, definicja 13.12, Z jednoznaczności nadziei warunkowej otrzymujemy pierwszą żądaną równość.
Dla dowodu drugiej równości zauważmy, że:
\[ D^2(Y) = E(Y^2) - E(Y)^2 = \|Y\|^2 - E(Y)^2 = \|\pi Y\|^2 + \|Y - \pi Y\|^2 - E(Y)^2 = \]
\[ E(E(Y|\a )^2) - E(E(Y|\a ))^2 + E((Y - E(Y|\a ))^2) = \]
\[ D^2(E(Y|\a )) + E((Y - E(Y|\a ))^2). \ \ \ \‚\]
Uwaga – 20.6 Powyższe twierdzenie wzmacnia twierdzenie 14.11 o obniżaniu wariancji. Dodatkowo mówi nam jak duża jest różnica między wariancjami przed i po warunkowaniu. Różnica ta wynosi \(E((Y - E(Y|\a ))^2) \), co można także zapisać jako \(D^2(Y - E(Y|\a ))\).
Przy warunkowaniu różnica wariancji równa jest wariancji różnicy.
Ustalmy teraz wektor losowy \(X: \Omega \to \r ^k\). Na podstawie twierdzenia 13.19
\[\h _{\s (X)} = \{Z : \Omega \to \r : Z = \alpha (X), \alpha : \r ^k \to \r \mbox { jest borelowskie, } \int _{\r ^k}\alpha ^2\,dP_X < \infty \}. \]
Jako wniosek z twierdzenia 20.5 otrzymujemy:
Twierdzenie – 20.7 Dla dowolnego wektora losowego \(X: \Omega \to \r ^k\) oraz zmiennej losowej \(Y: \Omega \to \r \) takiej, że \(E(Y^2) < \infty \) odwzorowanie:
\[ L^2(\r ^k,{\cal B}(\r ^k),P_X) \ni \alpha \to E((Y - \alpha (X))^2) \in \r \]
przyjmuje wartość najmniejszą gdy \(\alpha (x) = E(Y|X=x)\).
Jest to równoważne sformułowanie twierdzenia 20.1.