Rachunek prawdopodobieństwa 1, 2

20.5 Pytania

Pytanie 20.1 Dane są obserwacje \((x_1,y_1), ..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Na podstawie tych danych należy wyznaczyć takie liczby \(\hat {\beta }_1,..., \hat {\beta }_k\), że sumy \(\sum _{j=1}^k\hat {\beta }_i x_{ij}\) możliwie najlepiej przybliżają wielkości \(y_i\) dla \(i = 1,...,n\) w sensie kryterium najmniejszych kwadratów. Zaproponować metodę rozwiązania tego problemu.

Wskazówka. Niech \(X = [x_{ij}]\), \(i = 1,...,n\), \(j = 1,...,k\) i niech \(y \in \rn \) będzie wektorem kolumnowym o współrzędnych \(y_i\). Wtedy nasz problem można sformułować tak:

Wskazać taki wektor \(\hat {\beta } \in \r ^k\), że dla każdego \(\beta \in \r ^k\)

\begin{equation} \|X\hat {\beta } - y\| \le \|X\beta - y\| \ \mbox { czyli } \ \|X\hat {\beta } - y\|^2 \le \|X\beta - y\|^2. \label {zreglin} \end{equation}

Pytanie 20.2 Przy powyższych oznaczeniach, załóżmy, że \(k < n\) oraz, że rząd \(X = k\). Wyznaczyć rzutowanie prostopadłe na podprzestrzeń wektorową \(V = \)Im\(X\).

Wskazówka. Rozważmy macierz \(X^TX\). Jest to macierz symetryczna nieujemnie określona, a ponieważ rząd \(X\) jest maksymalny, to \(X^TX\) jest dodatnio określona, a więc jest nieosobliwa. Dla \(y \in \rn \) określamy wektor \(v\) wzorem:

\[ v = X(X^TX)^{-1}y. \]

Zauważmy, że \(v \in V\). Natomiast \(y - v \in V^{\perp }\), gdyż dla każdego \(w \in V\) kolejno mamy: \(w = Xz\) dla pewnego \(z\) i wtedy

\[ \langle w,y-v\rangle = \langle Xz, y-v\rangle = \langle z,X^Ty - X^Tv\rangle \]

\[= \langle z,X^Ty - X^TX(X^TX)^{-1}X^Ty \rangle = \langle z, X^Ty-X^Ty \rangle = 0. \]

Oznacza to, że rzutowanie prostopadłe na \(V\) jest dane wzorem:

\[ P_Vy = X(X^TX)^{-1}X^Ty, \ \ y \in \rn . \]

Pytanie 20.3 Rozwiąż problem sformułowany w Pytaniu 20.1 wykorzystując powyższy wynik.

Wskazówka. Niech \(\hat {y} = P_Vy = X(X^TX)^{-1}X^Ty \). Z Twierdzenia Pitagorasa wiemy, że dla każdego \(\mu \in V\) zachodzi nierówność \(\|y - \hat {y}\|^2 \le \|y - \mu \|^2\). Ponieważ rząd macierzy \(X\) jest maksymalny, to dla każdego \(\mu \in V\) istnieje dokładnie jeden wektor \(\beta \in \r ^k\) taki, że \(\mu = X\beta \). Niech \(\hat {\beta }\) będzie tym elementem, który odpowiada \(\hat {y}\). Mamy więc żądaną nierówność (20.6). Mnożąc lewostronnie przez \(X^T\) z równości \(\hat {\mu } = X\hat {\beta }\) otrzymujemy \(X^T\hat {y} = X^TX\hat {\beta }\), więc w końcu:

\[ \hat {\beta } = (X^TX)^{-1}X^T\hat {y} = (X^TX)^{-1}X^TX(X^TX)^{-1}X^Ty = (X^TX)^{-1}X^Ty. \]

Odpowiedź:

\begin{equation} \hat {\beta } = (X^TX)^{-1}X^Ty. \label {wzornabeta} \end{equation}

Pytanie 20.4 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a,b\), że \(\di \sum _{i=1}^n(y_i-(ax_i + b))^2\) jest najmniejsza.

Wskazówka. Jest to szczególny przypadek poprzedniego problemu. Tutaj macierz \(X\) ma postać:

\[ X = \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ]. \]

Musimy założyć, że rząd \(X = 2\), co jest równoważne temu, że nie wszystkie punkty \(x_i\) są sobie równe. Wielkości \(a, b\) wyliczamy korzystając ze wzoru (20.7) na \(\hat {\beta }\). Mianowicie:

\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \left ( \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ] \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ] \right )^{-1} \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ]\left [\begin {array}{c} y_1 \\ \vdots \\ y_n \end {array} \right ]. \]

Wprowadźmy standardowo używane oznaczenia: \(\overline {x} = \frac {1}{n} \sum _ix_i\), \(\overline {xy} = \frac {1}{n} \sum _ix_iy_i\), \(\overline {x^2} = \frac {1}{n} \sum _ix_i^2\). Po wykonaniu mnożenie i odwracania macierzy otrzymujemy.

\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \frac {1}{\overline {x^2} - \overline {x}^2} \left [ \begin {array}{c} \overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x} \\ \overline {xy} - \overline {x}\cdot \overline {y} \end {array} \right ]. \]

Odpowiedź:

\begin{equation} a = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \ \ \ \ b = \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \end{equation}

Pytanie 20.5 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a, b\) obliczone na podstawie Twierdzenia 20.8 przy założeniu, że twierdzenie to stosuje się to wektora losowego \((\xi ,\eta )\) mającego rozkład jednostajny na zbiorze \(\{(x_1,y_1),...,(x_n,y_n)\}\).

Wskazówka. Stosując oznaczenia z poprzedniego Pytania łatwo stwierdzić, że:

\[ m_\xi = \overline {x}, \ m_\eta = \overline {y}, \ \s _\xi ^2 = \overline {x^2} - \overline {x}\cdot \overline {x}, \ \s _\eta ^2 = \overline {y^2} - \overline {y}\cdot \overline {y},\‚cov(\xi ,\eta ) = \overline {xy} - \overline {x}\cdot \overline {y}. \]

Pamiętając, że \(\varrho = \frac {cov(\xi ,\eta )}{\s _\xi \s _\eta }\), na podstawie Twierdzenia 20.8 mamy:

\[ a= \varrho \frac {\sigma _\eta }{\sigma _\xi } = \frac {cov(\xi ,\eta )}{\s _\xi ^2} = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \]

\[ b = m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi } = m_\eta - \frac {cov(\xi ,\eta ) m_\xi }{\sigma _\xi ^2} = \overline {y} - \frac {\overline {xy} \cdot \overline {x} - \overline {x}^2 \cdot \overline {y}}{\overline {x^2} - \overline {x}^2}= \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \]

Pytanie 20.6 Podobnie jak w Pytaniu 20.1 dane są obserwacje \((x_1,y_1)\), \(..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Obecnie zakładamy, że \(Y_i\) są zmiennymi losowymi o wartościach oczekiwanych \(\mu _i\), przy czym zakładamy, że dla każdego \(i\) zachodzi związek liniowy:

\[ \mu _i = \beta _1x_{i1} + ... + \beta _k x_{ik}, \]

gdzie \(\beta _1, ... , \beta _k\) nie zależą od \(i\). Zbadaj własności estymatorów \(\hat {\mu }\) parametru \(\mu \) oraz \(\hat {\beta }\) parametru \(\beta \) określonych jako:

\[ \hat {\mu } = X(X^TX)^{-1}X^TY, \ \ \ \ \hat {\beta } = (X^TX)^{-1}X^TY,\]

gdzie \(Y\) jest wektorem losowym o współrzędnych \(Y_i\).

Wskazówka. Z naszego założenia \(E(Y) = X \beta \), więc

\[E(\hat {\beta }) = E((X^TX)^{-1}X^TY) = (X^TX)^{-1}X^TE(Y) = (X^TX)^{-1}X^TX\beta = \beta .\]

Podobnie \(E(\hat {\mu }) = \mu \). Czyli:

\(\hat {\mu }\) oraz \(\hat {\beta }\) są nieobciążonymi estymatorami parametrów \(\mu \) oraz \(\beta \).

Załóżmy dodatkowo, że zmienne losowe \(Y_1, ..., Y_n\) są niezależne i wszystkie mają wspólną wariancję \(\s ^2 < \infty \). Wtedy \(\hat {\mu }\) oraz \(\hat {\beta }\) są najlepszymi estymatorami liniowymi dla \(\mu \) oraz \(\beta \) w następującym sensie. Ustalmy \(a \in \rn \). Odwzorowanie liniowe \(S :\rn \to \r \) nazywamy najlepszym liniowym estymatorem parametru \(a^T\mu \), jeżeli \(E(S(Y)) = a^T\mu \) oraz dla każdego odwzorowania liniowego \(T :\rn \to \r \) takiego. że \(E(T(Y)) = a^T\mu \)

\[D^2(S(Y)) \le D^2(T(Y)). \]

Niech \(A \in M(m,n)\). Mówimy, że \(S : \rn \to \r ^m\) jest najlepszym liniowym estymatorem parametru \(A\mu \), jeżeli dla każdego \(i\) \(i\)-ta współrzędna \(S_i\) jest najlepszym estymatorem \((A\mu )_i\) – \(i\)-tej współrzędnej wektora \(A\mu \). Udowodnimy:

Twierdzenie Gaussa-Markowa Dla każdej macierzy \(A \in M(m,n)\) estymator \(A\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(A\mu \).

Biorąc \(A = I_n\) widzimy, że \(\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(\mu \). Biorąc \(A = (X^TX)^{-1}X^T\) widzimy, że \(\hat {\beta }\) jest najlepszym liniowym estymatorem paremetru \(\beta \).

Dowód Twierdzenia Gaussa-Markowa. Jak już wiemy \(E(\hat {\mu }) = \mu \), więc z liniowości \(E(A\hat {\mu }) = AE(\hat {\mu }) = A\mu \). Musimy więc jeszcze porównać estymator \(A\hat {\mu }\) z innymi liniowymi nieobciążonymi estymatorami parametru \(A\mu \).

Krok 1. Zakładamy, że \(A\) ma tylko jeden wiersz, powiedzmy \(a^T\), i badamy estymatory liniowe parametru \(a^T\mu \). Niech \(T\) będzie takim estymatorem, czyli \(T(y) = b^Ty\) dla pewnego \(b \in \rn \). Niech, jak w Pytaniu 20.1, \(V\) oznacza podprzestrzeń wektorową Im\(X\). Pamiętamy, że rzutowanie prostopadłe na \(V\) wyraża się wzorem \(P_Vy = X(X^TX)^{-1}X^Ty\) dla \(y \in \rn \).

Zachodzą równoważności: \(T(Y)\) jest nieobciążonym estymatorem parametru \(a^T\mu \rwn b^T\mu = a^T \mu \) dla każdego \(\mu \in V \rwn \langle b - a,\mu \rangle =0 \) dla każdego \(\mu \in V \rwn b - a \in V^\perp \rwn P_Va = P_Vb\). Dla takiego estymatora obliczamy wariancję, pamiętając, że z obecnych założeń wynika równość \(cov(Y) = \s ^2I_n\):

\[ D^2(T(Y)) = D^2(b^TY) = b^Tcov(Y)b = \s ^2b^Tb = \s ^2\|b\}^2. \]

Z Twierdzenia Pitagorasa

\[ D^2(T(Y)) = \s ^2(\|b - P_Vb\|^2 + \|P_Vb\|^2) = \s ^2(\|b - P_Va\|^2 + \|P_Va\|^2). \]

Widzimy, że \(D^2(T(Y))\) osiąga wartość najmniejszą \(\rwn b = P_Va \rwn b = X(X^TX)^{-1}X^Ta\). Wtedy też mamy:

\[T(Y) = b^TY = (X(X^TX)^{-1}X^Ta)^TY = a^TX(X^TX)^{-1}X^TY = a^T\hat {\mu }.\]

Krok 2. Wynika natychmiast z rezultatu udowodnionego w Kroku 1.