Pytanie 20.1 Dane są obserwacje \((x_1,y_1), ..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Na podstawie tych danych należy wyznaczyć takie liczby \(\hat {\beta }_1,..., \hat {\beta }_k\), że sumy \(\sum _{j=1}^k\hat {\beta }_i x_{ij}\) możliwie najlepiej przybliżają wielkości \(y_i\) dla \(i = 1,...,n\) w sensie kryterium najmniejszych kwadratów. Zaproponować metodę rozwiązania tego problemu.
Wskazówka. Niech \(X = [x_{ij}]\), \(i = 1,...,n\), \(j = 1,...,k\) i niech \(y \in \rn \) będzie wektorem kolumnowym o współrzędnych \(y_i\). Wtedy nasz problem można sformułować tak:
Wskazać taki wektor \(\hat {\beta } \in \r ^k\), że dla każdego \(\beta \in \r ^k\)
\(\seteqnumber{0}{20.}{5}\)\begin{equation} \|X\hat {\beta } - y\| \le \|X\beta - y\| \ \mbox { czyli } \ \|X\hat {\beta } - y\|^2 \le \|X\beta - y\|^2. \label {zreglin} \end{equation}
Wskazówka. Rozważmy macierz \(X^TX\). Jest to macierz symetryczna nieujemnie określona, a ponieważ rząd \(X\) jest maksymalny, to \(X^TX\) jest dodatnio określona, a więc jest nieosobliwa. Dla \(y \in \rn \) określamy wektor \(v\) wzorem:
\[ v = X(X^TX)^{-1}y. \]
Zauważmy, że \(v \in V\). Natomiast \(y - v \in V^{\perp }\), gdyż dla każdego \(w \in V\) kolejno mamy: \(w = Xz\) dla pewnego \(z\) i wtedy
\[ \langle w,y-v\rangle = \langle Xz, y-v\rangle = \langle z,X^Ty - X^Tv\rangle \]
\[= \langle z,X^Ty - X^TX(X^TX)^{-1}X^Ty \rangle = \langle z, X^Ty-X^Ty \rangle = 0. \]
Oznacza to, że rzutowanie prostopadłe na \(V\) jest dane wzorem:
\[ P_Vy = X(X^TX)^{-1}X^Ty, \ \ y \in \rn . \]
Pytanie 20.3 Rozwiąż problem sformułowany w Pytaniu 20.1 wykorzystując powyższy wynik.
Wskazówka. Niech \(\hat {y} = P_Vy = X(X^TX)^{-1}X^Ty \). Z Twierdzenia Pitagorasa wiemy, że dla każdego \(\mu \in V\) zachodzi nierówność \(\|y - \hat {y}\|^2 \le \|y - \mu \|^2\). Ponieważ rząd macierzy \(X\) jest maksymalny, to dla każdego \(\mu \in V\) istnieje dokładnie jeden wektor \(\beta \in \r ^k\) taki, że \(\mu = X\beta \). Niech \(\hat {\beta }\) będzie tym elementem, który odpowiada \(\hat {y}\). Mamy więc żądaną nierówność (20.6). Mnożąc lewostronnie przez \(X^T\) z równości \(\hat {\mu } = X\hat {\beta }\) otrzymujemy \(X^T\hat {y} = X^TX\hat {\beta }\), więc w końcu:
\[ \hat {\beta } = (X^TX)^{-1}X^T\hat {y} = (X^TX)^{-1}X^TX(X^TX)^{-1}X^Ty = (X^TX)^{-1}X^Ty. \]
Odpowiedź:
\(\seteqnumber{0}{20.}{6}\)\begin{equation} \hat {\beta } = (X^TX)^{-1}X^Ty. \label {wzornabeta} \end{equation}
Pytanie 20.4 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a,b\), że \(\di \sum _{i=1}^n(y_i-(ax_i + b))^2\) jest najmniejsza.
Wskazówka. Jest to szczególny przypadek poprzedniego problemu. Tutaj macierz \(X\) ma postać:
\[ X = \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ]. \]
Musimy założyć, że rząd \(X = 2\), co jest równoważne temu, że nie wszystkie punkty \(x_i\) są sobie równe. Wielkości \(a, b\) wyliczamy korzystając ze wzoru (20.7) na \(\hat {\beta }\). Mianowicie:
\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \left ( \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ] \left [\begin {array}{cc} 1 & x_1\\ \vdots & \vdots \\ 1 & z_n \end {array} \right ] \right )^{-1} \left [\begin {array}{ccc} 1 & \dots & 1\\ x_1 & \dots & x_n \end {array} \right ]\left [\begin {array}{c} y_1 \\ \vdots \\ y_n \end {array} \right ]. \]
Wprowadźmy standardowo używane oznaczenia: \(\overline {x} = \frac {1}{n} \sum _ix_i\), \(\overline {xy} = \frac {1}{n} \sum _ix_iy_i\), \(\overline {x^2} = \frac {1}{n} \sum _ix_i^2\). Po wykonaniu mnożenie i odwracania macierzy otrzymujemy.
\[ \left [\begin {array}{c} b \\ a \end {array} \right ] = \frac {1}{\overline {x^2} - \overline {x}^2} \left [ \begin {array}{c} \overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x} \\ \overline {xy} - \overline {x}\cdot \overline {y} \end {array} \right ]. \]
Odpowiedź:
\(\seteqnumber{0}{20.}{7}\)\begin{equation} a = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \ \ \ \ b = \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \end{equation}
Pytanie 20.5 Dla danego ciągu punktów płaszczyzny \((x_1,y_1),...,(x_n,y_n)\) wskaż takie liczby \(a, b\) obliczone na podstawie Twierdzenia 20.8 przy założeniu, że twierdzenie to stosuje się to wektora losowego \((\xi ,\eta )\) mającego rozkład jednostajny na zbiorze \(\{(x_1,y_1),...,(x_n,y_n)\}\).
Wskazówka. Stosując oznaczenia z poprzedniego Pytania łatwo stwierdzić, że:
\[ m_\xi = \overline {x}, \ m_\eta = \overline {y}, \ \s _\xi ^2 = \overline {x^2} - \overline {x}\cdot \overline {x}, \ \s _\eta ^2 = \overline {y^2} - \overline {y}\cdot \overline {y},\‚cov(\xi ,\eta ) = \overline {xy} - \overline {x}\cdot \overline {y}. \]
Pamiętając, że \(\varrho = \frac {cov(\xi ,\eta )}{\s _\xi \s _\eta }\), na podstawie Twierdzenia 20.8 mamy:
\[ a= \varrho \frac {\sigma _\eta }{\sigma _\xi } = \frac {cov(\xi ,\eta )}{\s _\xi ^2} = \frac {\overline {xy} - \overline {x}\cdot \overline {y}}{\overline {x^2} - \overline {x}^2} \]
\[ b = m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi } = m_\eta - \frac {cov(\xi ,\eta ) m_\xi }{\sigma _\xi ^2} = \overline {y} - \frac {\overline {xy} \cdot \overline {x} - \overline {x}^2 \cdot \overline {y}}{\overline {x^2} - \overline {x}^2}= \frac {\overline {x^2}\cdot \overline {y} -\overline {xy} \cdot \overline {x}}{\overline {x^2} - \overline {x}^2}. \]
Pytanie 20.6 Podobnie jak w Pytaniu 20.1 dane są obserwacje \((x_1,y_1)\), \(..., (x_n,y_n)\), gdzie każde \(x_i =(x_{i1},...,x_{ik}) \in \r ^k\) reprezentuje określone wielkości \(X_1, ..., X_k\), natomiast \(y_i\) reprezentuje odpowiadające im w pewien określony sposób wielkości \(Y_i\). Obecnie zakładamy, że \(Y_i\) są zmiennymi losowymi o wartościach oczekiwanych \(\mu _i\), przy czym zakładamy, że dla każdego \(i\) zachodzi związek liniowy:
\[ \mu _i = \beta _1x_{i1} + ... + \beta _k x_{ik}, \]
gdzie \(\beta _1, ... , \beta _k\) nie zależą od \(i\). Zbadaj własności estymatorów \(\hat {\mu }\) parametru \(\mu \) oraz \(\hat {\beta }\) parametru \(\beta \) określonych jako:
\[ \hat {\mu } = X(X^TX)^{-1}X^TY, \ \ \ \ \hat {\beta } = (X^TX)^{-1}X^TY,\]
gdzie \(Y\) jest wektorem losowym o współrzędnych \(Y_i\).
Wskazówka. Z naszego założenia \(E(Y) = X \beta \), więc
\[E(\hat {\beta }) = E((X^TX)^{-1}X^TY) = (X^TX)^{-1}X^TE(Y) = (X^TX)^{-1}X^TX\beta = \beta .\]
Podobnie \(E(\hat {\mu }) = \mu \). Czyli:
\(\hat {\mu }\) oraz \(\hat {\beta }\) są nieobciążonymi estymatorami parametrów \(\mu \) oraz \(\beta \).
Załóżmy dodatkowo, że zmienne losowe \(Y_1, ..., Y_n\) są niezależne i wszystkie mają wspólną wariancję \(\s ^2 < \infty \). Wtedy \(\hat {\mu }\) oraz \(\hat {\beta }\) są najlepszymi estymatorami liniowymi dla \(\mu \) oraz \(\beta \) w następującym sensie. Ustalmy \(a \in \rn \). Odwzorowanie liniowe \(S :\rn \to \r \) nazywamy najlepszym liniowym estymatorem parametru \(a^T\mu \), jeżeli \(E(S(Y)) = a^T\mu \) oraz dla każdego odwzorowania liniowego \(T :\rn \to \r \) takiego. że \(E(T(Y)) = a^T\mu \)
\[D^2(S(Y)) \le D^2(T(Y)). \]
Niech \(A \in M(m,n)\). Mówimy, że \(S : \rn \to \r ^m\) jest najlepszym liniowym estymatorem parametru \(A\mu \), jeżeli dla każdego \(i\) \(i\)-ta współrzędna \(S_i\) jest najlepszym estymatorem \((A\mu )_i\) – \(i\)-tej współrzędnej wektora \(A\mu \). Udowodnimy:
Twierdzenie Gaussa-Markowa Dla każdej macierzy \(A \in M(m,n)\) estymator \(A\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(A\mu \).
Biorąc \(A = I_n\) widzimy, że \(\hat {\mu }\) jest najlepszym liniowym estymatorem parametru \(\mu \). Biorąc \(A = (X^TX)^{-1}X^T\) widzimy, że \(\hat {\beta }\) jest najlepszym liniowym estymatorem paremetru \(\beta \).
Dowód Twierdzenia Gaussa-Markowa. Jak już wiemy \(E(\hat {\mu }) = \mu \), więc z liniowości \(E(A\hat {\mu }) = AE(\hat {\mu }) = A\mu \). Musimy więc jeszcze porównać estymator \(A\hat {\mu }\) z innymi liniowymi nieobciążonymi estymatorami parametru \(A\mu \).
Krok 1. Zakładamy, że \(A\) ma tylko jeden wiersz, powiedzmy \(a^T\), i badamy estymatory liniowe parametru \(a^T\mu \). Niech \(T\) będzie takim estymatorem, czyli \(T(y) = b^Ty\) dla pewnego \(b \in \rn \). Niech, jak w Pytaniu 20.1, \(V\) oznacza podprzestrzeń wektorową Im\(X\). Pamiętamy, że rzutowanie prostopadłe na \(V\) wyraża się wzorem \(P_Vy = X(X^TX)^{-1}X^Ty\) dla \(y \in \rn \).
Zachodzą równoważności: \(T(Y)\) jest nieobciążonym estymatorem parametru \(a^T\mu \rwn b^T\mu = a^T \mu \) dla każdego \(\mu \in V \rwn \langle b - a,\mu \rangle =0 \) dla każdego \(\mu \in V \rwn b - a \in V^\perp \rwn P_Va = P_Vb\). Dla takiego estymatora obliczamy wariancję, pamiętając, że z obecnych założeń wynika równość \(cov(Y) = \s ^2I_n\):
\[ D^2(T(Y)) = D^2(b^TY) = b^Tcov(Y)b = \s ^2b^Tb = \s ^2\|b\}^2. \]
Z Twierdzenia Pitagorasa
\[ D^2(T(Y)) = \s ^2(\|b - P_Vb\|^2 + \|P_Vb\|^2) = \s ^2(\|b - P_Va\|^2 + \|P_Va\|^2). \]
Widzimy, że \(D^2(T(Y))\) osiąga wartość najmniejszą \(\rwn b = P_Va \rwn b = X(X^TX)^{-1}X^Ta\). Wtedy też mamy:
\[T(Y) = b^TY = (X(X^TX)^{-1}X^Ta)^TY = a^TX(X^TX)^{-1}X^TY = a^T\hat {\mu }.\]
Krok 2. Wynika natychmiast z rezultatu udowodnionego w Kroku 1.