(image)

Rachunek prawdopodobieństwa 1, 2

20.3 Regresja liniowa

W pewnych przypadkach zamiast ogólnego problemu regresji rozpatruje się zagadnienie, w którym na funkcję regresji nakłada się dodatkowe ograniczenia. Takie podejście może być podyktowane różnymi względami. Jednym z nich może być trudność w analitycznym (lub nawet numerycznym) wyznaczeniu funkcji regresji. Czasem, funkcja regresji jest jednoznacznie wyznaczona tylko w skończonej liczbie punktów: – tak jest w przypadku rozkładów dyskretnych na zbiorze skończonym – co niekiedy utrudnia jej interpretację. Poniżej omawiamy problem regresji liniowej.

Niech \(X\) będzie \(k\)-wymiarowym wektorem losowym, \(Y\) zmienną losową określoną na tej samej przestrzeni probabilistycznej (Ω, Σ, P ) , \(E(Y^2) < \infty \). Chcemy wskazać funkcję afiniczną \(h : \r ^k \to \r \), taką, że:

\begin{equation} Y = h(X) + \ve , \end{equation}

gdzie \(\ve \) jest możliwie małe. \(h\) – funkcja regresji liniowej \(Y\) względem \(X\).

Zauważmy, że w przypadku, gdy wektor \((X,Y)^T\) ma rozkład normalny powyższy problem jest tożsamy z ogólnym problemem regresji. W niektórych innych przypadkach też tak się może zdarzyć.

Jak jednak wskazują poznane dotychczas przykłady, nie zawsze tak jest.

Aby rozpatrzyć przypadek regresji liniowej dla dowolnych rozkładów skoncentrujemy się na sytuacji dwuwymiarowej. Niech \(\xi \), \(\eta \) będą zmiennymi losowymi. Często wiemy, że zmienne \(\xi \), \(\eta \) są mocno skorelowane to znaczy ich współczynnik korelacji \(\varrho \) jest na moduł bliski \(1\), ich wspólny rozkład \(P_{(\xi ,\eta )}\) może być skupiony na zbiorze leżącym blisko pewnej prostej. Powstaje wtedy problem znalezienia tej prostej. Nawet, gdy \(\varrho \) jest bliski zeru, poszukiwanie takiej prostej ma pewien sens. Jeżeli jest to prosta o równaniu \(y =ax +b\), możemy napisać:

\[ \eta = a \xi + b + \ve , \]

gdzie \(\ve \) jest zmienną losową reprezentującą popełniany błąd.Funkcją regresji liniowej jest funkcja \(h\), \(h(x) = ax + b\) dla \(x \in \r \). Powyższą prostą nazywa się prostą regresji liniowej.

Współczynniki \(a\) oraz \(b\) znajdziemy elementarną metodą najmniejszych kwadratów zastosowaną już w przypadku ogólnym.

Metoda najmniejszych kwadratów. Szukamy takich \(a\), \(b\), że wielkość

\[ E((\eta - (a\xi +b))^2). \]

jest najmniejsza.

  • Twierdzenie – 20.8 Załóżmy, że wariancje zmiennych \(\xi \) oraz \(\eta \) istnieją oraz \(\sigma ^2_\xi > 0\). Wtedy istnieje dokładnie jedna para liczb \(a,\ b\) taka, że funkcja \(E((\eta - (a\xi +b))^2)\) ma w punkcie \(a, \ b\) wartość najmniejszą. Wielkości te wynoszą:

    \begin{equation} a= \varrho \frac {\sigma _\eta }{\sigma _\xi },\ \ \ \ \ \ b = m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi }. \label {eq:regrl3} \end{equation}

Dowód. Oznaczmy:

\[ f(a,b) = E((\eta - (a\xi +b))^2). \]

Skorzystamy z warunku koniecznego na ekstremum powyższej funkcji dwóch zmiennych. Policzymy w tym celu pochodne cząstkowe funkcji \(f\) i znajdziemy punkt, w którym są one równe \(0\).

\[ \frac {\partial f}{\partial a} = E\left (\frac {\partial }{\partial a}(\eta - a \xi - b)^2 \right ) = E((2(\eta - a \xi - b)(-\xi )) \]

\[ =- 2 E(\xi \eta ) + 2 E(\xi ^2) a + 2 E(\xi ) b. \]

\[ \frac {\partial f}{\partial b} = E\left (\frac {\partial }{\partial b}(\eta - a \xi - b)^2 \right ) = E((2(\eta - a \xi - b)(-1)) \]

\[ = -2 E(\eta ) +2 E(\xi ) a + 2b. \]

Mamy więc układ równań liniowych ze względu na \(a,\ b\):

\[ \left \{\begin {array}{lll} E(\xi ^2)a + E(\xi ) b& = & E(\xi \eta )\\ E(\xi ) a + b &= & E(\eta ) \end {array} \right . \]

Wyznacznik tego układu wynosi \(E(\xi ^2) - E(\xi )^2\), która to wielkość jest wariancją \(\sigma _\xi ^2\). Z założenia jest ona różna od \(0\), a więc nasz układ ma dokładnie jedno rozwiązanie.

Wyraża się ono właśnie wzorami (20.3) (ćwiczenie).

Dla kompletności dowodu trzeba uzasadnić, że funkcja \(f\) jest rzeczywiście różniczkowalna, że można „wchodzićź pochodną pod znak nadziei matematycznej oraz że w wyliczonym punkcie \((a,b)\) funkcja \(f\) osiąga wartość najmniejszą. Dwa pierwsze punkty wynikają z ogólnych twierdzeń o różniczkowaniu pod znakiem całki. Trzeci punkt może być uzasadniony na różne sposoby – na przykład za pomocą standardowego warunku wystarczającego na ekstremum (ćwiczenie).   

Prosta regresji ma więc równanie :

\[y = ax + b = \varrho \frac {\sigma _\eta }{\sigma _\xi }x + m_\eta - \frac {\varrho \sigma _\eta m_\xi }{\sigma _\xi } = \varrho \frac {\sigma _\eta }{\sigma _\xi }(x - m_\xi )+ m_\eta . \]

Jak już wiemy, gdy \((\xi ,\eta )\) ma rozkład normalny funkcja regresji liniowej pokrywa się z funkcją regresji.

  • Przykład – 20.9 Rozkład wektora losowego \((X,Y)\) skupiony jest na trójkącie \(D\) o wierzchołkach \((0,0)\), \((0,1)\), \((1,0)\) i ma gęstość proporcjonalną go funkcji \(g\): \(g(x,y) = x + 2y^2\). Znajdziemy funkcję regresji i funkcję regresji liniowej \(Y\) względem \(X\).

Mamy kolejno:

\[f_{X,Y)}(x,y) = \frac {g(x,y)}{\int _D g(x,y)\,d(x,y)}= 3x+6y^2\]

dla \((x,y) \in D\).

\[f_X(x) = \int _0^{1-x} f(x,y)\,dy,\]

\[f_{Y|X=x}(y) = \frac {f(x,y)}{f_X(x)},\]

\[E(Y|X=x) = \int _{0}^{1-x}yf_{Y|X=x}(y)\,dy\]

\[= {\frac {3 \left ( {x}^{2}-x+1 \right ) \left (1-x \right ) }{4\,{x}^{2}-2x+4}} .\]

\[E(X) = \int _0^1xf_X(x)\,dx = 0.35,\]

\[E(Y) = \int _0^1yf_Y(y)\,dy = 0.425,\]

\[D^2(X) = \int _0^1x^2f_X(x)\,dx - E(X)^2 = 0.061,\]

\[D^2(Y) = \int _0^1y^2f_Y(y)\,dy - E(Y)^2 = 0.069,\]

\[cov(X,Y)= \]

\[\int _D xyf_{(X,Y)}(x,y)\,d(x,y) - E(X)E(Y) = -0.047,\]

\[\rho = \frac {cov(X,Y)}{\sqrt {D^2(X)D^2(Y)}} = -0.705.\]

\[y = ax + b,\]

gdzie \(a = \frac {cov(X,Y)}{D^2(X)D^2(Y)} = -0.801\), \(b = E(Y) - aE(X) = 0.705\).

(image)
Funkcja regresji i funkcja regresji liniowej

Zauważmy, że gdy wektor \((X, Y)\) ma rozkład dyskretny to funkcja \(h\), regresji \(Y\) względem \(X\), jest istotnie określona tylko w punktach \(x_i\) takich, że \(P(X=x_i) >0\). Natomiast funkcja regresji liniowej jest określona dla wszystkich \(x\).