Bootstrap (statystyka)

Bootstrap^[1] (pol. metody samowsporne) – wprowadzone przez Bradleya Efrona metody szacowania rozkładu błędów estymacji, za pomocą wielokrotnego losowania ze zwracaniem z próby. Są przydatne szczególnie, gdy nie jest znana postać rozkładu zmiennej w populacji. Ponieważ bootstrap w podstawowej wersji nie czyni założeń co do rozkładu w populacji, może być zaliczony do metod nieparametrycznych.

Próba bootstrap

Próbą bootstrap (lub próbą typu bootstrap) nazywamy $n$ -elementową próbę losową $\mathbf {X} ^{*}$ z rozkładu pewnej ustalonej $n$ -elementowej próby $\mathbf {X} =(x_{1},x_{2},\dots ,x_{n})$ z populacji $\Omega .$

Innymi słowy jest to próba powstała przez losowanie ze zwracaniem $n$ elementów z $\mathbf {X} .$

Zasada bootstrap

Niech $T$ będzie pewną statystyką, dającą się przedstawić jako funkcja dystrybuanty:

\theta =T(F)

i w przypadku zastosowania do rozkładu empirycznego jej wynikiem jest estymator ${\widehat {\theta }}{:}$

{\widehat {\theta }}=T({\widehat {F}}).

Warunki te spełnia szeroka klasa statystyk.

Zasada bootstrap mówi, że rozkład statystyki

T(F(\mathbf {X} ^{*}))-T(F(\mathbf {X} )),

przy ustalonej realizacji $X,$ jest bliski rozkładowi statystyki

T(F(\mathbf {X} ))-T(F(\Omega )),

czyli rozkładowi błędów estymacji parametru $\theta$ w populacji.

Metoda bootstrap

Zgodnie z zasadą bootstrap w celu oszacowania rozkładu błędów estymacji, należy:

wielokrotnie ( $k$ razy) wylosować niezależne próby losowe bootstrap $\mathbf {X} _{1}^{*},\mathbf {X} _{2}^{*},\dots ,\mathbf {X} _{k}^{*}$ na podstawie jednej realizacji $\mathbf {X} .$
obliczyć dla nich wartości:
${\widehat {\theta }}_{1}^{*}=T(F(\mathbf {X} _{1}^{*}))-{\widehat {\theta }},$
${\widehat {\theta }}_{2}^{*}=T(F(\mathbf {X} _{2}^{*}))-{\widehat {\theta }},$
$\dots ,$
${\widehat {\theta }}_{k}^{*}=T(F(\mathbf {X} _{k}^{*}))-{\widehat {\theta }}.$

Otrzymany rozkład $({\widehat {\theta }}_{1}^{*},{\widehat {\theta }}_{2}^{*},\dots ,{\widehat {\theta }}_{k}^{*})$ jest przybliżeniem rozkładu błędów estymacji za pomocą statystyki $T$ zastosowanej do próby $n$ -elementowej parametru $\theta$ w populacji.

Liczba $k$ powinna być możliwie duża (im większa tym dokładniejsze oszacowanie). W literaturze podawane są coraz większe liczby, w miarę jak rosną możliwości obliczeniowe komputerów.

Błąd standardowy typu bootstrap

Histogram uzyskanego rozkładu błędów można przedstawić na wykresie. Można też obliczyć dla niego rozmaite dalsze statystyki, takie jak błąd standardowy:

\operatorname {SE} _{{\widehat {\theta }}^{*}}={\sqrt {{\frac {1}{k-1}}\sum \limits _{i=1}^{k}({\widehat {\theta }}_{i}^{*}-{\overline {\theta ^{*}}})^{2}}},

gdzie:

{\overline {\theta ^{*}}}={\frac {\sum \limits _{i=1}^{k}{\widehat {\theta }}_{i}^{*}}{k}}.

Przedziały ufności typu bootstrap

Najprostszą metodą stworzenia przedziału ufności estymatora za pomocą rozkładu ${\widehat {\theta }}^{*}$ jest przybliżenie go rozkładem normalnym. Jest to metoda bardzo prosta, poszukiwany przedział ma postać:

\left({\widehat {\theta }}-z_{1-{\tfrac {\alpha }{2}}}\operatorname {SE} _{{\widehat {\theta }}^{*}},\ \ {\widehat {\theta }}+z_{1-{\tfrac {\alpha }{2}}}\operatorname {SE} _{{\widehat {\theta }}^{*}}\right).

Metoda ta nie zawsze daje się jednak zastosować, gdyż często błąd nie ma rozkładu normalnego. Wymaga ona zatem sprawdzenia normalności rozkładu i arbitralnej decyzji, czy jest on wystarczająco normalny.

Alternatywną metodą jest percentylowy przedział ufności typu bootstrap, który może być stosowany przy dowolnej postaci rozkładu błędów:

\left({\widehat {\theta }}-q_{1-{\tfrac {\alpha }{2}}}^{*},\ \ {\widehat {\theta }}+q_{1-{\tfrac {\alpha }{2}}}^{*}\right),

gdzie $q_{\alpha }^{*}$ to kwantyl rzędu $\alpha$ z rozkładu ${\widehat {\theta }}^{*}-{\widehat {\theta }}.$

Jeszcze inna metoda postuluje najpierw wykonanie studentyzacji rozkładu przed wyliczeniem przedziału percentylowego. To, która metoda daje najdokładniejsze wyniki, zależy od typu rozkładu w populacji (w szczególności obecności obserwacji odstających) oraz założonej metody oceny dokładności.

Testowanie hipotez metodą bootstrap

Metoda bootstrap jest też używana do weryfikacji hipotez statystycznych, o ile da się tę weryfikację sprowadzić do badania błędu estymacji za pomocą statystyki spełniającej warunki bootstrapu.

Na przykład gdy hipotezą zerową jest wartość oczekiwana w populacji $\mu =10,$ a w próbie uzyskaliśmy średnią ${\overline {\mathbf {X} }}=9{,}23,$ wówczas wartość $p$ jest prawdopodobieństwem, że średnia z próby będzie się różniła od średniej w populacji o co najmniej $10-9{,}23=0{,}77.$ Prawdopodobieństwo to można oszacować, losując próby bootstrap z $\mathbf {X}$ i sprawdzając w jakim odsetku losowań średnia wykracza poza przedział $(9{,}23-0{,}77,\ 9{,}23+0{,}77).$

Odmiany metody

Istnieje wiele odmian bootstrapu. W jednej z nich próby bootstrap nie są losowane bezpośrednio z próby $\mathbf {X} ,$ lecz z rozkładu podobnego do rozkładu $\mathbf {X} ,$ z wygładzoną dystrybuantą.

Istnieją też bardziej skomplikowane procedury bootstrapu dla próbkowania bez zwracania, problemów obejmujących dwie próby, regresji, szeregów czasowych, próbkowania hierarchicznego i innych problemów statystycznych.

Odmiana bootstrapu zwana bagging jest stosowana przy konstruowaniu modeli klasyfikacyjnych i regresyjnych, ograniczając zjawisko przeuczenia (Breiman 1984).

Przypisy

↑ Etymologia w artykule bootstrap.

Bibliografia

Jacek Koronacki, Jan Mielniczuk: Statystyka dla studentów kierunków technicznych i przyrodniczych. Warszawa: WNT, 2001, s. 445–454. ISBN 83-204-2684-7.
Bradley Efron: The jackknife, the bootstrap, and other resampling plans. Philadelphia: Pa. Society for Industrial and Applied Mathematics, 1982.
L. Breiman, J.H. Friedman, R.A. Olshen, C.J. Stone: Classification and regression trees. Monterey, CA: Wadsworth & Brooks/Cole Advanced Books & Software, 1984.

Linki zewnętrzne

Bootstrap Sampling Tutorial (ang.): wprowadzenie do bootstrapu z użyciem Microsoft Excel
Bootstrap tutorial from ICASSP 99 (ang.): podręcznik napisany z punktu widzenia przetwarzania sygnałów

[1] Etymologia w artykule bootstrap.

[1]

Navigation

Nawigacja

Portale tematyczne