Statystycznie rzecz biorąc (cz.1)

Statystycznie rzecz biorąc, cz. 1

   Inflacja wzrosła w lipcu o 1,8%. Partia Młodych Inteligentów może liczyć na 12,5% poparcia – ogłosił instytut X. W związku z podwyżką cen ropy wzrośnie cena benzyny, jednak nie więcej niż o 3-4% - czytamy w komunikacie urzędu ds. petrochemikaliów. Możesz przekazać 1% swojego podatku na niepełnosprawne dzieci.
   I tak dalej, i tak dalej. Statystyka jest wszędzie. Nie ma dnia, by nie bylibyśmy atakowani procentami (nawet jeśli nie jesteśmy nałogowymi alkoholikami). Problem jest w zasadzie tylko jeden: nie wiadomo, co one właściwie znaczą.

   Tysiąc osób

   Co to jest tysiąc osób? Jak jeden tysiąc może dać rzetelne wyniki o stanie umysłu całego, blisko czterdziestomilionowego narodu? A dlaczego nie 2000 albo 8000?
   To są zupełnie naturalne pytania, które zadają sobie od czasu do czasu ludzie, którzy nie są statystykami. Statystyków nauczono, co znaczy tysiąc osób. Tysiąc osób, przy założeniu 50% frakcji zakłada 3,15% błędu standardowego w przedziale ufności 95%. Jak można tego nie rozumieć?
    Hm. A może jednak nie rozumiecie? No to zacznijmy od początku.

   Przedział ufności

   "Statystyka to nauka. Z dokładnością do 95 procent" – zwykł mawiać jeden z moich wykładowców. 95% to cyfra magiczna, odciskająca się trwałym piętnem na umysłach młodych statystyków. Dwie pozostałe to 90% oraz 99%. Są to trzy najczęściej używane wartości tak zwanego przedziału ufności.
   Przedział ufności wynoszący 95% to pewne założenie, które mówi nam o tym, że chcemy mieć tylko 5% wątpliwości co do tego, czy mówimy prawdę. Innymi słowy, chcemy, by 95% wszystkich zakładanych przypadków pokryło się z naszym przewidywaniem. Przy 99% przedziale ufności chcemy mieć wątpliwości tylko co do 1% przypadków. Pogardzamy zazwyczaj osobami, które posługują się przedziałami ufności mniejszymi niż 95%. Więcej niż 5% niepewności? Na Boga! Toż to już nie nauka!

   Rozkład normalny 

   zwany też rozkładem Gaussa wygląda mniej więcej jak słoń, którego połknął wąż w Małym Księciu. Noo... odrobinę inaczej. A konkretnie to jakoś tak:


 
   Rozkład normalny jest wykresem zmiennej ciągłej i używamy go do zobrazowania, czym jest przedział ufności. Rozkład normalny obrazuje, jak rozkłada się dana cecha w populacji. Weźmy klasyczny przykład i uznajmy, że powyższy wykres dotyczy wzrostu (żeby uniknąć nieporozumień, weźmy do tego celu tylko osoby dorosłe - poważna frakcja dzieci w populacji mogłaby zaburzyć nam wyniki). Najwięcej jest osób ze wzrostem średnim. To szczyt naszej górki (ilość osób z wzrostem średnim odczytujemy na osi f(x)). Im dalej w obie strony (ku osobom niższym i wyższym) od naszego średniaka, tym takich osób jest mniej. Krańce wykresu obejmują karłów (z jednej strony) i olbrzymów (z drugiej). Jak widać nie są oni jakoś specjalnie reprezentowani w populacji.
   Przedział ufności 95% odcina nam dolne i górne 2,5%* - w tym przypadku najniższych i najwyższych ludzi. Statystyk, przyjmując przedział ufności na poziomie 95%, godzi się z tym, że jego analiza nie będzie dotyczyć grup najsłabiej w populacji reprezentowanych.

   Moi znajomi mówią inaczej!

   Dlaczego sondaże nie pokrywają się z rzeczywistością, do licha? Jak możecie twierdzić, że Partia Młodych Inteligentów uzyska 12,5% poparcia, skoro chce na nią głosować większość moich znajomych? Niech policzę: Kazia, Henio, Józek, Marysia... Będzie z 90%!
   No cóż. Twoi znajomi to grupa celowa. Poza tym, jak sądzę, nie masz jakiegoś tysiąca znajomych? Sondaże są wykonywane na grupie losowej, a to zupełnie inna para kaloszy.
   Wykres dowolnej ciągłej cechy (na przykład wzrostu czy zasobów pieniężnych) w grupie losowej tak właśnie zapewne by wyglądał. Weź bazę pesel i wylosuj dowolnych tysiąc osób. Zbadaj ich wzrost i przedstaw na wykresie. Będzie on podobny do krzywej Gaussa. Twoi znajomi mogą należeć do klubu osób wysokich bądź wertykalnie upośledzonych. Przedstawiając ich wzrost na wykresie nie uzyskasz prawdopodobnie wykresu rozkładu normalnego. Czy to ważne? Bardzo. Zmienne podlegające rozkładom normalnym trzymają się praw statystyki. Reszta – zazwyczaj – nie. Mówiąc po naszemu: Twoje rozumowanie oparte o opinie znajomych jest statystycznie nierzetelne.
   Drugą sprawą jest dobór przyjaciół. Rzadko kiedy będą oni reprezentować cały przekrój klas społecznych, poziomów inteligencji, poglądów politycznych ect.

   No dobra, co z resztą?

   Czy statystyk może się pomylić? Oczywiście, że może. W końcu jest tylko człowiekiem, to po pierwsze. Po drugie zaś, godząc się na pięcioprocentowy poziom błędu, liczy się z tym, że jego hipoteza może być zupełnie nietrafna. W pozostałych przypadkach jego hipoteza będzie nietrafna tylko trochę. Ile? No cóż, to zależy od wielkości próby.
   Tablice przedziałów ufności oparte są o testy statystyczne, których wytłumaczenie znacznie przekracza możliwości tego artykułu. W nich to, dla określonych poziomów przedziałów ufności (zazwyczaj tych trzech, o których mówiłem: 90%, 95% i 99%), znajdziemy tak zwane błędy standardowe.
   Załóżmy, że przyjąłem sobie najczęściej używany przedział ufności 95%. Moja próba wynosi 1000 osób. Przy tysiącu osób, wylosowanych z populacji (dobór losowy), mój średni błąd przewidywania wyniesie 3,15%. Co to oznacza?
   Jeśli twierdzę, że Partia Młodych Inteligentów może liczyć na 12,5% poparcia, to przy założeniu 95% przedziału ufności, mogę się mylić o nie więcej niż (sprawdzam w tablicy błędów: próba 1000 osób, frakcja: 12,5%) 2,1%. Oznacza to, że poparcie dla PMI waha się od 10,4% do 14,6%. Spory rozrzut, prawda? Więc dlaczego nie weźmiemy 4000 osób?

   Zbadajmy wszystkich!

   Gdybyśmy badali wszystkich uczestników społecznego dyskursu, w ogóle nie mielibyśmy do czynienia ze statystyką. Przedziały ufności byłyby akademicką rozrywką, a błędy standardowe zniknęłyby z powierzchni ziemi.
   Na szczęście (dla mnie) jest to niemożliwe. Zbadanie 1000 osób kosztuje masę pieniędzy. Zbadanie 4000 – cztery masy pieniędzy. Wspomniany błąd standardowy (przy 95% przedziale ufności) przy czterech tysiącach osób wynosi 1,56% (dla frakcji 50%). W przypadku Partii Młodych Inteligentów i jej 12,5% poparcia moglibyśmy określić, że rzeczywiste poparcie waha się od 11,5% do 13,5%. Różnica w porównaniu z próbą 1000-osobową wynosi 1%. Różnica w kosztach jest czterokrotna. Czas wykonania badania również niestety rośnie. A dane dotyczące rzeczywistości społecznej to nie wino: nie mogą zbyt długo leżakować.

   12%, 17% a może tylko 5%?

   Dlaczego więc, skoro statystyka jest taka świetna (i tak mało w niej miejsca na dowolność), wyniki sondaży tak się od siebie różnią? Instytut A powie 5%, Agencja B – 12%, ale Ośrodek C przelicytuje wszystkich, gromkim głosem oznajmiając: 17%.
   Interpretacji jest wiele. Po pierwsze więc musimy wiedzieć, czy sondaż nie został przeprowadzony na próbie celowej. Jeśli bowiem rzecz dotyczy poparcia dla socjalistów, a respondentami Instytutu A były kółka parafialne, natomiast Ośrodka C – znajomi Jerzego Szmajdzińskiego – wyniki są łatwe do interpretacji. Zazwyczaj jednak, jeśli mamy do czynienia z poważną agencją badawczą, nie ma tak łatwo. "Badanie przeprowadzono na 1000 osobowej, losowej próbie dorosłych Polaków" – stoi jak byk na samej górze każdego z trzech sondaży.
   Hm. No tak, czyli próba losowa. Sprawdźmy więc, jeśli mamy taką możliwość, czy w każdym przypadku mamy taką samą podstawę oprocentowania. Jeśli bowiem Instytut A wziął wszystkie osoby z sondażu (1000 osób) jako podstawę oprocentowania, zaś Ośrodek C zdecydował się na analizę bazującą tylko na 600 osobach (bo reszta powiedziała, że nie wie, albo uciekła z krzykiem, widząc ankietera) – również mamy, przynajmniej częściową odpowiedź na nasze pytanie.
   Idąc dalej: należałoby sprawdzić, jaki to był rodzaj sondażu. Możliwy jest sondaż CATI (computer assisted telephone interview), wybijający za pomocą telefonicznego dzwonka przeciętnego Kowalskiego z marazmu. Ankieter mógł go też dopaść na ulicy i spytać o wyborcze preferencje gryzmoląc coś na zatłuszczonej kartce. Są także możliwe inne sposoby zakłócania respondentowi świętego spokoju. Metoda wybrana przeprowadzenia sondażu może mieć wpływ na wyniki. Informacja ta rzadko jednak jest podawana do publicznej wiadomości.
   Jednak nie tak rzadko, jak pytanie, które się zadało celem uzyskania odpowiedzi. Pytanie jest ostatnią rzeczą, którą doświadczony badacz poda do wiadomości publicznej. Pytanie jest święte. Pytanie to najściślej strzeżona tajemnica. Gdyby była taka możliwość, treści pytania nie wyjawiłoby się nawet respondentowi, chyba że zacząłby grozić bronią. Od tego bowiem, czy pytanie brzmi: "proszę spojrzeć na kartę i wybrać trzy spośród partii, które rozważał(a)by P. w najbliższych wyborach parlamentarnych" czy też raczej "czy był(a)by P. chętna/y głosować na PMI?" ściśle zależą wyniki badania.


Autor od jakiś 8 lat pracuje w badaniach rynku. Od 6 jest związany z Instytutem Millward Brown SMG/KRC i póki co, dobrze mu tam.

Słowniczek:
Błąd standardowy – uzależniony od przedziału ufności błąd, którym obarczona jest każda statystyka. Przy 1000 osób błąd standardowy wynosi przeciętnie 3,15%
Frakcja – frakcja to po prostu udział procentowy. Trzydziestprocentowa frakcja kobiet w populacji oznacza tyle, że 3 z 10 badanych osób było kobietami.
Próba celowa – jest sposobem doboru respondentów ze względu na jakąś cechę (np. znajomi Rysia albo kobiety po trzydziestce)
Próba losowa – w odróżnieniu od próby celowej jest sposobem losowego doboru respondentów do badania
Przedział ufności – określony procentowo poziom zaufania do postawionej hipotezy. Zazwyczaj przyjmuje sie 95%, co oznacza zgodę na to, że w 5% przypadków postawiona teza będzie nietrafna
Rozkład normalny – zwany też krzywą Gaussa. Obrazuje rozkład danej ciągłej cechy w populacji przy założeniu losowości próby
Tysiąc osób – według statystyków to coś na kształt kwantu społeczeństwa. Społeczeństwo składa się z tysiącosobowych losowych grupek, które możemy przedstawić na wykresach. Bawi nas to.

-------
* a odrobinę konkretniej: owe 2,5% odnosi się do pola pod krzywą Gaussa. Niekoniecznie natomiast oznaczać będzie 25 osób z 1000 osobowej próby.


{jos_smf_discuss:Zielona Herbata}

Komentarze (0)

Zapisz się do RRS feed tego komentarza

Pokaz/Ukryj Komentarze

Napisz Komentarz

mniejsze | większe

Powered by Azrul's Jom Comment for Joomla!
busy
 
}

info dla autorów

Szanowny Autorze, zapraszamy do współpracy z magazynem pinezka.pl. 
> Tutaj znajdziesz informację < dotyczącą warunków publikacji tekstów oraz współpracy z nami. 

Info i kontakt


 

Kontakt:  
{
logowanie dostępne tylko dla członków redakcji Pinezka.pl