Erik Aru: Statistika on rida arve India külavahilt, kes paneb kirja, mida kuradima tahab

Pane tähele! Artikkel on ilmunud enam kui 5 aastat tagasi ning kuulub Geeniuse digitaalsesse arhiivi.
Statistika ei pruugi alati lõplikku tõde paljastada, kuid annab nii mõndagi teada. Tuleb ainult seda lugema õppida, ütleb majandusajakirjanik Erik Aru.Foto: Kalle Veesaar

Meediaõppejõud Tiit Hennoste kurtis Sirbi kokku kutsutud vestlusringis, kuidas mullu 13. detsembril ilmusid ERR-is ja Postimehes kahe küsitluse tulemuste põhjal kaks väga erinevate järeldustega lugu, mil moel käitumine rändekompakti asjus mõjutas Isamaa populaarsust.

Esimese järgi ei muutnud, teise järgi tõstis. Hennoste märkis selle põhjal, et ajakirjanike statistiline kirjaoskus on kehvapoolne. Kuid see pole ainult ajakirjanike probleem.

Mõistagi, seda, kuidas statistikat tõlgendada, võib õppida elu otsa, nii et targaks ei saagi. Kuid natuke üldisi näpunäiteid kulub kõigile ära. Keerulisemad asjad – normaaljaotused, dispersioonid jms – unustame seegi kord ära.

Kust tuleb statistika?

Oluline on meeles pidada Briti ärimehe ja majandusteadlase Josiah Stampi (1880–1941) järgi nime saanud Stampi seadust, mis tegelikult tsiteerib poliitiku Harold Coxi  (1859–1936) noorepõlves ühelt tundmatult kohtunikult kuuldud lugu:

“Valitsus on väga innukas statistikat koguma. Nad koguvad seda, liidavad kokku, arvutavad selle n-nda astme, võtavad kuupjuure ja teevad imetoredaid diagramme. Kuid sa ei tohi kunagi unustada, et iga viimane kui neist arvudest pärineb India külavahilt, kes lihtsalt paneb kirja selle, mis ta ise kuradima tahab.”

Loomulikult on asjad vahepeal professionaalsemaks läinud, meetodid arenenud, kuid inimfaktor mõistagi jääb. Ja ega inimesed suurt paremaks läinud pole. Tõsi, küllap on nad vähemalt harvemini töö ajal purjus, kui Coxi noorusajal 1880ndatel.

Lisaks inimfaktorile on statistika puhul tähtis metoodika – kuidas andmed on kogutud ja mil moel on neid töödeldud. Mõni metoodika sobib paremini ühel, teine teisel puhul.

Olulised piirid

Metoodika on pikk ja keeruline teema, mis selle artikli piiridesse ei mahu. Küll mahub neisse piiridesse üks väga oluline detail: veapiirid.

Võtame näiteks sellesama erakondade populaarsuse. Kui ühe erakonna toetus on tõusnud kümnelt 12-le protsendile, veapiirid aga on ±3 protsenti, siis pole nendest andmetest võimalik suurt midagi järeldada.

Tegelik toetus võib sel juhul olla enam kui kahekordistunud (enne oli seitse, nüüd on 15 protsenti), samaks jäänud (olles kogu aeg üheksa protsenti) või isegi hoopis langenud (enne oli 13, nüüd on aga üheksa protsenti).

Selliste muutuste korral annab mõnikord pikaajalisema, poole aasta või aasta trendi vaatamine veidi rohkem aimu. Sedagi tasub loomulikult teha ettevaatlikult, muidu võib hõlpsasti maha magada trendi murdepunkti.

Suur segadus

Detsembri lõpul ent oli ühes portaalis järjest kaks pealkirja: “Eelmisel aastal kallinesid Tallinna korterid 5,1 protsenti” ja “Tallinna korteri ruutmeetri hind langes detsembris 1,6 protsenti”.

Küllap tekitas see nii mõneski segadust ja põhjusega: paljalt pealkirjade põhjal polegi siin võimalik midagi aru saada.

Näiteks võiks arvata, kui lähtuda vaid rittaseatud sõnadest, et ruutmeetri hind langes detsembris novembriga võrreldes 1,6 protsenti, aga aasta jooksul müüdud korterid olid siiski eelmise aastaga võrreldes kallimad.

Siit edasi jagunevad tõlgendused juba kaheks. Kas esimeses loos oli samuti juttu ruutmeetri hinnast või korteri hinnast? Viimasel juhul võis olla tegu lihtsalt sellega, et möödunud aastal osteti suuremaid ja kallimaid kortereid kui tunamullu.

Küsimused, schmüsimused

Kui aga mõlemas loos oli juttu ruutmeetritest, siis tekib uusi küsimusi. Kas “eelmisel aastal” tähendab hinna muutust eelmise aasta jaanuarist detsembrini või eelmise aasta keskmise hinna võrdlust üle-eelmise aasta keskmisega?

Kas “detsembris” tähendab mulluse detsembri keskmise hinna võrdlust novembri keskmisega või hoopis üle-eelmise aasta detsembri keskmisega? Ja nii edasi. Seega tuleks ikkagi artiklid avada ja lugeda (selline segadus võib olla ka tahtlik – kohe iga inimese kohta kaks klikki juures).

Nentida tuleb muidugi sedagi, et ajakirjanduses ilmunud uudised on tihti sõnastatud nii segaselt, et tõde ei saagi teada, vaid tuleb minna algallika juurde. Ja see pole vaid meie kodumaise ajakirjanduse probleem, ka maailmas lugupeetud väljaanded komistavad, kuigi mõnikord kõrgema paku otsa.

Ning kõige selle juures ei tasu unustada USA blogija Ron DeLegge sõnu: “99 protsenti kogu statistikast räägib vaid 49 protsenti loost.” Oluline on lugu, narratiiv, mis nende arvude ümber ehitada. See aga sõltub juba sellest, kui hästi oskab jutustaja arve lugeda.

Populaarsed lood mujal Geeniuses

Igal argipäeval

Ära jää ilma päeva põnevamatest lugudest

Saadame sulle igal argipäeval ülevaate tehnoloogia-, auto-, raha- ja meelelahutusportaali olulisematest lugudest.