Suurandmed statistikas

Et statistikas on andmete kogumine kõige ressursimahukam protseduur, on suurandmete kasutamine statistikutele väga ahvatlev, eriti juhul, kui õnnestuks suurandmetega asendada uuringute või loenduste käigus kogutavaid andmeid. Samas on oluline selgeks teha suurandmete rakendatavuse piirid – tegemist pole universaalse meetodiga, mis asendaks kõike varasemat.

Tänapäeval, mil väga paljusid toiminguid teevad elektroonsed seadmed, koguneb nende mäludesse ka selliseid andmeid, mida otseselt kasutada ei kavatsetagi. Näiteks kaupluste kassaautomaatidest võib lisaks üksikkaupade eelistustele saada teavet ka ostjate kaubavalikute mustrite kohta. Niisuguste laekunud andmete kogused võivad olla väga suured ja ka andmed ise üsnagi eriilmelised: info mobiiltelefonide kasutamise, ühistranspordi, pangakontode, elektritarbimise ja paljugi muu kohta. Selliste suuremahuliste andmete kohta kasutatakse ühist nimetust suurandmed (big data).

Kahekümnenda sajandi esimesel poolel hakkas statistikateadlaste seas üldisemalt levima arusaam, et mingi nähtuse kohta järelduse tegemiseks piisab sellest, kui uurida ainult üht osa objektidest – valimit. Selle tõdemuse tulemusena töötati välja uued statistikasuunad, sh valikuuringute teooria, millele tuginedes tänapäeval tehakse kogu maailmas iga päev arvukalt uuringuid. Väga oluline on siinjuures mainida, et kõigi selliste uuringute puhul selgitatakse ka võimaliku vea suurus ja tõenäosus.

Hoolimata valikuuringute kasulikkusest ja tulemuslikkusest teaduses, majanduses ja poliitikas, on nende kasutamise võimalustel oma piirid. Valikuuringud ei saa asendada loendusi ja registreid, mis kajastavad kogu populatsiooni andmeid ja on ülimalt vajalikud tervikpildi saamisest riigi rahvastikust ning majandusest.

Suurandmete analüüsimine pakub suuri väljakutseid statistikutele. Uuel viisil kogutud ja uut tüüpi andmed nõuavad aga sobivate statistikameetodite arendamist. Suurandmete rakendajate väiteil on seni suurandmete põhjal tehtud järeldused olnud peamiselt empiirilised. Edasise arengu käigus on vaja välja töötada metoodika hinnangute arvutamiseks ja järelduste kvaliteedi hindamiseks. Arusaadavalt on suurandmete kasutamise puhul vaja jälgida isikuandmete kaitse reeglistikku.

Oluline on selgeks teha ka suurandmete rakendatavuse piirid – on selge, et tegemist pole universaalse meetodiga, mis asendaks kõike varasemat – kuigi esialgse entusiasmi hoos on ka sellist arvamust väljendatud. Kindlasti ei asenda suurandmete kasutamine kõikset statistikat – loendusandmetele ja registritele tuginevaid statistikatöid, sest üldjuhul ei kata suurandmed kogu populatsiooni ega mõõda täpselt seda, mis kajastub registrites ja loendusstatistikas.

Samas on suurandmete näol tegemist rikkaliku andmeallikaga, mille oluliseks hüveks on andmete objektiivsus. Isiku-uuringute puhul võib sageli kahelda ankeedivastuste objektiivsuses – kas inimesed ei näita ennast (teadlikult või ebateadlikult) mingis mõttes parematena, kui nad tegelikult on? Suurandmete puhul, mis inimeste käitumist nende teadmata registreerivad, seda probleemi ei ole. Oluline on vaid õppida neid andmeallikaid kasutama ja neist järeldusi tegema. Juba tänapäeval, kuid veel enam tulevikus, on edukas vaid andmepõhine majandus, mis kasutab oluliselt statistikat, kombineerides erinevatest allikatest pärinevaid andmeid – niihästi loendus-, uuringu- kui ka suurandmeid, arvestades kõigi andmete eripära.

Ene-Margit Tiit, Statistikaameti peametoodik ja Tartu Ülikooli emeriitprofessor

Artikkel ilmus ajalehes Postimees 03.08.2015 pealkirja all „Suurandmed statistikas“.

Lisa kommentaar

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / Muuda )

Twitter picture

You are commenting using your Twitter account. Log Out / Muuda )

Facebook photo

You are commenting using your Facebook account. Log Out / Muuda )

Google+ photo

You are commenting using your Google+ account. Log Out / Muuda )

Connecting to %s