Suurandmed

Suurandmed (inglise keeles big data) on andmed, mis on nii suure mahuga või nii keerulised, et nende töötlemiseks ei piisa tavapärastest vahenditest ja ressurssidest.

Andmete maht on aasta-aastalt kasvanud. Digitaalselt talletatud andmete maht ületas analoogandmete oma 2002. aastal. Seda murrangulist hetke on mõnikord seostatud ka digitaalajastu algusega.^[1]

Internetti ühendatud seadmete (vt ka nutistu) toodetavate andmete hulk kasvab eksponentsiaalselt. Kui 2017. aastal toodeti globaalselt andmeid ligikaudu 21 zettabaiti, siis 2018. aastaks ennustati üle 30 zettabaiti ja 2019. aastaks umbes 40 zettabaiti.^[2]

Märkimisväärne roll digitaalsete andmete loomisel on ka internetikasutajate osakaalul rahvastikust – 2017. aasta lõpuks oli internetikasutajate arv jõudnud 4,17 miljardini.^[3] Sotsiaalmeediasse, näiteks YouTube'i, laevad 50 miljonit kasutajat igas minutis 300 tundi uut sisu, mida vaadatakse iga päev ühtekokku miljard tundi.^[4] X-i postitatakse päevas 500 miljonit säutsu^[5] ja Facebookis saadetakse 9 miljonit sõnumit tunnis.^[6]

Tekkeviisid

Inimgeograaf Rob Kitchin^[7] (2014) eristab kolme tüüpi andmete tekkimise viisi: otsest, automaatset ja vabatahtlikku. Otseseid andmeid kogutakse tegevustega, mille eesmärk ongi andmete kogumine. Näiteks valvekaamerate salvestised, digiseadmetega tehtavad teaduskatsed ning mittedigitaalsete dokumentide digiteerimine. Automaatsed andmed tekivad protsesside käigus iseenesest. Siia kuuluvad automatiseeritud järelevalve, sensorite kogutav info ning ülekande- ja suhtlemistegevustest jääv jälg. Samuti interneti kasutus ning arvutite omavahelisest suhtlusest tekkivad kirjed. Vabatahtlikud andmed on kasutajate endi panustatud info. Näiteks sotsiaalmeedia, sousveillance ehk enda vabatahtlik varustamine jälgimisseadmetega, ühisloome (crowdsourcing) ja kodanikuteadus.

Kitchin^[7]osutab, et paljud andmekogumise vahendid ei ole alles hiljuti tekkinud, vaid on olnud kasutusel juba aastaid. Näiteks ilmaprognoosid ja turukäitumise arvutuslikud ennustused on pika ajalooga. Erinevus seisneb selles, et alles viimasel ajal on muutunud kättesaadavaks suhtlusvõimalused, disain ja säilitusvõimekus, mis võimaldavad neid andmeid uurida laiemalt ja ka väljaspool nende algset funktsiooni.

Andmete tüübid

Tehnoloogiline areng võimaldab kasutada eri tüüpi struktureeritud ja struktureerimata andmeid. Suurandmed jagatakse struktureerimata, poolstruktureeritud ja struktureeritud andmeteks, seejuures areneb kiiresti just struktureerimata andmete uurimine.^[8]

Struktureeritud andmed

Struktureeritud andmed, mis hõlmavad vaid 5% andmetest ^[9], viitavad tabelipõhistele andmetele arvutustabelites või vahenduspõhistes andmebaasides. Struktureeritud andmete põhjal tehakse näiteks ennustavat analüüsi, mis on enim levinud suurandmete analüüsi viis. Seejuures kasutatakse mittestruktureeritud andmete analüüsimist keerukuse tõttu vähem, kuid ka see valdkond areneb kiiresti.^[10] Struktureeritud andmed jagunevad arvuti- ehk masintekkelisteks ja inimtekkelisteks andmeteks.^[11] Viimased tekivad kui inimene kasutab arvuteid või muid tehnoloogilisi vahendeid. Masintekkelisi andmeid on omakorda nelja tüüpi: sensoripõhised andmed, targad mõõtjad, meditsiinitehnika ning globaalse positsioneerimise süsteemi andmed. Inimtekkelised andmed tekivad tehnoloogiliste vahendite kasutamisel, sisaldades näiteks nime, vanust ja muid kasutaja sisestatud parameetreid või sotsiaalmeedias jagatud infot.

Mittestruktureeritud andmed

Mittestruktureeritud andmed viitavad andmetele, millel puudub eeldefineeritud andmemudel või mis ei sobi hästi relatsioonandmebaasidesse.^[12] Mittestruktureeritud andmed on kiire kasvuga andmetüübi liik, mille alla kuuluvad näiteks pildid, sensorite andmed, dokumendid, logid, videod ja e-kirjad. Nende ühine nimetaja on piisava strukturaalse organiseerituse puudumine, mis takistab neid tavapäraselt arvutiga analüüsida.

Poolstruktureeritud andmed

Struktureeritud ja struktureerimata andmete vahele paigutuvad poolstruktureeritud andmed, mis ei kohandu kindlate standarditega. Nende tekkimine ja määratlemine tuleneb andmete uudsusest, mistõttu need ei sobitu olemasoleva andmebaasitehnoloogiaga. Selliste andmete töötlemiseks on vaja paremaid päringukeeli, andmete optimeerimistehnikaid või olemasolevate andmemudelite edasiarendusi. Poolstruktureeritud andmed nõuavad siiski teatud struktuuri olemasolu, mis on mõne andmetüübi puhul keerukas. Buneman kirjeldab internetti kui andmebaasi, millest andmete kättesaamiseks on vaja keerukaid vahendeid. Kuna internet ei allu ühtsele andmemudelile, on selle struktuuri uurimine raske ning enamasti keskendutakse konkreetsetele lehekülgedele ja saitidele.^[12]

Omadused

Suurandmeid kirjeldatakse sageli järgmiste põhiomadustega (sulgudes on algsed ingliskeelsed vasted)^[13]:

maht (volume)
kiirus (velocity)
sort (variety)
varieeruvus (variability)
õigsus (veracity)
kehtivus (validity)
haavatavus (vulnerability)
volatiilsus (volatility)
visualiseeritus (visualisation)
väärtus (value)

Suurandmete omadused ning nende arv varieeruvad allikati suuresti, kuid need kõik algavad inglise keeles v-tähega. ^[14]

Rakendamine

Suurandmetel, kui need on tüübi alusel eristatud, on teatud mustrid ning on neid töödeldakse masinõppe abil. Peamiselt kasutatakse seni kogutud andmeid prognoosivaks analüüsiks, kasutaja käitumise analüüsiks või muud tüüpi keerulisemate analüüsimeetodite rakendamiseks, et andmetest väärtuslikku infot koguda. Analüüsi tulemuslikkuse tagamiseks tuleb koguda õigeid andmeid õiges mahus.

Suurandmete kogumist ja analüüsi kasutatakse näiteks järgmistes valdkondades:

avalik sektor ja valitsus
rahvusvaheline koostöö ja arendustegevus
tootmine
tervishoid
haridus
meedia
nutistu
infotehnoloogia

Andmete analüüs

Kuna inimesed kasutavad arvuteid ja tehnikat palju ning eri viisidel, on ka kogunevad andmehulgad suured. Andmed võivad liigituda suurandmeteks ka siis, kui neid on arvuliselt vähe, kuid need on mahukad, nagu näiteks videoandmed. Paljud seda tüüpi andmed tekivad reaalajas, mis võimaldab mõista mustreid ning teha järeldusi ja ennustusi.

Andmete analüüsimise protsess jaguneb üldjoontes kaheks alaetapiks: andmete haldamiseks ja nende analüüsimiseks. Andmete haldamine hõlmab protsesse ja tehnoloogiaid andmete päringute tegemiseks, hoiustamiseks, analüüsi ettevalmistamiseks ja analüüsimiseks.

Suurandmete analüüs jaguneb viide etappi^[15]:

kogumine-talletamine
eraldamine, puhastamine ja annotatsioon
integreerimine, agregeerimine ja representatsioon
modelleerimine ja analüüs
tõlgendamine

Sivarajah et al. (2017)^[16] kirjeldavad suurandmete analüüsimise ja hoiustamisega seotud probleeme, mis jagunevad mitmesse etappi. Esimene etapp ehk andmete kogumine ja talletamine on keerukas, kuna andmed pärinevad erinevatest allikatest ning neist väärtuse eristamine on raske. Selles faasis on suurim väljakutse piisavate filtrite rakendamine, et jäädvustada informatsiooni korrapärasusi ja ebakõlasid. Eraldamise ja puhastamise etapis üritatakse suurest struktureerimata andmemassiivist leida vajalik informatsioon, mis seab kõrged nõudmised andmekaeve vahendite võimekusele. Edukale kaevele järgneb andmete integreerimine, kus puhastatud andmed organiseeritakse süstemaatiliselt vastavalt nende päritolule. Selles faasis muutuvad andmed sisuliseks uurimismaterjaliks, kuid praegused süsteemid on tõhusaks agregeerimiseks veel puudulikud. Järgmine etapp on andmete analüüs ja modelleerimine. Selles faasis üritatakse andmekaeve tulemusel kogutud andmetest leida mustreid ja suhteid. See on väga keeruline, kuna suurandmed on "mürarikkad", heterogeensed ja dünaamilised, nõudes suurt tehnoloogilist võimekust. Protsessi viimane osa on andmete tõlgendamine otsuste langetamiseks, mis on keerukas ülesanne ning milleks vajaliku kompetentsiga inimesi on praegu veel vähe.

Kriitika

Suurandmete analüüsis tuleb eristada kvantitatiivset ja kvalitatiivset lähenemist. Alati ei taga suurem andmete kogus täpsemaid või paremini analüüsitavaid tulemusi, kui analüüsiks kasutatavatest lähteandmetest ei eemaldata ebaolulisi või vale sisuga andmeid. Sageli kasutatavad automatiseeritud uurimismeetodid võivad anda väära tulemuse, kui meetodi koostaja on jätnud arvestamata andmemassiivis esineda võivate eripäradega, mis mõjutavad täpsust. Lisaks esineb oht, et mudeli loomise ajal täpne ja toimiv meetod ei suuda hilisema andmekaeve käigus lisandunud andmetüüpidega kohanduda, mistõttu analüüs ei taga enam korrektset väljundit. ^[17]

Viited

↑ Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
↑ "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Vaadatud 20.03.2018.
↑ "Internet World Stats". 31.12.2017. Originaali arhiivikoopia seisuga 24.11.2017. Vaadatud 20.03.2018.
↑ "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Vaadatud 20.03.2018.
↑ Salman Aslam (01.01.2018). "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.
↑ Salman Aslam (01.01.2018). "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.
1 2 Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1), 205395171452848. https://doi.org/10.1177/2053951714528481
↑ Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd 285. Berlin; Heidelberg: Springer International Publishing. ISSN 1865-1356 ISSN 1865-1356. OCLC 909580101. {{raamatuviide}}: kontrolli parameetri |issn= väärtust (juhend)CS1 hooldus: mitu nime: autorite loend (link)
↑ Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25,
↑ Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.
↑ Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.
1 2 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press
↑ George Firican (08.02.2017). "The 10 Vs of Big Data". Vaadatud 20.03.2018.
↑ Tom Shafer (01.04.2017). "The 42 V's of Big Data and Data Science". Originaali arhiivikoopia seisuga 6.08.2017. Vaadatud 20.03.2018.
↑ Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5(12), 2032–2033. https://doi.org/10.14778/2367502.2367572
↑ Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001
↑ Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8

[4UcHL-1] Hilbert, M., López, P. (2011). The World’s Technological Capacity to Store, Communicate, and Compute Information. Lk 60–65.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)

[kymvq-2] "In-Network Computing and Next Generation HDR 200G InfiniBand". 23.10.2017. Vaadatud 20.03.2018.

[N5Iz9-3] "Internet World Stats". 31.12.2017. Originaali arhiivikoopia seisuga 24.11.2017. Vaadatud 20.03.2018.

[gv9hQ-4] "YouTube by the Numbers: Stats, Demographics & Fun Facts". 05.02.2018. Vaadatud 20.03.2018.

[XPoI1-5] Salman Aslam (01.01.2018). "Twitter by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.

[yCVpJ-6] Salman Aslam (01.01.2018). "Facebook by the Numbers: Stats, Demographics & Fun Facts". Omnicore. Vaadatud 20.03.2018.

[:1-7] 1 2 Kitchin, R. (2014). Big Data, new epistemologies and paradigm shifts. Big Data & Society, 1(1), 205395171452848. https://doi.org/10.1177/2053951714528481

[NSyZi-8] Dedić, N.; Stanier, C. (2017). Towards Differentiating Business Intelligence, Big Data, Data Analytics and Knowledge Discovery. Kd 285. Berlin; Heidelberg: Springer International Publishing. ISSN 1865-1356 ISSN 1865-1356. OCLC 909580101. {{raamatuviide}}: kontrolli parameetri |issn= väärtust (juhend)CS1 hooldus: mitu nime: autorite loend (link)

[iS19E-9] Cukier K., (2010), The Economist, Data, data everywhere: A special report on managing information February 25,

[3pt7o-10] Gandomi, A., Haider, M. (2015). Beyond the hype: Big data concepts, methods, and analytics. International Journal of Information Management, 35(2), 137–144.

[rNwAG-11] Hurwitz, J. (2013). Big data for dummies. Hoboken, NJ: For Dummies, a Wiley brand.

[:0-12] 1 2 Buneman, P. (1997). Semistructured data. pp. 117–121. ACM Press

[Ax8OC-13] George Firican (08.02.2017). "The 10 Vs of Big Data". Vaadatud 20.03.2018.

[GAAad-14] Tom Shafer (01.04.2017). "The 42 V's of Big Data and Data Science". Originaali arhiivikoopia seisuga 6.08.2017. Vaadatud 20.03.2018.

[1RC3q-15] Labrinidis, A., Jagadish, H. V. (2012). Challenges and opportunities with big data. Proceedings of the VLDB Endowment, 5(12), 2032–2033. https://doi.org/10.14778/2367502.2367572

[:2-16] Sivarajah, U., Kamal, M. M., Irani, Z., & Weerakkody, V. (2017). Critical analysis of Big Data challenges and analytical methods. Journal of Business Research, 70, 263–286. https://doi.org/10.1016/j.jbusres.2016.08.001

[Mx7bi-17] Boyd D., Crawford K.. "Six Provocations for Big Data". A Decade in Internet Time: Symposium on the Dynamics of the Internet and Society, 2011, pp 4–8

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]