Big Data? Hvad er det egentlig? Og hvor meget fylder det?

Big Data kan defineres på mange måder, og næsten alle har en holdning til, hvad Big Data er. Her er fire retningslinjer, som måske kan hjælpe dig med at forstå, hvad Big Data er.

Big Data

Big Data vokser og vokser. Foto: Getty

Når mængden af data gør, at de traditionelle måder at indsamle og behandle data på ikke længere er tilstrækkelige, er der som tommelfingerregel tale om Big Data.

Ifølge Angelo Alonso, Machine Learning Engineer hos Tradeshift, kan et eksempel på Big Data være, når værdierne ikke længere er numeriske, eller når antallet af forespørgsler overstiger et vist niveau.

Hvor stort er Big Data?

Når man snakker om Big Data, taler man også om bytes, og her har udviklingen skubbet kraftigt til opfattelsen og forståelsen af Big Data.

For 10 år siden talte man fx om, at datasæt af en vis gigabyte-størrelse var store. Men nu er datasæt på både petabyte og exabyte ikke usædvanlige. Big Data er for alvor nået op i en størrelse, hvor det kan være svært at overskue og forstå det reelle omfang af data. Fx flyttede Microsoft 150 petabytes, da de flyttede al den eksisterende data i Hotmail til Outlook. For at sætte dette tal i relief er en petabyte 1015 byte = 1 000 000 000 000 000 bytes!

 

De fire kendetegn for Big Data

Overordnet set kan man pege på fire karakteristika for Big Data: High volume, High veracity, High variety og High variability.

  • High volume beskriver volumen af de data, der skal håndteres. Som udtrykket Big Data antyder, er der meget data – ofte så meget, at en almindelig computer ikke har nok datakraft til at behandle og arbejde med datamængden.  
  • High veracity betyder, at meget data bliver indsamlet på meget kort tid. Dette skaber en risiko for, at forkert eller unøjagtigt datamateriale indsamles. Derfor er det vigtigt, at virksomheder skaber processer, som opsamler og frasorterer ubrugelige data.
  • High variety betyder, at der er så mange forskellige datatyper, at det kan være svært at kategorisere dem alle. Dokumenter, videoer, billeder m.m. indgår ofte i et Big Data-sæt. Alle datatyper indeholder brugbare informationer, men hver datatype kræver sin egen analyse- og behandlingsmetode.
  • High variability forbindes ofte med variety nævnt ovenfor. Variability er meget svært at få den fulde forståelse for, men generelt betyder det, at meningen ændres i takt med den kontekst, den sættes i. 

Forskellen mellem High variety og High variability kan illustreres som et besøg hos en bager, der sælger 10 forskellige slags brød. Det er variety. Forstil dig nu, at du går til den samme bager tre dage i træk og køber det samme brød. Selv om det er samme slags brød, vil det hver dag smage og dufte en smule anderledes, fordi der vil være små ændringer i din opfattelse af brødet og den situation, du spiser det i. Det er variability. 


Hvad kan Big Data bruges til?

Hvis få gode data er godt, må Big Data være rigtig godt. I teorien er de fleste da også enige om, at evnen til at databehandle store mængder data giver os enorme muligheder. 

Ifølge Magasinet Finans kan Big Data fx bruges til en række lavpraktiske formål som:

• Kreditvurdering

• Afsløring af svig

• Målrettet marketing

• Konkursforudsigelser

• Kreditkortgodkendelse.

Den danske erhvervsstyrelse satte da også i 2013 spotlight på Big Data i rapporten "Big Data som vækstfaktor i dansk erhvervsliv – potentialer, barrierer og erhvervspolitiske konsekvenser". I rapportens indledning hedder det:

"Flere internationale analyser har estimeret store potentialer i big data og fastslået, at big data baserede virksomheder klarer sig bedre end andre virksomheder. Derfor er det også vigtigt, at erhvervspolitikken forholder sig til udviklingen, og at der tages stilling til, hvad der eventuelt kan gøres for at fremme udbredelsen af Big Data i Danmark."


Data er først noget værd, når de analyseres og anvendes

Offentlige og private danske virksomheder samler da også flere data ind om virksomhed, drift, borger og kunder end nogensinde før. Alligevel halter vi efter nabolandene i arbejdet med at anvende data systematisk.

For at gøre opmærksom på vækstmulighederne i de gemte og glemte data er Dansk Industri, CBS, Alexandra Instituttet og en række it-virksomheder som IBM og EG gået sammen i projektpartnerskabet "DataForBusiness". Projektet går blandt andet ud på at stille virksomhederne en række spørgsmål om dataanvendelse.

Besvarelserne lægges ind i et værktøj, som giver virksomhederne indsigt i eget datapotentiale, benchmarker mere end 500 deltagervirksomheder anonymt mod hinanden og giver nem adgang til handleplaner og rådgivere, der hjælper med næste trin.

Imens vokser mængden af data

Mens forskerne, it-virksomhederne og ikke mindst de offentlige og private virksomhedsejere på den måde forsøger at indkredse og udnytte fænomenet Big Data, vokser datamængden sekund for sekund.

Hvert andet år fordobles den samlede mængde af data, og ifølge it-giganten EMC vil det digitale univers i 2020 være ti gange større end i dag, skrev Berlingske i 2014.

Af rapporten fremgik det, at en gennemsnitlig husstand hvert år genererer data, der svarer til at fylde 65 iPhones med 32 gigabyte. Det vil i 2020 være 318 iPhones.

Samtidig vurderede Cisco i 2016, at verdens samlede datamængde ville være 6,2 zettabytes i  2020.

Størstedelen (84 %) vil være opbevaret på enheder som pc'er og tablets, mens 16 % vil blive opbevaret i datacentre som fx Dropbox.

Se en kort video om Big Data