Alle definerer Big Data med et sett på 3 eller 4 eller 10 Vs. Gir disse V-ene oss faktisk definisjonen av Big Data-konseptet, eller er det noe annet de prøver å fortelle oss? Hovedgrunnen til å bruke denne V-baserte karakteriseringen er å fremheve utfordringene som følger med denne Big Data. Utfordringer som – fangst, rengjøring, kurering, integrasjon, lagring, prosessering og mange flere.
Disse V-ene gir instruksjonene for hvordan du forbereder deg på de sannsynlige utfordringene. Utfordringer som kan komme din vei når du begynner å administrere Big Data som:
Disse V-ene forklarer de viktige aspektene ved Big Data og en Big Data-strategi som organisasjonen ikke kan ignorere. La oss se på alle V-ene som bidrar til forskjellige attributter til Big Data:
1. Volum:
100 terabyte med data lastes opp daglig til Facebook; Akamai analyserer 75 millioner hendelser om dagen for å målrette annonser på nettet; Walmart håndterer 1 million kundetransaksjoner hver eneste time. 90 % av all data som noen gang er opprettet, ble generert i løpet av de siste 2 årene.
Tallene ovenfor viser virkelig hva det betyr når vi sier store datavolumer. Det er disse første egenskapene til data som gjør det til en stor data. Dette store datavolumet utgjør i sin tur en utfordring for oss med å lagre disse dataene.
Se også: Beste 19 gratis datautvinningsverktøy
2. Hastighet:
1n 1999, hvert minutt hver dag, laster vi opp 100 timer med video på YouTube, sendte over 200 millioner e-poster og sender 300 000 tweets.
Underliggende volumtallene er en enda større trend, som er at 90 % av eksisterende data har blitt opprettet bare de siste to årene. Dette skildrer hastigheten eller hastigheten som dataene blir opprettet, lagret, analysert og visualisert med.
Utfordringen organisasjoner har er å takle den enorme hastigheten dataene lages og brukes i sanntid.
3. Variasjon
Tidligere var all data som ble opprettet strukturerte data, de passet pent inn i kolonner og rader, men de dagene er over. 90 % av data som genereres i dag er ustrukturert, og kommer i alle former – fra geo-spatiale data, til tweets som kan analyseres for innhold og følelser, til visuelle data som bilder og videoer.
Variety beskriver en av de største utfordringene med big data. Det kan være ustrukturert og det kan inkludere så mange forskjellige typer data fra XML til video til SMS. Å organisere dataene på en meningsfull måte er ingen enkel oppgave, spesielt når selve dataene endres raskt.
4. Variabilitet
Variabilitet forveksles ofte med variasjon. Et enkelt eksempel for å skille det er: tenk på Starbucks – det har så mange smaker i Cold Coffee. Dette er variasjon. For anta at du kjøper Cafe Mocha hver dag og den smaker og lukter litt annerledes enn hver dag før. Det er Variabilitet.
Variabilitet i big Datas kontekst refererer til noen få forskjellige ting. Den ene er antall inkonsekvenser i dataene. Disse må finnes ved hjelp av anomali- og avvikdeteksjonsmetoder for at noen meningsfull analyse skal skje. Big data er også variabel på grunn av mangfoldet av datadimensjoner som er et resultat av flere forskjellige datatyper og kilder. Variabilitet kan også referere til den inkonsekvente hastigheten som big data lastes inn i databasen med.
Se også: Beste verktøy for frakoblet datarensing
5. Sannitet
Det som er avgjørende for å forstå Big Data er rotete, støyende natur og mengden arbeid som går med til å produsere et nøyaktig datasett før analysen i det hele tatt kan begynne. Det er ubrukelig hvis dataene som analyseres er unøyaktige eller ufullstendige.
Denne situasjonen oppstår når datastrømmer kommer fra forskjellige kilder som presenterer en rekke formater med varierende signal-til-støy-forhold. Det kan være fullt av disse akkumulerte feilene når det kommer til Big Data Analytics.
Veracity handler om å sørge for at dataene er nøyaktige, noe som krever prosesser for å forhindre at de dårlige dataene samler seg i systemene dine. Det enkleste eksemplet er kontakter som kommer inn i markedsføringsautomatiseringssystemet ditt med falske navn og unøyaktig kontaktinformasjon. Hvor mange ganger har du sett Mikke Mus i databasen din? Det er den klassiske «søppel inn, søppel ut»-utfordringen.
6. Visualisering
Dette er den vanskelige delen av Big Data, og svikt i dette gjør dette enorme datavolumet ubrukelig. En kjerneoppgave for ethvert Big Data-behandlingssystem er å transformere den enorme skalaen til noe som er lett å forstå og handlingsdyktig. For konsum er en av de beste metodene for dette å konvertere det til grafiske formater.
Nåværende big data visualiseringsverktøy står overfor tekniske utfordringer pga. begrensninger i minneteknologi og dårlig skalerbarhet, funksjonalitet og responstid. Tradisjonelle grafer kan ikke oppfylle behovet for å plotte en milliard datapunkter, så du trenger forskjellige måter å representere data på, for eksempel datagruppering eller bruk av trekart, solstrøk, parallelle koordinater, sirkulære nettverksdiagrammer eller kjegletrær.
7 . Verdi
Verdi er sluttspillet. Den potensielle verdien av Big Data er enorm. Etter å ha tatt vare på volum, hastighet, variasjon, variabilitet, sannhet og visualisering – noe som tar mye tid og krefter – er det viktig å være sikker på at organisasjonen din får verdi fra dataene.
Selvfølgelig , data i seg selv er ikke verdifulle i det hele tatt. Verdien ligger i analysene som er gjort på disse dataene og hvordan dataene blir omgjort til informasjon og til slutt gjør dem til kunnskap.
De 7 V-ene ovenfor forteller deg om 3 viktige aspekter ved Big Data, dvs. definisjon, egenskaper og utfordringer. Men da folk begynte å forske på store data for å finne opp metoder for å møte de nevnte 7 V-utfordringene, kom de over noen andre V-er. Selv om de ikke spiller den avgjørende rollen i big data, men fullfører listen over kjennetegn og utfordringer.
8. Validitet
I likhet med sannhet refererer validitet til hvor nøyaktige og korrekte dataene er for den tiltenkte bruken. Sannhet i Big Data er et spørsmål om gyldighet, noe som betyr at dataene er korrekte og nøyaktige for den tiltenkte bruken. Klart gyldige data er nøkkelen for å ta de riktige beslutningene. Datavalidering er en som sertifiserer ukorrupt overføring av data.
9. Levedyktighet
Bare tenk på utsagnene nedenfor:
Vår første oppgave er å vurdere levedyktigheten til disse dataene fordi, med så mange varianter av data og variabler å vurdere når vi bygger en effektiv prediktiv modell, ønsker vi å raskt og kostnads- effektivt teste og bekrefte relevansen til en bestemt variabel før du investerer i å lage en fullverdig modell. Med andre ord, vi ønsker å validere den hypotesen før vi iverksetter ytterligere tiltak og i prosessen med å bestemme levedyktigheten til en variabel, kan vi utvide vårt syn for å finne ut om andre variabler – de som ikke var en del av vår opprinnelige hypotese – har en meningsfull innvirkning på våre ønskede eller observerte utfall.
10. Volatilitet
Hvor gamle må dataene dine være før de anses som irrelevante, historiske eller ikke lenger nyttige? Hvor lenge må data lagres?
Når vi snakker om volatiliteten til Big Data, kan vi enkelt huske oppbevaringspolitikken for strukturerte data som vi implementerer hver dag i våre virksomheter. Når oppbevaringsperioden utløper, kan vi enkelt ødelegge den.
På grunn av hastigheten og volumet til big data, må imidlertid volatiliteten vurderes nøye. Du må nå etablere regler for datavaluta og tilgjengelighet, samt sikre rask henting av informasjon når det er nødvendig.
11. Sårbarhet
Husker du Ashley Madison Hack i 2015? Eller husker du i mai 2016 CRN rapporterte «en hacker kalt Peace la ut data på det mørke nettet for å selge, som angivelig inkluderte informasjon om 167 millioner LinkedIn-kontoer og 360 millioner e-poster og passord for MySPace-brukere.
Store. Data bringer med seg nye sikkerhetshensyn. Spesielt med disse egenskapene blir det en utfordring å utvikle et sikkerhetsprogram for Big Data. Tross alt er et datainnbrudd et stort brudd.
Så hva forteller alt dette oss om naturen til Big Data? Vel, det er massivt og raskt ekspanderende, men det er også bråkete, rotete, i stadig endring, i hundrevis av formater og praktisk talt verdiløst uten analyse og visualisering.
Volum, hastighet og variasjon er ikke bare nøkkelparametrene av Big Data, men de er også grunnen til å gi fødsel til konseptet Big Data og de viktigste skillefunksjonene mellom normaldata og Big Data. Selv om de er iboende for selve Big Data, er den andre Vs Variabilitet, sannhet, visualisering og verdi viktige egenskaper som gjenspeiler den gigantiske kompleksiteten som Big Data presenterer for de som vil behandle, analysere og dra nytte av det.
Uten tvil er Big Data en nøkkeltrend som bedriftens IT må tilpasses med riktig datainfrastruktur. Men uten høyytelsesanalyse og dataforskere for å forstå det hele, risikerer du bare å skape store kostnader uten å skape verdien som omsetter seg til forretningsfordeler.
Les: 0