nu forstår de fleste virksomheder appellen ved at bruge big data analytics. Med big data kan virksomheder forbedre deres effektivitet, øge produktiviteten og få værdifuld indsigt, der driver deres arbejde fremad. Få vil benægte den vigtige rolle, som big data Nu spiller i organisationer over hele verden, men at få disse unikke fordele kræver at have data af høj kvalitet, noget der er blevet stadig vanskeligere at gøre. Alt for ofte er de data, der indsamles af virksomheder, fyldt med fejl, fejl og ufuldstændige værdier. Dette kaldes beskidte data, og det kan udgøre en formidabel hindring for virksomheder, der håber at bruge disse data til at forbedre. Dirty data er ikke kun et mindre problem i den store ordning af ting, enten. Ifølge Datalagerinstituttet ender beskidte data med at koste amerikanske virksomheder omkring 600 milliarder dollars hvert år. For fuldt ud at løse dette problem skal virksomheder forstå, hvad der forårsager beskidte data, og hvordan man bedst løser det.
brugerfejl
en del af nøglen til at bruge big data analytics mest effektivt er at have data, der er nøjagtige og komplette. Upålidelige data fører oftere end ikke til, at virksomheder kommer til de forkerte konklusioner. Problemet er, når brugerfejl kryber ind i datasæt. En måde, hvorpå organisationer indsamler data om deres kunder, er ved at få dem til at udfylde onlineformularer. Når det udfyldes fuldt ud og korrekt, giver dette virksomheder masser af information til at analysere og analysere. Når kunder efterlader huller i disse data, imidlertid, eller når de udfylder dem unøjagtigt ved en fejltagelse eller med vilje, virksomheder vil finde sig i en alvorlig ulempe. Dette er især bekymrende med Salgs-og marketingteams, der er afhængige af nøjagtige kundeoplysninger for at drive salget. Faktisk viser en nylig undersøgelse af marketingfolk, at mere end halvdelen (60 procent) siger, at deres datas sundhed er upålidelig.
Datakobling/kondensering
andre problemer med beskidte data opstår, når organisationer forsøger at forbinde data på tværs af forskellige sæt. Når datasættene ikke har en unik identifikator, kan sammenkædning af dem skabe problemer, der ofte dukker op i form af gentagne poster, der ikke blev kombineret på grund af mindre fejl. Eller nogle gange kombineres data, når det ikke skal være (som når kunder med samme navn har deres oplysninger blandet sammen). Disse typer beskidte dataproblemer dukker ofte op, når virksomheder anvender flere databaser på samme tid og prøver at kombinere dem, eller når de bruger ældre teknologi, der ikke kan følge med de aktuelle datakrav. De samme problemer kan vises, når man prøver at kondensere mere komplekse datasæt til en mere håndterbar form.
Sådan rengøres beskidte Data
når et firma har identificeret, hvad der forårsager beskidte data, kan det gå om at forsøge at rense disse data op. En sådan opgave er ikke altid let, men når den er afsluttet, kan det være værd at virksomhedens tid, ressourcer og kræfter. Datarensning kræver at gennemgå dataene omhyggeligt og bemærke, hvor forkerte eller fraværende værdier kan skade datanøjagtigheden. Det er klart, at hvis datasættene er enorme, bliver det næsten umuligt at gøre dette manuelt, men heldigvis kan Big data-algoritmer faktisk hjælpe med at rydde op i beskidte data. Disse algoritmer er designet specielt til at løse de mest almindelige tilfælde af Bruger-og indsamlingsfejl. Selvom de muligvis ikke løser hver eneste fejl eller unøjagtighed, begrænser de i høj grad antallet af fejl, hvilket gør beskidte data meget renere end før.
forebyggelse af beskidte Data
organisationer kan også tage de rette forberedelser for at forhindre, at beskidte data nogensinde bliver et stort problem i første omgang. Ved at etablere et tillidsfuldt forhold til kunder (som ikke at udfylde deres e-mails med spam) vil folk være mindre villige til at give unøjagtige eller falske oplysninger om eventuelle formularer, de udfylder. Virksomheder kan også rydde op i data ved at opdatere deres systemer for at sikre, at de kan håndtere store mængder dataindsamling og analyse. Virksomheder med den rigtige teknologi kan endda komme ind i dataskrubning, hvilket er som datarensning, men mere grundig, der involverer processer som filtrering, afkodning og oversættelse.
beskidte data kan udgøre betydelige problemer for virksomheder, der forsøger at bruge big data. Meget af tiden er virksomheder ikke klar over, at de endda har et problem, før beskidte data er blevet voldsomme. At tage skridt nu for at rense data og forhindre problemet vil gå langt i retning af at hjælpe organisationer med at få mest muligt ud af de data, de indsamler. Først da vil de se de sande fordele, som big data analytics har at tilbyde.