Causes of Dirty Data and How to Combate Them

 social-data
tähän mennessä useimmat yritykset ymmärtävät big data-analytiikan käytön houkuttelevuuden. Big datan avulla yritykset voivat parantaa tehokkuuttaan, lisätä tuottavuutta ja saada arvokasta tietoa, joka vie heidän työtään eteenpäin. Harva kiistää sitä tärkeää roolia, joka big datalla nyt on organisaatioissa ympäri maailmaa, mutta näiden ainutlaatuisten hyötyjen saavuttaminen edellyttää korkealaatuista dataa, mikä on käynyt yhä vaikeammaksi. Yritysten keräämät tiedot ovat aivan liian usein täynnä virheitä, virheitä ja puutteellisia arvoja. Tätä kutsutaan likaiseksi tiedoksi, ja se voi muodostaa pelottavan esteen yrityksille, jotka haluavat käyttää näitä tietoja parantaakseen. Likaiset tiedot eivät ole vain sivuseikka suuressa mittakaavassa. Data Warehouse Instituten (Tdwi) mukaan likainen data päätyy maksamaan yhdysvaltalaisille yrityksille noin 600 miljardia dollaria joka vuosi. Tämän ongelman ratkaisemiseksi yritysten on ymmärrettävä, mikä aiheuttaa likaisia tietoja ja miten se voidaan parhaiten korjata.

Käyttäjävirheet

osa big data-analytiikan tehokkainta hyödyntämistä edellyttää tarkkaa ja täydellistä dataa. Epäluotettavat tiedot johtavat useimmiten siihen, että yritykset tekevät vääriä johtopäätöksiä. Ongelma on, kun käyttäjän virhe hiipii tietojoukkoihin. Yksi tapa, jolla organisaatiot keräävät tietoja asiakkaistaan, on saada heidät täyttämään verkkolomakkeita. Kun täytetty täysin ja oikein, tämä antaa yrityksille paljon tietoa jäsentää ja analysoida. Kun asiakkaat kuitenkin jättävät reikiä näihin tietoihin tai kun he täyttävät ne virheellisesti tai tarkoituksella, yritykset joutuvat vakavaan epäedulliseen asemaan. Tämä huolestuttaa erityisesti myynti-ja markkinointitiimejä, jotka luottavat tarkkoihin asiakastietoihin myynnin vauhdittamisessa. Markkinoijille äskettäin tehty tutkimus osoittaa, että yli puolet (60 prosenttia) sanoo, että heidän tietojensa terveys on epäluotettavaa.

tietojen linkittäminen/tiivistyminen

muita likaisen datan ongelmia syntyy, kun organisaatiot yrittävät yhdistää tietoja eri sarjojen välillä. Kun tietojoukoilla ei ole yksilöllistä tunnistetta, niiden linkittäminen voi aiheuttaa ongelmia, jotka usein ilmaantuvat toistuvien merkintöjen muodossa, joita ei yhdistetty pienten virheiden vuoksi. Tai joskus dataa yhdistetään, kun sen ei pitäisi olla (kuten silloin, kun samannimiset asiakkaat sekoittavat tietonsa keskenään). Tämäntyyppiset likaiset tiedot ongelmia useimmiten ilmaantua, kun yritykset työllistävät useita tietokantoja samaan aikaan ja yrittää yhdistää niitä, tai kun he käyttävät vanhempaa teknologiaa, joka ei pysy nykyisten tietojen vaatimuksiin. Samat ongelmat voivat näkyä, kun yritetään tiivistää monimutkaisempia tietokokonaisuuksia helpommin hallittavaan muotoon.

Kuinka puhdistaa likaiset tiedot

kun yritys on tunnistanut, mikä aiheuttaa likaiset tiedot, se voi yrittää puhdistaa nämä tiedot. Tällainen tehtävä ei ole aina helppoa, mutta kun se on suoritettu, se voi olla yrityksen ajan, resurssien ja vaivannäön arvoista. Tietojen puhdistus edellyttää tietojen läpikäymistä huolellisesti, huomata, missä virheelliset tai puuttuvat arvot voivat vahingoittaa tietojen tarkkuutta. On selvää, jos datajoukot ovat valtavia, tämän tekeminen manuaalisesti tulee lähes mahdottomaksi, mutta onneksi big data-algoritmit voivat todella auttaa siivoamaan likaista dataa. Nämä algoritmit on suunniteltu erityisesti korjaamaan yleisimpiä käyttäjä-ja keräysvirheitä. Vaikka ne eivät ehkä korjaa jokaista virhettä tai epätarkkuutta, ne rajoittavat suuresti virheiden määrää, jolloin likaiset tiedot ovat paljon puhtaampia kuin ennen.

likaisten tietojen estäminen

organisaatiot voivat myös ryhtyä asianmukaisiin valmisteluihin, jotta likaiset tiedot eivät ylipäätään muodostuisi suureksi ongelmaksi. Luomalla luottamuksellinen suhde asiakkaisiin (kuten ei täytä sähköposteja roskapostia), ihmiset ovat vähemmän halukkaita antamaan epätarkkoja tai vääriä tietoja tahansa lomakkeita he täyttävät. Yritykset voivat myös puhdistaa tietoja päivittämällä järjestelmiään, jotta ne pystyvät käsittelemään suuria määriä tiedonkeruuta ja analysointia. Yritykset, joilla on oikea teknologia, voivat jopa päästä tietojen pesuun, joka on kuin tietojen puhdistus, mutta perusteellisempi, mukaan lukien prosessit, kuten suodatus, dekoodaus ja kääntäminen.

likaiset tiedot voivat aiheuttaa merkittäviä ongelmia yrityksille, jotka yrittävät käyttää big dataa. Usein yritykset eivät tajua, että heillä on edes ongelmia, ennen kuin likaiset tiedot ovat rehottaneet. Ottamalla askeleet nyt puhdistaa tietoja ja estää asia menee pitkälle kohti auttaa organisaatioita hyödyntää tietoja ne keräävät. Vasta sitten he näkevät todelliset hyödyt, joita big data-analytiikalla on tarjottavanaan.

Vastaa

Sähköpostiosoitettasi ei julkaista.