até agora, a maioria das empresas entende o apelo do uso de análise de big data. Com o big data, as empresas podem melhorar sua eficiência, aumentar a produtividade e obter informações valiosas que impulsionam seu trabalho. Poucos negarão o importante papel que o big data desempenha agora em organizações em todo o mundo, mas obter esses benefícios únicos requer ter dados de alta qualidade, algo que se tornou cada vez mais difícil de fazer. Com muita frequência, os dados coletados pelas empresas são preenchidos com erros, erros e valores incompletos. Isso é conhecido como dados sujos e pode representar um obstáculo formidável para as empresas que esperam usar esses dados para melhorar. Dados sujos também não são apenas um problema menor no grande esquema das coisas. De acordo com o Data Warehouse Institute (TDWI), os dados Sujos acabam custando às empresas dos EUA cerca de US $600 bilhões a cada ano. Para resolver completamente esse problema, as empresas precisam entender o que causa dados sujos e a melhor forma de corrigi-los.
Erros do Usuário
Parte da chave para usar big data analytics de forma mais eficaz é ter dados precisos e completos. Dados não confiáveis na maioria das vezes levam as empresas a chegar a conclusões erradas. O problema é quando o erro do Usuário se infiltra em conjuntos de dados. Uma maneira pelas quais as organizações coletam dados sobre seus clientes é preenchendo formulários on-line. Quando preenchido de forma completa e correta, isso dá às empresas muitas informações para analisar e analisar. Quando os clientes deixam buracos nesses dados, no entanto, ou quando eles preenchê-lo de forma imprecisa por engano ou de propósito, as empresas vão encontrar-se em uma grave desvantagem. Isso é particularmente preocupante com as equipes de vendas e marketing que dependem de informações precisas do cliente para impulsionar as vendas. De fato, uma pesquisa recente com profissionais de marketing mostra que mais da metade (60%) diz que a saúde de seus dados não é confiável.
vinculação/condensação de dados
outros problemas com dados Sujos surgem quando as organizações tentam vincular dados em diferentes conjuntos. Quando os conjuntos de dados não têm um identificador exclusivo, vinculá-los pode criar problemas, muitas vezes aparecendo na forma de entradas repetidas que não foram combinadas devido a pequenos erros. Ou, às vezes, os dados são combinados quando não deveriam ser (como quando os clientes com o mesmo nome têm suas informações misturadas). Esses tipos de problemas de dados Sujos geralmente surgem quando as empresas empregam vários bancos de dados ao mesmo tempo e tentam combiná-los, ou quando estão usando tecnologia mais antiga que não consegue acompanhar as demandas atuais de dados. Os mesmos problemas podem aparecer ao tentar condensar conjuntos de dados mais complexos em uma forma mais gerenciável.
como Limpar Dados Sujos
uma vez que uma empresa identificou o que causa dados Sujos, ela pode tentar limpar esses dados. Essa tarefa nem sempre é fácil, mas uma vez concluída, pode valer a pena o tempo, os recursos e o esforço da empresa. A limpeza de dados requer passar meticulosamente pelos dados, observando onde valores incorretos ou ausentes podem estar prejudicando a precisão dos dados. Obviamente, se os conjuntos de dados são enormes, fazer isso manualmente se torna quase impossível, mas felizmente, os algoritmos de big data podem realmente ajudar na limpeza de dados Sujos. Esses algoritmos foram projetados especificamente para corrigir os casos mais comuns de erros de usuário e coleta. Embora eles não possam corrigir todos os erros ou imprecisões, eles limitam muito o número de erros, tornando os dados sujos muito mais limpos do que antes.
prevenção de dados Sujos
as organizações também podem tomar os preparativos adequados para evitar que dados sujos se tornem um grande problema em primeiro lugar. Ao estabelecer uma relação de confiança com os clientes (como não preencher seus e-mails com spam), as pessoas estarão menos dispostas a fornecer informações imprecisas ou falsas sobre quaisquer formulários que preencham. As empresas também podem limpar os dados atualizando seus sistemas para garantir que possam lidar com grandes quantidades de coleta e análise de dados. As empresas com a tecnologia certa podem até entrar em limpeza de dados, que é como limpeza de dados, mas mais completa, envolvendo processos como filtragem, decodificação e tradução.
dados sujos podem representar problemas significativos para as empresas que tentam usar big data. Na maioria das vezes, as empresas não percebem que têm um problema até que os dados sujos se tornem desenfreados. Tomar as medidas agora para limpar os dados e evitar o problema ajudará muito as organizações a aproveitar ao máximo os dados que coletam. Só então eles verão os verdadeiros benefícios que o Big data analytics tem a oferecer.