Que tipos de padrões a mineração de dados pode descobrir?
usando os dados mais relevantes (que podem vir de bancos de dados organizacionais ou podem ser obtidos de fontes externas), a mineração de dados constrói modelos para identificar padrões entre os atributos (ou seja, variáveis ou características) que existem em um conjunto de dados. Os modelos são, geralmente, as representações matemáticas (linear simples correlações e/ou complexos altamente relações não-lineares), que identificam as relações entre os atributos dos objetos (por exemplo, clientes), descrito no conjunto de dados. Alguns desses padrões são explicativas (explicando as inter-relações e afinidades entre os atributos), enquanto outros são preditiva (projeção de valores futuros de determinados atributos). Em geral, a mineração de Dados busca identificar três tipos principais de padrões:
-
as associações encontram agrupamentos comuns de coisas, como” cervejas e fraldas “ou” pão e manteiga ” comumente comprados e observados juntos em um carrinho de compras (ou seja, análise de cesta de mercado). Outro tipo de padrão de associação captura as sequências das coisas. Esses relacionamentos sequenciais podem descobrir eventos ordenados pelo tempo, como prever que um cliente bancário existente que já possui uma conta corrente abrirá uma conta poupança seguida por uma conta de investimento dentro de um ano.
-
Previsões dizer a natureza de ocorrências futuras de determinados eventos com base no que aconteceu no passado, como prever o vencedor do Super Bowl ou previsão da temperatura absoluta em um determinado dia.
-
os Clusters identificam agrupamentos naturais de coisas com base em suas características conhecidas, como atribuir clientes em diferentes segmentos com base em seus dados demográficos e comportamentos de compra anteriores.
esses tipos de padrões foram extraídos manualmente de dados por humanos por séculos, mas o aumento do volume de dados nos tempos modernos criou a necessidade de abordagens mais automáticas. À medida que os conjuntos de dados crescem em tamanho e complexidade, a análise manual direta de dados tem sido cada vez mais aumentada com ferramentas indiretas e automáticas de processamento de dados que usam metodologias, métodos e algoritmos sofisticados. A manifestação de tal evolução de meios automatizados e semi-automatizados de processamento de grandes conjuntos de dados agora é comumente referida como mineração de dados.
como mencionado anteriormente, de um modo geral, as tarefas e padrões de mineração de dados podem ser classificados em três categorias principais: previsão, associação e agrupamento. Com base na maneira como os padrões são extraídos dos dados históricos, os algoritmos de aprendizagem dos métodos de mineração de dados podem ser classificados como supervisionados ou não supervisionados. Com algoritmos de aprendizagem supervisionada, os dados de treinamento incluem os atributos descritivos (ou seja, variáveis independentes ou variáveis de decisão) e o atributo de classe (ou seja, variável de saída ou variável de resultado). Em contraste, com o aprendizado não supervisionado, os dados de treinamento incluem apenas os atributos descritivos. A figura 2.3 mostra uma taxonomia simples para tarefas de mineração de dados, juntamente com os métodos de aprendizagem e algoritmos populares para cada uma das tarefas de mineração de dados. Das três categorias principais de tarefas, os padrões/modelos de previsão podem ser classificados como o resultado de um procedimento de aprendizagem supervisionado, enquanto os padrões/modelos de associação e agrupamento podem ser classificados como o resultado de procedimentos de aprendizagem não supervisionados.
predição é comumente usada para indicar contar sobre o futuro. Difere da simples adivinhação, levando em consideração as experiências, opiniões e outras informações relevantes na condução da tarefa de predição. Um termo comumente associado à previsão é a previsão. Mesmo que muitas pessoas usem esses dois termos como sinônimos, há uma diferença sutil entre eles. Considerando que a previsão é amplamente baseada em experiência e opinião, a previsão é baseada em dados e modelos. Ou seja, na ordem de aumentar a confiabilidade, pode-se listar os termos relevantes como adivinhação, Previsão e previsão. Na terminologia de mineração de dados, Previsão e previsão são usadas como sinônimos, e o termo previsão é usado como a representação comum do ato. Dependendo da natureza do que está sendo previsto, a previsão pode ser nomeada mais especificamente como classificação (onde a coisa prevista, como a previsão de amanhã, é um rótulo de classe como “chuvoso” ou “ensolarado”) ou regressão (onde a coisa prevista, como a temperatura de amanhã, é um número real, como “65 graus”).A classificação, ou indução supervisionada, é talvez a mais comum de todas as tarefas de mineração de dados. O objetivo da classificação é analisar os dados históricos armazenados em um banco de dados e gerar automaticamente um modelo que possa prever o comportamento futuro. Este modelo induzido consiste em generalizações sobre os registros de um conjunto de dados de treinamento, que ajudam a distinguir classes predefinidas. A esperança é que o modelo possa então ser usado para prever as classes de outros registros não classificados e, mais importante, para prever com precisão eventos futuros reais.As ferramentas comuns de classificação incluem redes neurais e árvores de decisão (do aprendizado de máquina), regressão logística e análise discriminante (das estatísticas tradicionais) e ferramentas emergentes, como conjuntos aproximados, máquinas vetoriais de suporte e algoritmos genéticos. As técnicas de classificação baseadas em estatísticas (por exemplo, regressão logística, análise discriminante) têm sido criticadas por fazer suposições irrealistas sobre os dados, como independência e normalidade, que limitam seu uso em projetos de mineração de dados do tipo classificação.As redes neurais envolvem o desenvolvimento de estruturas matemáticas (um pouco semelhantes às redes neurais biológicas no cérebro humano) que têm a capacidade de aprender com experiências passadas, apresentadas na forma de conjuntos de dados bem estruturados. Eles tendem a ser mais eficazes quando o número de variáveis envolvidas é bastante grande e as relações entre eles são complexas e imprecisas. As redes neurais têm desvantagens e vantagens. Por exemplo, geralmente é muito difícil fornecer uma boa justificativa para as previsões feitas por uma rede neural. Além disso, as redes neurais tendem a precisar de treinamento considerável. Infelizmente, o tempo necessário para o treinamento tende a aumentar exponencialmente à medida que o volume de dados aumenta e, em geral, as redes neurais não podem ser treinadas em bancos de dados muito grandes. Esses e outros fatores limitaram a aplicabilidade das redes neurais em domínios ricos em dados. (Veja o Capítulo 5, “algoritmos para análise preditiva”, para uma cobertura mais detalhada das redes neurais.)
as árvores de decisão classificam os dados em um número finito de classes, com base nos valores das variáveis de entrada. As árvores de decisão são essencialmente uma hierarquia de declarações if–then e, portanto, são significativamente mais rápidas do que as redes neurais. Eles são mais apropriados para dados categóricos e de intervalo. Portanto, incorporar variáveis contínuas em uma estrutura de árvore de decisão requer discretização—ou seja, a conversão de variáveis numéricas de valor contínuo em intervalos e categorias.
uma categoria relacionada de ferramentas de classificação é a indução de regras. Ao contrário de uma árvore de decisão, com indução de regra, as declarações if–then são induzidas diretamente dos dados de treinamento e não precisam ser de natureza hierárquica. Outras técnicas mais recentes, como SVM, rough sets e algoritmos genéticos, estão gradualmente encontrando seu caminho no arsenal de algoritmos de classificação e são abordadas com mais detalhes no Capítulo 5 como parte da discussão sobre algoritmos de mineração de dados.
o uso de associações—comumente chamadas de regras de associação na mineração de dados—é uma técnica popular e bem pesquisada para descobrir relações interessantes entre variáveis em grandes bancos de dados. Graças às tecnologias automatizadas de coleta de dados, como o uso de scanners de código de barras, o uso de regras de associação para descobrir regularidades entre produtos em transações em grande escala registradas por sistemas de ponto de venda em supermercados tornou-se uma tarefa de descoberta de conhecimento comum no setor de varejo. No contexto da indústria de varejo, a mineração de regras de associação é freqüentemente chamada de análise de cesta de mercado.
dois derivados comumente usados da mineração de regras de associação São análise de link e Mineração de sequência. Com a análise de links, os links entre muitos objetos de interesse são descobertos automaticamente, como o link entre páginas da web e relações referenciais entre grupos de autores de publicações acadêmicas. Com a mineração de sequência, os relacionamentos são examinados em termos de sua ordem de ocorrência para identificar associações ao longo do tempo. Os algoritmos usados na mineração de regras de associação incluem os populares Apriori (onde conjuntos de itens frequentes são identificados), FP-Growth, OneR, ZeroR e Eclat algoritmos. O Capítulo 4,” Dados e métodos para análise preditiva”, fornece uma explicação do Apriori.
Clustering envolve particionar uma coleção de coisas (por exemplo, objetos, eventos, etc., apresentado em um conjunto de dados estruturados) em segmentos (ou agrupamentos naturais) cujos membros compartilham características semelhantes. Ao contrário da classificação, no agrupamento, os rótulos das classes são desconhecidos. À medida que o algoritmo selecionado passa pelo conjunto de dados, identificando as semelhanças das coisas com base em suas características, os clusters são estabelecidos. Porque os clusters são determinados usando uma heurística do tipo de algoritmo, e como diferentes algoritmos podem acabar com diferentes conjuntos de clusters para o mesmo conjunto de dados, antes que os resultados das técnicas de agrupamento são colocados em uso, pode ser necessário um especialista para interpretar e, potencialmente, modificar a sugestão de clusters. Após a identificação de clusters razoáveis, eles podem ser usados para classificar e interpretar novos dados.
não surpreendentemente, as técnicas de agrupamento incluem otimização. O objetivo do agrupamento é criar grupos para que os membros dentro de cada grupo tenham a máxima semelhança e os membros entre os grupos tenham a mínima semelhança. As técnicas de agrupamento mais comumente usadas incluem K-means (de estatísticas) e mapas auto-organizados (de aprendizado de máquina), que é uma arquitetura de rede neural única desenvolvida por Kohonen (1982).
as empresas costumam usar efetivamente seus sistemas de mineração de dados para realizar segmentação de mercado com análise de cluster. A análise de Cluster é um meio de identificar classes de itens para que os itens em um cluster tenham mais em comum entre si do que com itens em outros clusters. Esse tipo de análise pode ser usado para segmentar clientes e direcionar produtos de marketing apropriados para os segmentos no momento certo, no formato certo, ao preço certo. A análise de Cluster também é usada para identificar agrupamentos naturais de eventos ou objetos para que um conjunto comum de características desses grupos possa ser identificado para descrevê-los.
duas técnicas frequentemente associadas à mineração de dados são a visualização e a previsão de séries temporais. A visualização pode ser usada em conjunto com outras técnicas de mineração de dados para obter uma compreensão mais clara das relações subjacentes. Como a importância da visualização aumentou nos últimos anos, o termo visual analytics surgiu. A ideia é combinar análise e visualização em um único ambiente para uma criação de conhecimento mais fácil e rápida. A análise Visual é abordada em detalhes no Capítulo 4. Na previsão de séries temporais, os dados consistem em valores da mesma variável que são capturados e armazenados ao longo do tempo, em intervalos regulares. Esses dados são então usados para desenvolver modelos de Previsão para extrapolar os valores futuros da mesma variável.