Mineração de Dados – Análise de Cluster
Cluster é um grupo de objetos que pertence à mesma classe. Em outras palavras, objetos similares são agrupados em um conjunto e objetos diferentes são agrupados em outro conjunto.
o que é o agrupamento?
Clustering é o processo de fazer um grupo de objetos abstratos em classes de objetos semelhantes.
aponta para recordar
-
um conjunto de objectos de dados pode ser tratado como um grupo.
-
ao fazer a análise de cluster, nós primeiro dividimos o conjunto de dados em grupos baseados em similaridade de dados e, em seguida, atribuir as etiquetas para os grupos.
-
a principal vantagem do Agrupamento sobre a classificação é que, ele é adaptável a mudanças e ajuda a destacar características úteis que distinguem diferentes grupos.
aplicações da análise de clusters
-
a análise de Clustering é amplamente utilizada em muitas aplicações, tais como pesquisa de mercado, reconhecimento de padrões, análise de dados e processamento de imagens.
-
Clustering também pode ajudar os comerciantes a descobrir grupos distintos em sua base de clientes. E eles podem caracterizar seus grupos de clientes com base nos padrões de compra.
-
no campo da biologia, ele pode ser usado para derivar taxonomias vegetais e animais, categorizar genes com funcionalidades semelhantes e ganhar conhecimento sobre estruturas inerentes às populações.o agrupamento também ajuda na identificação de áreas de uso semelhante do solo numa base de dados de observação da terra. Ele também ajuda na identificação de grupos de casas em uma cidade de acordo com o tipo de Casa, valor e localização geográfica.
-
Clustering também ajuda na classificação de documentos na web para a descoberta de informações.
-
Clustering is also used in outlier detection applications such as detection of credit card fraud.
-
Como uma função de mineração de dados, a análise de aglomerado serve como uma ferramenta para obter informações sobre a distribuição de dados para observar as características de cada aglomerado.
Requisitos de agrupamento na extracção de dados
os seguintes pontos lançam luz sobre a razão pela qual é necessária a agrupamento na extracção de dados −
-
escalabilidade − precisamos de algoritmos de agrupamento altamente escaláveis para lidar com grandes bases de dados.
-
capacidade para lidar com diferentes tipos de atributos − algoritmos devem ser capazes de ser aplicados em qualquer tipo de dados, tais como dados baseados em intervalos (numéricos), categóricos e binários.
-
Discovery of clusters with attribute shape − The clustering algorithm should be capable of detecting clusters of arbitrary shape. Eles não devem ser limitados a apenas medidas de distância que tendem a encontrar aglomerado esférico de pequenas dimensões.
-
high dimensionality − The clustering algorithm should not only be able to handle low-dimensional data but also the high dimensional space.
-
capacidade de lidar com dados ruidosos − as bases de dados contêm dados ruidosos, inexistentes ou erróneos. Alguns algoritmos são sensíveis a esses dados e podem levar a clusters de má qualidade.interpretação-os resultados de agrupamento devem ser interpretáveis, compreensíveis e utilizáveis.
Cluster de Métodos
Cluster métodos podem ser classificados nas seguintes categorias
- Método de Particionamento
- Hierárquica Método
- com base na Densidade Método
- Grade Baseado no Método
- Modelo Baseado no Método
- Restrição baseada no Método
Método de Particionamento
Suponhamos que temos um banco de dados de ” n ” objetos e o método de particionamento de construções de ‘k’ partição de dados. Cada partição irá representar um conjunto e k ≤ N. Significa que irá classificar os dados em grupos k, que satisfazem os seguintes requisitos –
-
cada grupo contém pelo menos um objecto.
-
cada objecto deve pertencer a exactamente um grupo.
aponta para recordar −
-
para um dado número de partições (digamos k), o método de particionamento irá criar um particionamento inicial.
-
então ele usa a técnica de realocação iterativa para melhorar o particionamento, movendo objetos de um grupo para outro.
métodos hierárquicos
este método cria uma decomposição hierárquica do conjunto dado de objectos de dados. Podemos classificar os métodos hierárquicos com base na forma como se forma a decomposição hierárquica. Existem duas abordagens aqui −
- Agglomerative Abordagem
- Abordagem Divisiva
Agglomerative Abordagem
Esta abordagem também é conhecida como a abordagem bottom-up. Neste, começamos com cada objeto formando um grupo separado. Ele continua a fundir os objetos ou grupos que estão próximos um do outro. Ele continua fazendo isso até que todos os grupos sejam fundidos em um ou até que a condição de terminação se mantenha.
abordagem divisiva
esta abordagem também é conhecida como a abordagem de cima para baixo. Neste, começamos com todos os objetos no mesmo conjunto. Na iteração contínua, um aglomerado é dividido em aglomerados menores. É até que cada objeto em um aglomerado ou a condição de terminação se mantenha. Este método é rígido, isto é, uma vez que uma fusão ou divisão é feita, ele nunca pode ser desfeito.
Abordagens para Melhorar a Qualidade de Hierárquica de Cluster
Aqui estão as duas abordagens são utilizadas para melhorar a qualidade do hierárquica de clusters −
-
Realizar uma análise cuidadosa do objeto de ligações em cada hierárquica de particionamento.
-
integrar a aglomeração hierárquica usando primeiro um algoritmo aglomerativo hierárquico para agrupar objetos em micro-clusters, e então realizar macro-clustering nos micro-clusters.
método baseado na densidade
este método baseia-se na noção de densidade. A idéia básica é continuar crescendo a determinado cluster, desde que a densidade no bairro exceder um determinado limite, por exemplo, para cada ponto de dados dentro de um determinado cluster, o raio de um determinado cluster tem de conter pelo menos um número mínimo de pontos.
método baseado na grelha
nisto, os objectos juntos formam uma grelha. O espaço objeto é quantizado em número finito de células que formam uma estrutura de grade.vantagens
vantagens
-
a principal vantagem deste método é o tempo de processamento rápido.
-
é dependente apenas do número de células em cada dimensão no espaço quantizado.
Model-based methods
in this method, a model is hypothesized for each cluster to find the best fit of data for a given model. Este método localiza os aglomerados agrupando a função densidade. Reflecte a distribuição espacial dos pontos de dados.
este método também fornece uma maneira de determinar automaticamente o número de clusters com base em estatísticas padrão, levando em conta o outlier ou o ruído. Por conseguinte, produz métodos robustos de agrupamento.
método baseado em restrições
neste método, a agregação é realizada pela incorporação de restrições orientadas para o utilizador ou para aplicações. Uma restrição refere-se à expectativa do usuário ou às propriedades dos resultados de agrupamento desejados. As restrições fornecem – nos uma forma interativa de comunicação com o processo de agrupamento. Restrições podem ser especificadas pelo usuário ou pelo requisito da aplicação.