Página 1 dos resultados de 8897 itens digitais encontrados em 0.041 segundos

A complex networks approach for data clustering

Arruda, Guilherme F. de; Costa, Luciano da Fontoura; Rodrigues, Francisco A.
Fonte: ELSEVIER SCIENCE BV; AMSTERDAM Publicador: ELSEVIER SCIENCE BV; AMSTERDAM
Tipo: Artigo de Revista Científica
ENG
Relevância na Pesquisa
56.04%
This work proposes a method for data clustering based on complex networks theory. A data set is represented as a network by considering different metrics to establish the connection between each pair of objects. The clusters are obtained by taking into account five community detection algorithms. The network-based clustering approach is applied in two real-world databases and two sets of artificially generated data. The obtained results suggest that the exponential of the Minkowski distance is the most suitable metric to quantify the similarities between pairs of objects. In addition, the community identification method based on the greedy optimization provides the best cluster solution. We compare the network-based clustering approach with some traditional clustering algorithms and verify that it provides the lowest classification error rate. (C) 2012 Elsevier B.V. All rights reserved.; CNPq; CNPq [305940/2010-4, 301303/06-1, 573583/2008-0]; FAPESP [2010/19440-2, 05/00587-5]; FAPESP

Desenvolvimento de modelos dinâmicos para a formação de clusters aplicados em dados biológicos; Developing dynamical systems for data clustering applied to biological data

Damiance Junior, Antonio Paulo Galdeano
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 16/10/2006 PT
Relevância na Pesquisa
66.12%
Com o advento da tecnologia de microarray, uma grande quantidade de dados de expressão gênica encontra-se disponível. Após a extração das taxas de expressão dos genes, técnicas de formação de clusters são utilizadas para a análise dos dados. Diante da diversidade do conhecimento que pode ser extraído dos dados de expressão gênica, existe a necessidade de diferentes técnicas de formação de clusters. O modelo dinâmico desenvolvido em (Zhao et. al. 2003a) apresenta diversas características interessantes para o problema de formação de clusters, entre as quais podemos citar: a não necessidade de fornecer o número de cluster, a propriedade de multi-escala, serem altamente paralelos e, principalmente, permitirem a inserção de regras e mecanismos mais complexos para a formação dos clusters. Todavia, este modelo apresenta dificuldades em determinar clusters de formato e tamanho arbitrários, além de não realizar a clusterização hierárquica, sendo estas duas características desejáveis para uma técnica de clusterização. Neste trabalho, foram desenvolvidas três técnicas para superar as limitações do modelo dinâmico proposto em (Zhao et. al. 2003a). O Modelo1, o qual é uma simplificação do modelo dinâmico original...

Clusterização de dados utilizando técnicas de redes complexas e computação bioinspirada; Data clustering based on complex network community detection

Oliveira, Tatyana Bitencourt Soares de
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 25/02/2008 PT
Relevância na Pesquisa
66.11%
A Clusterização de dados em grupos oferece uma maneira de entender e extrair informações relevantes de grandes conjuntos de dados. A abordagem em relação a aspectos como a representação dos dados e medida de similaridade entre clusters, e a necessidade de ajuste de parâmetros iniciais são as principais diferenças entre os algoritmos de clusterização, influenciando na qualidade da divisão dos clusters. O uso cada vez mais comum de grandes conjuntos de dados aliado à possibilidade de melhoria das técnicas já existentes tornam a clusterização de dados uma área de pesquisa que permite inovações em diferentes campos. Nesse trabalho é feita uma revisão dos métodos de clusterização já existentes, e é descrito um novo método de clusterização de dados baseado na identificação de comunidades em redes complexas e modelos computacionais inspirados biologicamente. A técnica de clusterização proposta é composta por duas etapas: formação da rede usando os dados de entrada; e particionamento dessa rede para obtenção dos clusters. Nessa última etapa, a técnica de otimização por nuvens de partículas é utilizada a fim de identificar os clusters na rede, resultando em um algoritmo de clusterização hierárquico divisivo. Resultados experimentais revelaram como características do método proposto a capacidade de detecção de clusters de formas arbitrárias e a representação de clusters com diferentes níveis de refinamento.; DAta clustering is an important technique to understand and to extract relevant information in large datasets. Data representation and similarity measure adopted...

Análise de agrupamentos baseada na topologia dos dados e em mapas auto-organizáveis.; Data clustering based on data topology and self organizing-maps.

Boscarioli, Clodis
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 16/05/2008 PT
Relevância na Pesquisa
66.11%
Cada vez mais, na conjuntura das grandes tomadas de decisões, a análise de dados massivamente armazenados se torna uma necessidade das mais variadas áreas de conhecimento. A análise de dados envolve a realização de diferentes tarefas, que podem ser realizadas por diferentes técnicas e estratégias como análise de agrupamento de dados. Esta pesquisa enfatiza a realização da tarefa de análise de agrupamento de dados (Data Clustering) usando SOM (Self-Organizing Maps) como principal artefato. SOM é uma rede neural artificial baseada em aprendizado competitivo e não-supervisionado, o que significa que o treinamento é inteiramente guiado pelos dados e que os neurônios do mapa competem entre si. Essa rede neural possui a habilidade de formar mapeamentos que quantizam os dados, preservando a sua topologia. Este trabalho introduz uma nova metodologia de análise de agrupamentos a partir de SOM, que considera o mapa topológico gerado por ele e a topologia dos dados no processo de agrupamento. Uma análise experimental e comparativa é apresentada, evidenciando a potencialidade da proposta, destacando, por fim, as principais contribuições do trabalho.; More than ever, in environment of large decision making, the analysis of data stored massively becomes a real need in almost all knowledge areas. The data analyzing process covers the performing of different tasks that can be executed for different techniques and strategies as the data clustering analysis. This research is focused on the analysis task of data groups...

Abordagens evolutivas para agrupamento relacional de dados; Evolutionary approaches to relational data clustering

Horta, Danilo
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 22/02/2010 PT
Relevância na Pesquisa
66.07%
O agrupamento de dados é uma técnica fundamental em aplicações de diversos campos do mercado e da ciência, como, por exemplo, no comércio, na biologia, na psiquiatria, na astronomia e na mineração da Web. Ocorre que em um subconjunto desses campos, como engenharia industrial, ciências sociais, engenharia sísmica e recuperação de documentos, as bases de dados são usualmente descritas apenas pelas proximidades entre os objetos (denominadas bases de dados relacionais). Mesmo em aplicações nas quais os dados não são naturalmente relacionais, o uso de bases relacionais permite que os dados em si sejam mantidos sob sigilo, o que pode ser de grande valia para bancos ou corretoras, por exemplo. Nesta dissertação é apresentada uma revisão de algoritmos de agrupamento de dados que lidam com bases de dados relacionais, com foco em algoritmos que produzem partições rígidas (hard ou crisp) dos dados. Particular ênfase é dada aos algoritmos evolutivos, que têm se mostrado capazes de resolver problemas de agrupamento de dados com relativa acurácia e de forma computacionalmente eficiente. Nesse contexto, propõe-se nesta dissertação um novo algoritmo evolutivo de agrupamento capaz de operar sobre dados relacionais e também capaz de estimar automaticamente o número de grupos nos dados (usualmente desconhecido em aplicações práticas). É demonstrado empiricamente que esse novo algoritmo pode superar métodos tradicionais da literatura em termos de eficiência computacional e acurácia; Data clustering is a fundamental technique for applications in several fields of science and marketing...

Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados; Adapting the inductive bias of data-stream clustering algorithms

Albertini, Marcelo Keese
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 11/04/2012 PT
Relevância na Pesquisa
56.11%
Diversas áreas de pesquisa são dedicadas à compreensão de fenômenos que exigem a coleta ininterrupta de sequências de amostras, denominadas fluxos de dados. Esses fenômenos frequentemente apresentam comportamento variável e são estudados por meio de indução não supervisionada baseada em agrupamento de dados. Atualmente, o processo de agrupamento tem exibido sérias limitações em sua aplicação a fluxos de dados, devido às exigências impostas pelas variações comportamentais e pelo modo de coleta de dados. Embora tem-se desenvolvido algoritmos eficientes para agrupar fluxos de dados, há a necessidade de estudos sobre a influência de variações comportamentais nos parâmetros de algoritmos (e.g., taxas de aprendizado e limiares de proximidade), as quais interferem diretamente na compreensão de fenômenos. Essa lacuna motivou esta tese, cujo objetivo foi a proposta de uma abordagem para a adaptação do viés indutivo de algoritmos de agrupamento de fluxos de dados de acordo com variações comportamentais dos fenômenos em estudo. Para cumprir esse objetivo projetou-se: i) uma abordagem baseada em uma nova arquitetura de rede neural artificial que permite avaliação de comportamento de fenômenos por meio da estimação de cadeias de Markov e entropia de Shannon; ii) uma abordagem para adaptar parâmetros de algoritmos de agrupamento tradicional de acordo com variações comportamentais em blocos sequenciais de dados; e iii) uma abordagem para adaptar parâmetros de agrupamento de acordo com a contínua avaliação da estabilidade de dados. Adicionalmente...

Agrupamento de dados baseado em comportamento coletivo e auto-organização; Data clustering based on collective behavior and self-organization

Gueleri, Roberto Alves
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 18/06/2013 PT
Relevância na Pesquisa
56.1%
O aprendizado de máquina consiste de conceitos e técnicas que permitem aos computadores melhorar seu desempenho com a experiência, ou, em outras palavras, aprender com dados. Um dos principais tópicos do aprendizado de máquina é o agrupamento de dados que, como o nome sugere, procura agrupar os dados de acordo com sua similaridade. Apesar de sua definição relativamente simples, o agrupamento é uma tarefa computacionalmente complexa, tornando proibitivo o emprego de algoritmos exaustivos, na busca pela solução ótima do problema. A importância do agrupamento de dados, aliada aos seus desafios, faz desse campo um ambiente de intensa pesquisa. Também a classe de fenômenos naturais conhecida como comportamento coletivo tem despertado muito interesse. Isso decorre da observação de um estado organizado e global que surge espontaneamente das interações locais presentes em grandes grupos de indivíduos, caracterizando, pois, o que se chama auto-organização ou emergência, para ser mais preciso. Os desafios intrínsecos e a relevância do tema vêm motivando sua pesquisa em diversos ramos da ciência e da engenharia. Ao mesmo tempo, técnicas baseadas em comportamento coletivo vêm sendo empregadas em tarefas de aprendizado de máquina...

Definição automática da quantidade de atributos selecionados em tarefas de agrupamento de dados; Automatic feature quantification in data clustering tasks

Andrade Filho, José Augusto
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 17/09/2013 PT
Relevância na Pesquisa
56%
Conjuntos de dados reais muitas vezes apresentam um grande número de atributos preditivos ou de entrada, o que leva a uma grande quantidade de informação. Entretanto, essa quantidade de informação nem sempre significa uma melhoria em termos de desempenho de técnicas de agrupamento. Além disso, alguns atributos podem estar correlacionados ou adicionar ruído, reduzindo a qualidade do agrupamento de dados. Esse problema motivou o desenvolvimento de técnicas de seleção de atributos, que tentam encontrar um subconjunto com os atributos mais relevantes para agrupar os dados. Neste trabalho, o foco está no problema de seleção de atributos não supervisionados. Esse é um problema difícil, pois não existe informação sobre rótulos das classes. Portanto, não existe um guia para medir a qualidade do subconjunto de atributos. O principal objetivo deste trabalho é definir um método para identificar quanto atributos devem ser selecionados (após ordená-los com base em algum critério). Essa tarefa é realizada por meio da técnica de Falsos Vizinhos Mais Próximos, que tem sua origem na teoria do caos. Resultados experimentais mostram que essa técnica informa um bom número aproximado de atributos a serem selecionados. Quando comparado a outras técnicas...

Algoritmos e técnicas de validação em agrupamento de dados multi-representados, agrupamento possibilístico e bi-agrupamento; Algorithms and validation techniques in multi-represented data clustering, possibilistic clustering and bi-clustering

Horta, Danilo
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 25/11/2013 PT
Relevância na Pesquisa
56.17%
Existem bases para as quais os dados são naturalmente representados por mais de uma visão. Por exemplo, imagens podem ser descritas por atributos de cores, textura e forma. Proteínas podem ser caracterizadas pela sequência de aminoácidos e pela representação tridimensional. A unificação das diferentes visões de uma base de dados pode ser problemática porque elas podem não ser comparáveis entre si ou podem apresentar diferentes graus de importância. Esses graus de importância podem, inclusive, se manifestar de maneira local, de acordo com a subestrutura dos dados em questão. Isso motivou o surgimento de algoritmos de agrupamento de dados capazes de lidar com bases multi-representadas (i.e., que possuem mais de uma visão dos dados), como o algoritmo SCAD. Esse algoritmo se mostrou promissor em experimentos relatados na literatura, mas possui problemas críticos identificados neste trabalho que o impedem de funcionar em determinados cenários. Tais problemas foram solucionados por meio da proposição de uma nova versão do algoritmo, denominada ASCAD, fundamentada em provas formais sobre a sua convergência. Foram desenvolvidas versões relacionais do algoritmo ASCAD, capazes de lidar com bases descritas apenas por relações de proximidade entre os objetos. Foi desenvolvido também um índice de validação interna e relativa de agrupamento voltado para dados multi-representados. A avaliação de agrupamento possibilístico e de bi-agrupamento por meio da comparação entre solução encontrada e solução de referência (validação externa) também foi explorada. Algoritmos de bi-agrupamento têm ganhado um interesse crescente da comunidade de análise de expressão gênica. No entanto...

Um framework para agrupamento de dados; A framework for data clustering

Ribacki, Guilherme Haag
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Trabalho de Conclusão de Curso Formato: application/pdf
POR
Relevância na Pesquisa
66.1%
Com a evolução tecnológica, cada vez mais se tem acesso a grandes volumes de dados através da Internet. Para que se possa usufruir desses dados, algumas técnicas são aplicadas para extrair informações relevantes em uma determinada busca, sendo uma dessas técnicas o agrupamento de dados. O agrupamento de dados (data clustering) é utilizado para criar partições de objetos semelhantes entre si, independente dos tipos desses objetos, para facilitar a recuperação de informação. Este trabalho propõe uma arquitetura de framework que, através do uso de padrões de projeto (design patterns) e outras práticas da Engenharia de Software, permite que se implementem diferentes técnicas de agrupamento para tipos de dados variados de forma a maximizar o reuso de código. Uma instância desse framework é proposta para o agrupamento de textos de forma a demonstrar o uso do framework e comparar a eficácia de alguns algoritmos. Uma comparação é feita entre os algoritmos implementados com o framework e alguns resultados usando a ferramenta Eurekha. Os agrupamentos resultantes são avaliados através de métricas como Medida-F (F-Measure) e Silhueta (Silhouette). Duas coleções de documentos são usadas nos testes – uma pequena (12 documentos) e uma grande (722 documentos). Os algoritmos Cliques...

Electrical consumers data clustering through optimum-path forest

Ramos, Caio C. O.; Souza, André N.; Nakamura, Rodrigo Y. M.; Papa, João P.
Fonte: Universidade Estadual Paulista Publicador: Universidade Estadual Paulista
Tipo: Conferência ou Objeto de Conferência
ENG
Relevância na Pesquisa
56.06%
Non-technical losses identification has been paramount in the last decade. Since we have datasets with hundreds of legal and illegal profiles, one may have a method to group data into subprofiles in order to minimize the search for consumers that cause great frauds. In this context, a electric power company may be interested in to go deeper a specific profile of illegal consumer. In this paper, we introduce the Optimum-Path Forest (OPF) clustering technique to this task, and we evaluate the behavior of a dataset provided by a brazilian electric power company with different values of an OPF parameter. © 2011 IEEE.

Using data clustering as a method of estimating the risk of establishment of bacterial crop diseases

Watts, Michael John
Fonte: IAEES Publicador: IAEES
Tipo: Artigo de Revista Científica
Publicado em //2011
Relevância na Pesquisa
66.04%
Previous work has investigated the use of data clustering of regional species assemblages to estimate the relative risk of establishment of insect crop pest species. This paper describes the use of these techniques to estimate the risk posed by bacterial crop plant diseases. Two widely-used clustering algorithms, the Kohonen Self-Organising Map and the k-means clustering algorithm, were investigated. It describes how a wider variety of SOM architectures than previously used were investigated, and how both of these algorithms reacted to the addition of small amounts of random ‘noise’ to the species assemblages. The results indicate that the k-means clustering algorithm is much more computationally efficient, produces better clusters as determined by an objective measure of cluster quality and is more resistant to noise in the data than equivalent Kohonen SOM. Therefore k-means is considered to be the better algorithm for this problem.; Michael J. Watts

A Short Survey on Data Clustering Algorithms

Wong, Ka-Chun
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 25/11/2015
Relevância na Pesquisa
56.08%
With rapidly increasing data, clustering algorithms are important tools for data analytics in modern research. They have been successfully applied to a wide range of domains; for instance, bioinformatics, speech recognition, and financial analysis. Formally speaking, given a set of data instances, a clustering algorithm is expected to divide the set of data instances into the subsets which maximize the intra-subset similarity and inter-subset dissimilarity, where a similarity measure is defined beforehand. In this work, the state-of-the-arts clustering algorithms are reviewed from design concept to methodology; Different clustering paradigms are discussed. Advanced clustering algorithms are also discussed. After that, the existing clustering evaluation metrics are reviewed. A summary with future insights is provided at the end.

Macrostate Data Clustering

Korenblum, Daniel; Shalloway, David
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 18/06/2003
Relevância na Pesquisa
56.02%
We develop an effective nonhierarchical data clustering method using an analogy to the dynamic coarse graining of a stochastic system. Analyzing the eigensystem of an interitem transition matrix identifies fuzzy clusters corresponding to the metastable macroscopic states (macrostates) of a diffusive system. A "minimum uncertainty criterion" determines the linear transformation from eigenvectors to cluster-defining window functions. Eigenspectrum gap and cluster certainty conditions identify the proper number of clusters. The physically motivated fuzzy representation and associated uncertainty analysis distinguishes macrostate clustering from spectral partitioning methods. Macrostate data clustering solves a variety of test cases that challenge other methods.; Comment: keywords: cluster analysis, clustering, pattern recognition, spectral graph theory, dynamic eigenvectors, machine learning, macrostates, classification

On morphological hierarchical representations for image processing and spatial data clustering

Soille, Pierre; Najman, Laurent
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 18/09/2012
Relevância na Pesquisa
55.98%
Hierarchical data representations in the context of classi cation and data clustering were put forward during the fties. Recently, hierarchical image representations have gained renewed interest for segmentation purposes. In this paper, we briefly survey fundamental results on hierarchical clustering and then detail recent paradigms developed for the hierarchical representation of images in the framework of mathematical morphology: constrained connectivity and ultrametric watersheds. Constrained connectivity can be viewed as a way to constrain an initial hierarchy in such a way that a set of desired constraints are satis ed. The framework of ultrametric watersheds provides a generic scheme for computing any hierarchical connected clustering, in particular when such a hierarchy is constrained. The suitability of this framework for solving practical problems is illustrated with applications in remote sensing.

Graph-based data clustering: a quadratic-vertex problem kernel for s-Plex Cluster Vertex Deletion

van Bevern, René
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 15/09/2009
Relevância na Pesquisa
55.85%
We introduce the s-Plex Cluster Vertex Deletion problem. Like the Cluster Vertex Deletion problem, it is NP-hard and motivated by graph-based data clustering. While the task in Cluster Vertex Deletion is to delete vertices from a graph so that its connected components become cliques, the task in s-Plex Cluster Vertex Deletion is to delete vertices from a graph so that its connected components become s-plexes. An s-plex is a graph in which every vertex is nonadjacent to at most s-1 other vertices; a clique is an 1-plex. In contrast to Cluster Vertex Deletion, s-Plex Cluster Vertex Deletion allows to balance the number of vertex deletions against the sizes and the density of the resulting clusters, which are s-plexes instead of cliques. The focus of this work is the development of provably efficient and effective data reduction rules for s-Plex Cluster Vertex Deletion. In terms of fixed-parameter algorithmics, these yield a so-called problem kernel. A similar problem, s-Plex Editing, where the task is the insertion or the deletion of edges so that the connected components of a graph become s-plexes, has also been studied in terms of fixed-parameter algorithmics. Using the number of allowed graph modifications as parameter, we expect typical parameter values for s-Plex Cluster Vertex Deletion to be significantly lower than for s-Plex Editing...

A Complex Networks Approach for Data Clustering

Rodrigues, Francisco A.; de Arruda, Guilherme Ferraz; Costa, Luciano da Fontoura
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 26/01/2011
Relevância na Pesquisa
56%
Many methods have been developed for data clustering, such as k-means, expectation maximization and algorithms based on graph theory. In this latter case, graphs are generally constructed by taking into account the Euclidian distance as a similarity measure, and partitioned using spectral methods. However, these methods are not accurate when the clusters are not well separated. In addition, it is not possible to automatically determine the number of clusters. These limitations can be overcome by taking into account network community identification algorithms. In this work, we propose a methodology for data clustering based on complex networks theory. We compare different metrics for quantifying the similarity between objects and take into account three community finding techniques. This approach is applied to two real-world databases and to two sets of artificially generated data. By comparing our method with traditional clustering approaches, we verify that the proximity measures given by the Chebyshev and Manhattan distances are the most suitable metrics to quantify the similarity between objects. In addition, the community identification method based on the greedy optimization provides the smallest misclassification rates.; Comment: 9 pages...

Non-negative matrix factorization for semi-supervised data clustering

Chen, Yanhua; Rege, Manjeet; Dong, Ming; Hua, Jing
Fonte: Springer Publicador: Springer
Tipo: Artigo de Revista Científica
EN_US
Relevância na Pesquisa
56.09%
Traditional clustering algorithms are inapplicable to many real-world problems where limited knowledge from domain experts is available. Incorporating the do- main knowledge can guide a clustering algorithm, consequently improving the quality of clustering. In this paper, we propose SS-NMF: a Semi-Supervised Non-negative Ma- trix Factorization framework for data clustering. In SS-NMF, users are able to provide supervision for clustering in terms of pairwise constraints on a few data objects spec- ifying whether they \must" or \cannot" be clustered together. Through an iterative algorithm, we perform symmetric tri-factorization of the data similarity matrix to in- fer the clusters. Theoretically, we show the correctness and convergence of SS-NMF. Moveover, we show that SS-NMF provides a general framework for semi-supervised clustering. Existing approaches can be considered as special cases of it. Through extensive experiments conducted on publicly available datasets, we demonstrate the superior performance of SS-NMF for clustering.; The original publication is available at www.springerlink.com.

Scalable data clustering using GPUs

Pangborn, Andrew D.
Fonte: Rochester Instituto de Tecnologia Publicador: Rochester Instituto de Tecnologia
Tipo: Tese de Doutorado
EN_US
Relevância na Pesquisa
56.01%
The computational demands of multivariate clustering grow rapidly, and therefore processing large data sets, like those found in flow cytometry data, is very time consuming on a single CPU. Fortunately these techniques lend themselves naturally to large scale parallel processing. To address the computational demands, graphics processing units, specifically NVIDIA's CUDA framework and Tesla architecture, were investigated as a low-cost, high performance solution to a number of clustering algorithms. C-means and Expectation Maximization with Gaussian mixture models were implemented using the CUDA framework. The algorithm implementations use a hybrid of CUDA, OpenMP, and MPI to scale to many GPUs on multiple nodes in a high performance computing environment. This framework is envisioned as part of a larger cloud-based workflow service where biologists can apply multiple algorithms and parameter sweeps to their data sets and quickly receive a thorough set of results that can be further analyzed by experts. Improvements over previous GPU-accelerated implementations range from 1.42x to 21x for C-means and 3.72x to 5.65x for the Gaussian mixture model on non-trivial data sets. Using a single NVIDIA GTX 260 speedups are on average 90x for C-means and 74x for Gaussians with flow cytometry files compared to optimized C code running on a single core of a modern Intel CPU. Using the TeraGrid Lincoln high performance cluster at NCSA C-means achieves 42% parallel efficiency and a CPU speedup of 4794x with 128 Tesla C1060 GPUs. The Gaussian mixture model achieves 72% parallel efficiency and a CPU speedup of 6286x.

Application of Bio-inspired Metaheuristics in the Data Clustering Problem

Colanzi,Thelma Elita; Guez Assunção,Wesley Klewerton; Ramirez Pozo,Aurora Trinidad; B,Ana Cristina; Vendramin,Kochem; Barros Pereira,Diogo Augusto; Zorzo,Carlos Alberto; de Paula Filho,Pedro Luiz
Fonte: CLEI Electronic Journal Publicador: CLEI Electronic Journal
Tipo: Artigo de Revista Científica Formato: text/html
Publicado em 01/12/2011 EN
Relevância na Pesquisa
55.96%
Abstract Clustering analysis includes a number of different algorithms and methods for grouping objects by their similar characteristics into categories. In recent years, considerable effort has been made to improve such algorithms performance. In this sense, this paper explores three different bio-inspired metaheuristics in the clustering problem: Genetic Algorithms (GAs), Ant Colony Optimization (ACO), and Artificial Immune Systems (AIS). This paper proposes some refinements to be applied to these metaheuristics in order to improve their performance in the data clustering problem. The performance of the proposed algorithms is compared on five different numeric UCI databases. The results show that GA, ACO and AIS based algorithms are able to efficiently and automatically forming natural groups from a pre-defined number of clusters.