Página 1 dos resultados de 3527 itens digitais encontrados em 0.073 segundos

Técnicas de seleção de características com aplicações em reconhecimento de faces.; Feature selection techniques with applications to face recognition.

Campos, Teófilo Emídio de
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 25/05/2001 PT
Relevância na Pesquisa
115.94%
O reconhecimento de faces é uma área de pesquisa desafiadora que abre portas para a implementação de aplicações muito promissoras. Embora muitos algoritmos eficientes e robustos já tenham sido propostos, ainda restam vários desafios. Dentre os principais obstáculos a serem uperados, está a obtenção de uma representação robusta e compacta de faces que possibilite distinguir os indivíduos rapidamente. Visando abordar esse problema, foi realizado um estudo de técnicas de reconhecimento estatístico de padrões, principalmente na área de redução de dimensionalidade dos dados, além de uma revisão de métodos de reconhecimento de faces. Foi proposto (em colaboração com a pesquisadora Isabelle Bloch) um método de seleção de características que une um algoritmo de busca eficiente (métodos de busca seqüencial flutuante) com uma medida de distância entre conjuntos nebulosos (distância nebulosa baseada em tolerância). Essa medida de distância possui diversas vantagens, sendo possível considerar as diferentes tipicalidades de cada padrão dos conjuntos de modo a permitir a obtenção de bons resultados mesmo com conjuntos com sobreposição. Os resultados preliminares com dados sintéticos mostraram o caráter promissor dessa abordagem. Com o objetivo de verificar a eficiência de tal técnica com dados reais...

"Abordagem genética para seleção de um conjunto reduzido de características para construção de ensembles de redes neurais: aplicação à língua eletrônica" ; A genetic approach to feature subset selection for construction of neural network ensembles: an application to gustative sensors

Ferreira, Ednaldo José
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 10/08/2005 PT
Relevância na Pesquisa
96.03%
As características irrelevantes, presentes em bases de dados de diversos domínios, deterioram a acurácia de predição de classificadores induzidos por algoritmos de aprendizado de máquina. As bases de dados geradas por uma língua eletrônica são exemplos típicos onde a demasiada quantidade de características irrelevantes e redundantes prejudicam a acurácia dos classificadores induzidos. Para lidar com este problema, duas abordagens podem ser utilizadas. A primeira é a utilização de métodos para seleção de subconjuntos de características. A segunda abordagem é por meio de ensemble de classificadores. Um ensemble deve ser constituído por classificadores diversos e acurados. Uma forma efetiva para construção de ensembles de classificadores é por meio de seleção de características. A seleção de características para ensemble tem o objetivo adicional de encontrar subconjuntos de características que promovam acurácia e diversidade de predição nos classificadores do ensemble. Algoritmos genéticos são técnicas promissoras para seleção de características para ensemble. No entanto, a busca genética, assim como outras estratégias de busca, geralmente visam somente a construção do ensemble, permitindo que todas as características (relevantes...

Seleção de características: abordagem via redes neurais aplicada à segmentação de imagens; Feature selection: a neural approach applied to image segmentation

Santos, Davi Pereira dos
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 21/03/2007 PT
Relevância na Pesquisa
105.9%
A segmentaçãoo de imagens é fundamental para a visão computacional. Com essa finalidade, a textura tem sido uma propriedade bastante explorada por pesquisadores. Porém, a existência de diversos métodos de extração de textura, muitas vezes específicos para determinadas aplicações, dificulta a implementação de sistemas de escopo mais geral. Tendo esse contexto como motivação e inspirado no sucesso dos sistemas de visão naturais e em sua generalidade, este trabalho propõe a combinação de métodos por meio da seleção de características baseada na saliência das sinapses de um perceptron multicamadas (MLP). É proposto, também, um método alternativo baseado na capacidade do MLP de apreender textura que dispensa o uso de técnicas de extração de textura. Como principal contribuição, além da comparação da heurística de seleção proposta frente à busca exaustiva segundo o critério da distância de Jeffrey-Matusita, foi introduzida a técnica de Equalização da Entrada, que melhorou consideravelmente a qualidade da medida de saliência. É também apresentada a segmentação de imagens de cenas naturais, como exemplo de aplicação; Segmentation is a crucial step in Computer Vision. Texture has been a property largely employed by many researchers to achieve segmentation. The existence of a large amount of texture extraction methods is...

Avaliação de métodos ótimos e subótimos de seleção de características de texturas em imagens; Evaluation of optimal and suboptimal feature selection methods applied to image textures

Roncatti, Marco Aurelio
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 10/07/2008 PT
Relevância na Pesquisa
106.04%
Características de texturas atuam como bons descritores de imagens e podem ser empregadas em diversos problemas, como classificação e segmentação. Porém, quando o número de características é muito elevado, o reconhecimento de padrões pode ser prejudicado. A seleção de características contribui para a solução desse problema, podendo ser empregada tanto para redução da dimensionalidade como também para descobrir quais as melhores características de texturas para o tipo de imagem analisada. O objetivo deste trabalho é avaliar métodos ótimos e subótimos de seleção de características em problemas que envolvem texturas de imagens. Os algoritmos de seleção avaliados foram o branch and bound, a busca exaustiva e o sequential oating forward selection (SFFS). As funções critério empregadas na seleção foram a distância de Jeffries-Matusita e a taxa de acerto do classificador de distância mínima (CDM). As características de texturas empregadas nos experimentos foram obtidas com estatísticas de primeira ordem, matrizes de co-ocorrência e filtros de Gabor. Os experimentos realizados foram a classificação de regiôes de uma foto aérea de plantação de eucalipto, a segmentação não-supervisionada de mosaicos de texturas de Brodatz e a segmentação supervisionada de imagens médicas (MRI do cérebro). O branch and bound é um algoritmo ótimo e mais efiiente do que a busca exaustiva na maioria dos casos. Porém...

Seleção de características e predição intrinsecamente multivariada em identificação de redes de regulação gênica; Feature selection and intrinsically multivariate prediction in gene regulatory networks identification

Martins Junior, David Corrêa
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 01/12/2008 PT
Relevância na Pesquisa
105.99%
Seleção de características é um tópico muito importante em aplicações de reconhecimento de padrões, especialmente em bioinformática, cujos problemas são geralmente tratados sobre um conjunto de dados envolvendo muitas variáveis e poucas observações. Este trabalho analisa aspectos de seleção de características no problema de identificação de redes de regulação gênica a partir de sinais de expressão gênica. Particularmente, propusemos um modelo de redes gênicas probabilísticas (PGN) que devolve uma rede construída a partir da aplicação recorrente de algoritmos de seleção de características orientados por uma função critério baseada em entropia condicional. Tal critério embute a estimação do erro por penalização de amostras raramente observadas. Resultados desse modelo aplicado a dados sintéticos e a conjuntos de dados de microarray de Plasmodium falciparum, um agente causador da malária, demonstram a validade dessa técnica, tendo sido capaz não apenas de reproduzir conhecimentos já produzidos anteriormente, como também de produzir novos resultados. Outro aspecto investigado nesta tese é o fenômeno da predição intrinsecamente multivariada (IMP), ou seja, o fato de um conjunto de características ser um ótimo caracterizador dos objetos em questão...

Seleção de características apoiada por mineração visual de dados; Feature selection supported by visual data mining

Botelho, Glenda Michele
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 17/02/2011 PT
Relevância na Pesquisa
106.05%
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características...

Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação; Feature selection by genetic algorithms to improve ranking and classification models

Silva, Sérgio Francisco da
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 25/04/2011 PT
Relevância na Pesquisa
106.04%
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da "maldição da dimensionalidade". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc ("Fitness coach") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5)...

Redes complexas de expressão gênica: síntese, identificação, análise e aplicações; Gene expression complex networks: synthesis, identification, analysis and applications

Lopes, Fabricio Martins
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 21/02/2011 PT
Relevância na Pesquisa
85.98%
Os avanços na pesquisa em biologia molecular e bioquímica permitiram o desenvolvimento de técnicas capazes de extrair informações moleculares de milhares de genes simultaneamente, como DNA Microarrays, SAGE e, mais recentemente RNA-Seq, gerando um volume massivo de dados biológicos. O mapeamento dos níveis de transcrição dos genes em larga escala é motivado pela proposição de que o estado funcional de um organismo é amplamente determinado pela expressão de seus genes. No entanto, o grande desafio enfrentado é o pequeno número de amostras (experimentos) com enorme dimensionalidade (genes). Dessa forma, se faz necessário o desenvolvimento de novas técnicas computacionais e estatísticas que reduzam o erro de estimação intrínseco cometido na presença de um pequeno número de amostras com enorme dimensionalidade. Neste contexto, um foco importante de pesquisa é a modelagem e identificação de redes de regulação gênica (GRNs) a partir desses dados de expressão. O objetivo central nesta pesquisa é inferir como os genes estão regulados, trazendo conhecimento sobre as interações moleculares e atividades metabólicas de um organismo. Tal conhecimento é fundamental para muitas aplicações, tais como o tratamento de doenças...

Uma abordagem baseada em técnicas de visualização de informações para avaliação de características de imagens e aplicações; Approach based on information visualization techniques for evaluation of image features and applications

Cruz, Laura Elizabeth Florian
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 24/09/2012 PT
Relevância na Pesquisa
95.98%
Na maioria dos processos de análise de imagens há a necessidade de um pré-processamento, no qual são extraídos e calculados vetores de características que representem as imagens são utilizados no cálculo de similaridade. Uma dificuldade nessas tarefas é o grande número de características que definem um espaço de alta dimensionalidade, afetando fortemente o desempenho das tarefas que seguem, que podem envolver uma análise visual, um agrupamento ou uma classificação de dados, por exemplo. Lidar com esse problema normalmente exige técnicas de redução de dimensionalidade ou seleção de características. O presente trabalho dá sequência a trabalhos que utilizam técnicas de visualização como suporte para avaliar espaços de características gerados a partir de coleções de imagens. Nele, objetiva-se aprimorar um método baseado na análise visual de conjuntos de imagens empregando a árvore de similaridade Neighbor-Joining que apoia o usuário a selecionar um subespaço de características que mantenha ou melhore os resultados das visualizações do conjunto de imagens. A partir da metodologia proposta, a avaliação e a seleção de características representativas é realizada usando a visualização NJ. A maior parte dos experimentos responde positivamente para diferentes conjuntos de imagens representados por vários extratores...

Minimização de funções decomponíveis em curvas em U definidas sobre cadeias de posets -- algoritmos e aplicações; Minimization of decomposable in U-shaped curves functions defined on poset chains -- algorithms and applications

Reis, Marcelo da Silva
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 28/11/2012 PT
Relevância na Pesquisa
86%
O problema de seleção de características, no contexto de Reconhecimento de Padrões, consiste na escolha de um subconjunto X de um conjunto S de características, de tal forma que X seja "ótimo" dentro de algum critério. Supondo a escolha de uma função custo c apropriada, o problema de seleção de características é reduzido a um problema de busca que utiliza c para avaliar os subconjuntos de S e assim detectar um subconjunto de características ótimo. Todavia, o problema de seleção de características é NP-difícil. Na literatura existem diversos algoritmos e heurísticas propostos para abordar este problema; porém, quase nenhuma dessas técnicas explora o fato que existem funções custo cujos valores são estimados a partir de uma amostra e que descrevem uma "curva em U" nas cadeias do reticulado Booleano (P(S),<=), um fenômeno bem conhecido em Reconhecimento de Padrões: conforme aumenta-se o número de características consideradas, há uma queda no custo do subconjunto avaliado, até o ponto em que a limitação no número de amostras faz com que seguir adicionando características passe a aumentar o custo, devido ao aumento no erro de estimação. Em 2010, Ris e colegas propuseram um novo algoritmo para resolver esse caso particular do problema de seleção de características...

Seleção supervisionada de características por ranking para processar consultas por similaridade em imagens médicas; Supervised feature selection by ranking to process similarity queries in medical images

Mamani, Gabriel Efrain Humpire
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 05/12/2012 PT
Relevância na Pesquisa
95.99%
Obter uma representação sucinta e representativa de imagens médicas é um desafio que tem sido perseguido por pesquisadores da área de processamento de imagens médicas com o propósito de apoiar o diagnóstico auxiliado por computador (Computer Aided Diagnosis - CAD). Os sistemas CAD utilizam algoritmos de extração de características para representar imagens, assim, diferentes extratores podem ser avaliados. No entanto, as imagens médicas contêm estruturas internas que são importantes para a identificação de tecidos, órgãos, malformações ou doenças. É usual que um grande número de características sejam extraídas das imagens, porém esse fato que poderia ser benéfico, pode na realidade prejudicar o processo de indexação e recuperação das imagens com problemas como a maldição da dimensionalidade. Assim, precisa-se selecionar as características mais relevantes para tornar o processo mais eficiente e eficaz. Esse trabalho desenvolveu o método de seleção supervisionada de características FSCoMS (Feature Selection based on Compactness Measure from Scatterplots) para obter o ranking das características, contemplando assim, o que é necessário para o tipo de imagens médicas sob análise. Dessa forma, produziu-se vetores de características mais enxutos e eficientes para responder consultas por similaridade. Adicionalmente...

Seleção de características em SVMs aplicadas a dados de expressão gênica; Feature selection in support vector machines applied to the gene expression data

Souza, Bruno Feres de
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 06/05/2005 PT
Relevância na Pesquisa
95.81%
Recentemente, diversas tecnologias de análise de expressão gênica têm sido introduzidas. Os miroarrays estão entre as mais utilizadas. Dentre suas aplicações mais comuns, pode-se destacar a classificação de amostras de tecido, essencial para a identificação correta do tipo de câncer. Esta classificação é realizada com a ajuda de algoritmos de AMáquina (AM), como as Máquinas de Vetores de Suporte, ou simplesmente SVMs. Uma particularidade dos dados de expressão gênica é que a quantidade de amostras utilizadas pelo algoritmo de aprendizado é, normalmente, muitas vezes inferior à quantidade de características consideradas, o que pode deteriorar o desempenho dos algoritmos de AM e dificultar a compreensão dos dados. Neste contexto, o presente trabalho visa à comparação de diversas técnicas de seleção de características (SC) em SVMs aplicadas a dados microarrays. Além disso, durante a pesquisa, foram desenvolvidas 2 novas técnicas de SC baseadas em algoritmos genéticos. Os experimentos demonstram que a maioria das técnicas testadas é capaz de reduzir sobremaneira a dimensionalidade dos dados de expressão gênica sem prejudicar o desempenho das SVMs.; Recently, a lot of large scale gene expression analysis technologies have been introducted. Microarrays are among the most used ones. Among their most common applications...

Caracterização de perdas comerciais em sistemas de energia através de técnicas inteligentes.; Characterization of commercial losses in power systems through intelligent techniques.

Ramos, Caio César Oba
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 11/09/2014 PT
Relevância na Pesquisa
96%
A detecção de furtos e fraudes nos sistemas de energia provocados por consumidores irregulares é o principal alvo em análises de perdas não-técnicas ou comerciais pelas empresas de energia. Embora a identificação automática de perdas nãotécnicas tenha sido amplamente estudada, a tarefa de selecionar as características mais representativas em um grande conjunto de dados a fim de aumentar a taxa de acerto da identificação, bem como para caracterizar possíveis consumidores irregulares como um problema de otimização, não tem sido muito explorada neste contexto. Neste trabalho, visa-se o desenvolvimento de algoritmos híbridos baseados em técnicas evolutivas a fim de realizar a seleção de características no âmbito da caracterização de perdas não-técnicas, comparando as suas taxas de acerto e verificando as características selecionadas. Vários classificadores são comparados, com destaque para a técnica Floresta de Caminhos Ótimos por sua robustez, sendo ela a técnica escolhida para o cálculo da função objetivo das técnicas evolutivas, analisando o desempenho das mesmas. Os resultados demonstraram que a seleção de características mais representativas podem melhorar a taxa de acerto da classificação de possíveis perdas não-técnicas quando comparada à classificação sem o processo de seleção de características em conjuntos de dados compostos por perfis de consumidores industriais e comerciais. Isto significa que existem características que não são pertinentes e podem diminuir a taxa de acerto durante a classificação dos consumidores. Através da metodologia proposta com o processo de seleção de características...

Seleção de características e aprendizado ativo para classificação de imagens de sensoriamento remoto; Feature selection and active learning for remote sensing image classification

Jorge, Fábio Rodrigues
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 29/04/2015 PT
Relevância na Pesquisa
105.94%
Em aplicações de sensoriamento remoto, há diversos problemas nos quais há conhecimento predominante sobre uma categoria ou classe alvo, e pouco conhecimento sobre as demais categorias. Nesses casos, o treinamento de um classificador é prejudicado pelo desbalanceamento de classes. Assim, o estudo de características visuais para se definir o melhor subespaço de características pode ser uma alternativa viável para melhorar o desempenho dos classificadores. O uso de abordagens baseadas em detecção de anomalias também pode auxiliar por meio da modelagem da classe normal (comumente majoritária) enquanto todas as outras classes são consideradas como anomalias. Este estudo apresentou uma base de imagens de sensoriamento remoto, cuja aplicação é identificar entre regiões de cobertura vegetal e regiões de não cobertura vegetal. Para solucionar o problema de desbalanceamento entre as classes, foram realizados estudos das características visuais a fim de definir qual o conjunto de atributos que melhor representa os dados. Também foi proposta a criação de um pipeline para se tratar bases desbalanceadas de cobertura vegetal. Este pipeline fez uso de técnicas de seleção de características e aprendizado ativo. A análise de características apresentou que o subespaço usando o extrator BIC com o índice de vegetação ExG foi o que melhor distinguiu os dados. Além disso...

Seleção local de características em agrupamento hierárquico de documentos

Nunes Ribeiro, Marcelo; Bastos Cavalcante Prudêncio, Ricardo (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
96.04%
O agrupamento hierárquico de documentos é utilizado para prover interface de navegação em coleções de documentos, ajudando na atividade de recuperação de informação. Como os vetores que representam os documentos possuem uma alta dimensionalidade, a presença de termos irrelevantes confunde o algoritmo de agrupamento. O uso da seleção de características em agrupamento de documentos é capaz de melhorar a precisão e o tempo de execução do agrupamento. Esta dissertação discute vários métodos de seleção de características já aplicados e aborda a forma como a seleção de características interage com o algoritmo de agrupamento, que pode ser classificada de forma global, quando um único subconjunto de características é considerado, ou local, quando cada grupo é descrito por subconjuntos de características distintas. Por conta da diversidade de visões das características proporcionada pela seleção local, o algoritmo de agrupamento é capaz de revelar grupos ocultos nos dados. Nesta dissertação, é aplicado o mesmo princípio de seleção local para o caso de agrupamento hierárquico divisivo de documentos, com a realização de uma nova seleção de características a cada passo de divisão dos grupos. Este método foi batizado de ZOOM-IN. Foram feitos experimentos com as bases de documentos Reuters-21578 e RCV2 e foi comprovado um ganho de precisão no resultado do agrupamento quando a heurística de escolha do número de termos do método ZOOM-IN é capaz de eliminar os termos irrelevantes. Também é desenvolvida uma aplicação dos métodos discutidos para agrupar documentos do resultado de uma consulta ao Google...

Seleção de características para problemas de classificação de documentos

Hugo Wanderley Pinheiro, Roberto; Darmiton da Cunha Cavalcanti, George (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
106.01%
Os sistemas de classificação de documentos servem, de modo geral, para facilitar o acesso do usuário a uma base de documentos. Esses sistemas podem ser utilizados para detectar spams; recomendar notícias de uma revista, artigos científicos ou produtos de uma loja virtual; refinar buscas e direcioná-las por assunto. Uma das maiores dificuldades na classificação de documentos é sua alta dimensionalidade. A abordagem bag of words, utilizada para extrair as características e obter os vetores que representam os documentos, gera dezenas de milhares de características. Vetores dessa dimensão demandam elevado custo computacional, além de possuir informações irrelevantes e redundantes. Técnicas de seleção de características reduzem a dimensionalidade da representação, de modo a acelerar o processamento do sistema e a facilitar a classificação. Entretanto, a seleção de características utilizada em problemas de classificação de documentos requer um parâmetro m que define quantas características serão selecionadas. Encontrar um bom valor para m é um procedimento complicado e custoso. A idéia introduzida neste trabalho visa remover a necessidade do parâmetro m e garantir que as características selecionadas cubram todos os documentos do conjunto de treinamento. Para atingir esse objetivo...

Seleção de características usando algoritmos genéticos para classificação de imagens de textos em manuscritos e impressos

Coelho, Gleydson Vilanova Viana; Cavalcanti, George Darmiton da Cunha (orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
BR
Relevância na Pesquisa
95.92%
A presença de textos manuscritos e impressos em um mesmo documento representa um grande desafio para os atuais mecanismos de Reconhecimento Óptico de Caracteres. Uma vez que essas classes de texto possuem suas próprias rotinas de reconhecimento, o uso de técnicas que permitam diferenciação entre elas tornou-se indispensável e o bom funcionamento dessas técnicas depende da escolha de características que melhor representem os elementos de texto sobre os quais os classificadores devem atuar. Considerando que na literatura existe uma grande variedade de características utilizadas para este fim, este trabalho objetiva o desenvolvimento de um método que permita, através de um processo de otimização com Algoritmos Genéticos e a partir de um conjunto inicial de 52 características, a seleção de subconjuntos de melhores características que, além de menores que o conjunto original, possibilitem melhoria dos resultados de classificação. Os experimentos foram realizados com classificadores kNN e Redes Neurais MLP a partir de imagens de palavras segmentadas. O método proposto foi avaliado fazendo uso de uma base de dados pública para textos manuscritos e outra criada especificamente para este trabalho para textos impressos. Os resultados dos experimentos mostram que os objetivos propostos foram alcançados. Os Erros Médios de Classificação foram estatisticamente equivalentes para os dois classificadores e uma melhor performance foi obtida com o kNN. A influência dos diferentes tipos de fontes e estilos utilizados nos textos impressos também foi analisada e mostrou que as fontes que imitam textos manuscritos como a "Lucida Handwriting" e "Comic Sans MS" apresentam maiores ocorrências de erros de classificação. Da mesma forma...

Respostas à seleção de características de desempenho em tilápia-do-nilo

Porto,Emilia de Paiva; Oliveira,Carlos Antonio Lopes de; Martins,Elias Nunes; Ribeiro,Ricardo Pereira; Conti,Ana Carolina Müller; Kunita,Natali Miwa; Oliveira,Sheila Nogueira de; Porto,Petrônio Pinheiro
Fonte: Embrapa Informação Tecnológica; Pesquisa Agropecuária Brasileira Publicador: Embrapa Informação Tecnológica; Pesquisa Agropecuária Brasileira
Tipo: Artigo de Revista Científica Formato: text/html
Publicado em 01/09/2015 PT
Relevância na Pesquisa
86%
Resumo:O objetivo deste trabalho foi estimar parâmetros genéticos e respostas direta e indireta à seleção de características de desempenho em tilápia-do-nilo (Oreochromis niloticus), bem como avaliar o impacto da seleção sobre o ganho genético. Foram utilizadas informações de tilápias-do-nilo, sob seleção em um programa de melhoramento genético, cultivadas em sistema de tanques-rede, de 2008 a 2010. Estimaram-se herdabilidades e correlações genéticas das características ganho em peso diário e, à despesca, peso, largura, altura e comprimento do tronco, além dos ganhos genéticos obtidos com as estimativas de tendências genéticas e das respostas à seleção dessas características. As estimativas de herdabilidade ficaram em torno de 30%. As estimativas de correlações genéticas e de postos foram de alta magnitude. O ganho genético direto para ganho em peso diário foi de 7,9, 5,18 e 9,43%, em 2008, 2009 e 2010, respectivamente. Os ganhos genéticos obtidos a partir das tendências genéticas foram de 6,36, 6,30, 1,62, 1,65 e 1,51%, respectivamente, para ganho em peso diário, peso, largura, altura e comprimento do tronco. O incremento na velocidade de crescimento por meio da seleção impacta positivamente características de desempenho em tilápia-do-nilo.

Uso de Seleção de Características da Wikipedia na Classificação Automática de Textos.; Selection of Wikipedia features for automatic text classification

Alvarenga, Leonel Diógenes Carvalhaes
Fonte: Universidade Federal de Goiás; Brasil; UFG; Programa de Pós Graduação em Ciência da Computação (INF); Instituto de Informática (INF) Publicador: Universidade Federal de Goiás; Brasil; UFG; Programa de Pós Graduação em Ciência da Computação (INF); Instituto de Informática (INF)
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
106.01%
The traditional methods of text classification typically represent documents only as a set of words, also known as "Bag of Words"(BOW). Several studies have shown good results on making use of thesauri and encyclopedias as external information sources, aiming to expand the BOW representation by the identification of synonymy and hyponymy relationships between present terms in a document collection. However, the expansion process may introduce terms that lead to an erroneous classification. In this paper, we propose the use of feature selection measures in order to select features extracted from Wikipedia in order to improve the efectiveness of the expansion process. The study also proposes a feature selection measure called Tendency Factor to One Category (TF1C), so that the experiments showed that this measure proves to be competitive with the other measures Information Gain, Gain Ratio and Chisquared, in the process, delivering the best gains in microF1 and macroF1, in most experiments. The full use of features selected in this process showed to be more stable in assisting the classification, while it showed lower performance on restricting its insertion only to documents of the classes in which these features are well punctuated by the selection measures. When applied in the Reuters-21578...

Seleção de características baseada no algoritmo de colônia artificial de abelhas; Data feature selection based on artificial bee colony algorithm

Mauricio Schiezaro
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 27/10/2014 PT
Relevância na Pesquisa
86.01%
O armazenamento, a busca, a recuperação e a análise de grandes quantidades de dados multimídia são tarefas desafiadoras. A classificação de dados em grandes repositórios requer técnicas eficientes de análise, uma vez que diversas características são normalmente geradas para uma melhor representação dos dados. A seleção de características visa descartar informações redundantes, irrelevantes ou ruídos nos dados. Uma seleção de características apropriada pode reduzir o custo computacional e melhorar a acurácia do processo de classificação. Exemplos de características comuns empregadas na classificação de imagens, por exemplo, incluem cor, textura, forma e estruturas de objetos presentes nas imagens. No caso de grandes coleções de imagens, vetores de características podem conter centenas ou milhares de características. Métodos de otimização podem ser utilizados no processo de seleção das melhores características para classificação de dados. Algoritmos bioinspirados, ou seja, baseados no comportamento de seres vivos na natureza, têm sido criados com o objetivo de solucionar problemas de otimização, tais como Algoritmos Genéticos, Inteligência de Enxames, Colônia de Formigas, entre outros. Este trabalho tem como objetivo investigar...