Página 1 dos resultados de 3192 itens digitais encontrados em 0.019 segundos

Towards improving cluster-based feature selection with a simplified silhouette filter

COVOES, Thiago F.; HRUSCHKA, Eduardo R.
Fonte: ELSEVIER SCIENCE INC Publicador: ELSEVIER SCIENCE INC
Tipo: Artigo de Revista Científica
ENG
Relevância na Pesquisa
66.21%
This paper proposes a filter-based algorithm for feature selection. The filter is based on the partitioning of the set of features into clusters. The number of clusters, and consequently the cardinality of the subset of selected features, is automatically estimated from data. The computational complexity of the proposed algorithm is also investigated. A variant of this filter that considers feature-class correlations is also proposed for classification problems. Empirical results involving ten datasets illustrate the performance of the developed algorithm, which in general has obtained competitive results in terms of classification accuracy when compared to state of the art algorithms that find clusters of features. We show that, if computational efficiency is an important issue, then the proposed filter May be preferred over their counterparts, thus becoming eligible to join a pool of feature selection algorithms to be used in practice. As an additional contribution of this work, a theoretical framework is used to formally analyze some properties of feature selection methods that rely on finding clusters of features. (C) 2011 Elsevier Inc. All rights reserved.; CNPq; Conselho Nacional de Desenvolvimento Científico e Tecnológico (CNPq); FAPESP; Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP)

Label construction for multi-label feature selection

Spolaôr, Newton; Monard, Maria Carolina; Tsoumakas, Grigorios; Lee, Huei Diana
Fonte: Universidade de São Paulo - USP; Universidade Federal de São Carlos - UFSCar; Centro de Robótica de São Carlos - CROB; Sociedade Brasileira de Computação - SBC; Sociedade Brasileira de Automática - SBA; São Carlos Publicador: Universidade de São Paulo - USP; Universidade Federal de São Carlos - UFSCar; Centro de Robótica de São Carlos - CROB; Sociedade Brasileira de Computação - SBC; Sociedade Brasileira de Automática - SBA; São Carlos
Tipo: Conferência ou Objeto de Conferência
ENG
Relevância na Pesquisa
66.24%
Multi-label learning handles datasets where each instance is associated with multiple labels, which are often correlated. As other machine learning tasks, multi-label learning also suffers from the curse of dimensionality, which can be mitigated by dimensionality reduction tasks, such as feature selection. The standard approach for multi-label feature selection transforms the multi-label dataset into single-label datasets before using traditional feature selection algorithms. However, this approach often ignores label dependence. This work proposes an alternative method, LCFS, which constructs new labels based on relations between the original labels to augment the label set of the original dataset. Afterwards, the augmented dataset is submitted to the standard multi-label feature selection approach. Experiments using Information Gain as a measure to evaluate features were carried out in 10 multi-label benchmark datasets. For each dataset, the quality of the features selected was assessed by the quality of the classifiers built using the features selected by the standard approach in the original dataset, as well as in the dataset constructed by four LCFS settings. The results show that setting LCFS with simple strategies using pairs of labels gives rise to better classifiers than the ones built using the standard approach in the original dataset. Moreover...

Avaliação de métodos ótimos e subótimos de seleção de características de texturas em imagens; Evaluation of optimal and suboptimal feature selection methods applied to image textures

Roncatti, Marco Aurelio
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 10/07/2008 PT
Relevância na Pesquisa
66.29%
Características de texturas atuam como bons descritores de imagens e podem ser empregadas em diversos problemas, como classificação e segmentação. Porém, quando o número de características é muito elevado, o reconhecimento de padrões pode ser prejudicado. A seleção de características contribui para a solução desse problema, podendo ser empregada tanto para redução da dimensionalidade como também para descobrir quais as melhores características de texturas para o tipo de imagem analisada. O objetivo deste trabalho é avaliar métodos ótimos e subótimos de seleção de características em problemas que envolvem texturas de imagens. Os algoritmos de seleção avaliados foram o branch and bound, a busca exaustiva e o sequential oating forward selection (SFFS). As funções critério empregadas na seleção foram a distância de Jeffries-Matusita e a taxa de acerto do classificador de distância mínima (CDM). As características de texturas empregadas nos experimentos foram obtidas com estatísticas de primeira ordem, matrizes de co-ocorrência e filtros de Gabor. Os experimentos realizados foram a classificação de regiôes de uma foto aérea de plantação de eucalipto, a segmentação não-supervisionada de mosaicos de texturas de Brodatz e a segmentação supervisionada de imagens médicas (MRI do cérebro). O branch and bound é um algoritmo ótimo e mais efiiente do que a busca exaustiva na maioria dos casos. Porém...

Avaliação de métodos não-supervisionados de seleção de atributos para mineração de textos; Evaluation of unsupervised feature selection methods for Text Mining

Nogueira, Bruno Magalhães
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 27/03/2009 PT
Relevância na Pesquisa
66.27%
Selecionar atributos é, por vezes, uma atividade necessária para o correto desenvolvimento de tarefas de aprendizado de máquina. Em Mineração de Textos, reduzir o número de atributos em uma base de textos é essencial para a eficácia do processo e a compreensibilidade do conhecimento extraído, uma vez que se lida com espaços de alta dimensionalidade e esparsos. Quando se lida com contextos nos quais a coleção de textos é não-rotulada, métodos não-supervisionados de redução de atributos são utilizados. No entanto, não existe forma geral predefinida para a obtenção de medidas de utilidade de atributos em métodos não-supervisionados, demandando um esforço maior em sua realização. Assim, este trabalho aborda a seleção não-supervisionada de atributos por meio de um estudo exploratório de métodos dessa natureza, comparando a eficácia de cada um deles na redução do número de atributos em aplicações de Mineração de Textos. Dez métodos são comparados - Ranking porTerm Frequency, Ranking por Document Frequency, Term Frequency-Inverse Document Frequency, Term Contribution, Term Variance, Term Variance Quality, Método de Luhn, Método LuhnDF, Método de Salton e Zone-Scored Term Frequency - sendo dois deles aqui propostos - Método LuhnDF e Zone-Scored Term Frequency. A avaliação se dá em dois focos...

Seleção de características e predição intrinsecamente multivariada em identificação de redes de regulação gênica; Feature selection and intrinsically multivariate prediction in gene regulatory networks identification

Martins Junior, David Corrêa
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 01/12/2008 PT
Relevância na Pesquisa
66.21%
Seleção de características é um tópico muito importante em aplicações de reconhecimento de padrões, especialmente em bioinformática, cujos problemas são geralmente tratados sobre um conjunto de dados envolvendo muitas variáveis e poucas observações. Este trabalho analisa aspectos de seleção de características no problema de identificação de redes de regulação gênica a partir de sinais de expressão gênica. Particularmente, propusemos um modelo de redes gênicas probabilísticas (PGN) que devolve uma rede construída a partir da aplicação recorrente de algoritmos de seleção de características orientados por uma função critério baseada em entropia condicional. Tal critério embute a estimação do erro por penalização de amostras raramente observadas. Resultados desse modelo aplicado a dados sintéticos e a conjuntos de dados de microarray de Plasmodium falciparum, um agente causador da malária, demonstram a validade dessa técnica, tendo sido capaz não apenas de reproduzir conhecimentos já produzidos anteriormente, como também de produzir novos resultados. Outro aspecto investigado nesta tese é o fenômeno da predição intrinsecamente multivariada (IMP), ou seja, o fato de um conjunto de características ser um ótimo caracterizador dos objetos em questão...

Seleção de características apoiada por mineração visual de dados; Feature selection supported by visual data mining

Botelho, Glenda Michele
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 17/02/2011 PT
Relevância na Pesquisa
66.31%
Devido ao crescimento do volume de imagens e, consequentemente, da grande quantidade e complexidade das características que as representam, surge a necessidade de selecionar características mais relevantes que minimizam os problemas causados pela alta dimensionalidade e correlação e que melhoram a eficiência e a eficácia das atividades que utilizarão o conjunto de dados. Existem diversos métodos tradicionais de seleção que se baseiam em análises estatísticas dos dados ou em redes neurais artificiais. Este trabalho propõe a inclusão de técnicas de mineração visual de dados, particularmente, projeção de dados multidimensionais, para apoiar o processo de seleção. Projeção de dados busca mapear dados de um espaço m-dimensional em um espaço p-dimensional, p < m e geralmente igual a 2 ou 3, preservando ao máximo as relações de distância existentes entre os dados. Tradicionalmente, cada imagem é representada por um ponto e pontos projetados próximos uns aos outros indicam agrupamentos de imagens que compartilham as mesmas propriedades. No entanto, este trabalho propõe a projeção de características. Dessa forma, ao selecionarmos apenas algumas amostras de cada agrupamento da projeção, teremos um subconjunto de características...

Seleção de características por meio de algoritmos genéticos para aprimoramento de rankings e de modelos de classificação; Feature selection by genetic algorithms to improve ranking and classification models

Silva, Sérgio Francisco da
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 25/04/2011 PT
Relevância na Pesquisa
66.3%
Sistemas de recuperação de imagens por conteúdo (Content-based image retrieval { CBIR) e de classificação dependem fortemente de vetores de características que são extraídos das imagens considerando critérios visuais específicos. É comum que o tamanho dos vetores de características seja da ordem de centenas de elementos. Conforme se aumenta o tamanho (dimensionalidade) do vetor de características, também se aumentam os graus de irrelevâncias e redundâncias, levando ao problema da "maldição da dimensionalidade". Desse modo, a seleção das características relevantes é um passo primordial para o bom funcionamento de sistemas CBIR e de classificação. Nesta tese são apresentados novos métodos de seleção de características baseados em algoritmos genéticos (do inglês genetic algorithms - GA), visando o aprimoramento de consultas por similaridade e modelos de classificação. A família Fc ("Fitness coach") de funções de avaliação proposta vale-se de funções de avaliação de ranking, para desenvolver uma nova abordagem de seleção de características baseada em GA que visa aprimorar a acurácia de sistemas CBIR. A habilidade de busca de GA considerando os critérios de avaliação propostos (família Fc) trouxe uma melhora de precisão de consultas por similaridade de até 22% quando comparado com métodos wrapper tradicionais para seleção de características baseados em decision-trees (C4.5)...

Seleção supervisionada de características por ranking para processar consultas por similaridade em imagens médicas; Supervised feature selection by ranking to process similarity queries in medical images

Mamani, Gabriel Efrain Humpire
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 05/12/2012 PT
Relevância na Pesquisa
66.28%
Obter uma representação sucinta e representativa de imagens médicas é um desafio que tem sido perseguido por pesquisadores da área de processamento de imagens médicas com o propósito de apoiar o diagnóstico auxiliado por computador (Computer Aided Diagnosis - CAD). Os sistemas CAD utilizam algoritmos de extração de características para representar imagens, assim, diferentes extratores podem ser avaliados. No entanto, as imagens médicas contêm estruturas internas que são importantes para a identificação de tecidos, órgãos, malformações ou doenças. É usual que um grande número de características sejam extraídas das imagens, porém esse fato que poderia ser benéfico, pode na realidade prejudicar o processo de indexação e recuperação das imagens com problemas como a maldição da dimensionalidade. Assim, precisa-se selecionar as características mais relevantes para tornar o processo mais eficiente e eficaz. Esse trabalho desenvolveu o método de seleção supervisionada de características FSCoMS (Feature Selection based on Compactness Measure from Scatterplots) para obter o ranking das características, contemplando assim, o que é necessário para o tipo de imagens médicas sob análise. Dessa forma, produziu-se vetores de características mais enxutos e eficientes para responder consultas por similaridade. Adicionalmente...

Seleção de atributos para aprendizagem multirrótulo; Feature selection for multi-label learning

Spolaôr, Newton
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 24/09/2014 PT
Relevância na Pesquisa
66.32%
A presença de atributos não importantes, i.e., atributos irrelevantes ou redundantes nos dados, pode prejudicar o desempenho de classificadores gerados a partir desses dados por algoritmos de aprendizado de máquina. O objetivo de algoritmos de seleção de atributos consiste em identificar esses atributos não importantes para removê-los dos dados antes da construção de classificadores. A seleção de atributos em dados monorrótulo, nos quais cada exemplo do conjunto de treinamento é associado com somente um rótulo, tem sido amplamente estudada na literatura. Entretanto, esse não é o caso para dados multirrótulo, nos quais cada exemplo é associado com um conjunto de rótulos (multirrótulos). Além disso, como esse tipo de dados usualmente apresenta relações entre os rótulos do multirrótulo, algoritmos de aprendizado de máquina deveriam considerar essas relações. De modo similar, a dependência de rótulos deveria também ser explorada por algoritmos de seleção de atributos multirrótulos. A abordagem filtro é uma das mais utilizadas por algoritmos de seleção de atributos, pois ela apresenta um custo computacional potencialmente menor que outras abordagens e utiliza características gerais dos dados para calcular as medidas de importância de atributos. tais como correlação de atributo-classe...

Stochastic density ratio estimation and its application to feature selection; Estimação estocástica da razão de densidades e sua aplicação em seleção de atributos

Braga, Ígor Assis
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 23/10/2014 EN
Relevância na Pesquisa
66.27%
The estimation of the ratio of two probability densities is an important statistical tool in supervised machine learning. In this work, we introduce new methods of density ratio estimation based on the solution of a multidimensional integral equation involving cumulative distribution functions. The resulting methods use the novel V -matrix, a concept that does not appear in previous density ratio estimation methods. Experiments demonstrate the good potential of this new approach against previous methods. Mutual Information - MI - estimation is a key component in feature selection and essentially depends on density ratio estimation. Using one of the methods of density ratio estimation proposed in this work, we derive a new estimator - VMI - and compare it experimentally to previously proposed MI estimators. Experiments conducted solely on mutual information estimation show that VMI compares favorably to previous estimators. Experiments applying MI estimation to feature selection in classification tasks evidence that better MI estimation leads to better feature selection performance. Parameter selection greatly impacts the classification accuracy of the kernel-based Support Vector Machines - SVM. However, this step is often overlooked in experimental comparisons...

Feature selection through gravitational search algorithm

Papa, J. P.; Pagnin, A.; Schellini, Silvana Artioli; Spadotto, A.; Guido, R. C.; Ponti, M.; Chiachia, G.; Falcao, A. X.
Fonte: IEEE Publicador: IEEE
Tipo: Conferência ou Objeto de Conferência Formato: 2052-2055
ENG
Relevância na Pesquisa
66.19%
In this paper we deal with the problem of feature selection by introducing a new approach based on Gravitational Search Algorithm (GSA). The proposed algorithm combines the optimization behavior of GSA together with the speed of Optimum-Path Forest (OPF) classifier in order to provide a fast and accurate framework for feature selection. Experiments on datasets obtained from a wide range of applications, such as vowel recognition, image classification and fraud detection in power distribution systems are conducted in order to asses the robustness of the proposed technique against Principal Component Analysis (PCA), Linear Discriminant Analysis (LDA) and a Particle Swarm Optimization (PSO)-based algorithm for feature selection.

BBA: A binary bat algorithm for feature selection

Nakamura, R. Y M; Pereira, L. A M; Costa, K. A.; Rodrigues, D.; Papa, J. P.; Yang, X. S.
Fonte: Universidade Estadual Paulista Publicador: Universidade Estadual Paulista
Tipo: Conferência ou Objeto de Conferência Formato: 291-297
ENG
Relevância na Pesquisa
66.19%
Feature selection aims to find the most important information from a given set of features. As this task can be seen as an optimization problem, the combinatorial growth of the possible solutions may be in-viable for a exhaustive search. In this paper we propose a new nature-inspired feature selection technique based on the bats behaviour, which has never been applied to this context so far. The wrapper approach combines the power of exploration of the bats together with the speed of the Optimum-Path Forest classifier to find the set of features that maximizes the accuracy in a validating set. Experiments conducted in five public datasets have demonstrated that the proposed approach can outperform some well-known swarm-based techniques. © 2012 IEEE.

Application of supervised feature selection methods to define the most important traits affecting maximum kernel water content in maize

Shekoofa, A.; Emam, Y.; Ebrahimi, M.; Ebrahimie, E.
Fonte: Southern Cross Journals Publicador: Southern Cross Journals
Tipo: Artigo de Revista Científica
Publicado em //2011 EN
Relevância na Pesquisa
66.24%
This study presents the results of applying supervised feature selection algorithms in the selection of the most important traits contributing to the maximum kernel water content (MKWC) as a major yield component. Data were obtained from a field experiment conducted during 2008 growing season, at the Experimental Farm of the College of Agriculture, Shiraz University, and from the literature. Experiments on the subject of sink/source relationships in maize were collected from twelve fields (as records) of different parts of the world, differing in 23 characteristics (features). The feature selection algorithm demonstrated that 15 features including: planting date (days), countries (Iran, Argentina, India, USA, Canada), hybrid types, Phosphorous fertilizer applied (kg ha-1), final kernel weight (mg), soil type, season duration (days), days to silking, leaf dry weight (g plant-1), mean kernel weight (mg), cob dry weight (g plant-1), kernel number per ear, grain yield (g m-2), nitrogen applied (kg ha-1), and duration of the grain filling period (0C day) were the most effective traits in determining maximum kernel water content. Among the effective traits (features), planting date (days) revealed to be the critical one. Hybrids and countries were the second most important affecting factors on the maize kernel water content. For the first time...

Feature Selection for Brain-Computer Interfaces; Merkmalsselektion für Brain-Computer Interfaces

Tangermann, Michael Willi
Fonte: Universidade de Tubinga Publicador: Universidade de Tubinga
Tipo: Dissertação
DE_DE
Relevância na Pesquisa
66.25%
Ein Brain-Computer-Interface-System (BCI) bietet schwerstgelähmten Patienten eine Möglichkeit zu kommunizieren. Während sie verschiedene mentale Aufgaben ausführen, was kurzzeitig zu unterschiedlichen mentalen Zuständen führt, werden die Gehirnsignale der Patienten aufgezeichnet. Aus diesen Signalen extrahiert ein Computersystem zuerst komplexe Merkmale und übersetzt diese in einem zweiten Schritt in Kontrollsignale zur Steuerung einer Kommunikationsanwendung. Extraktion und Übersetzung der Signale werden durch z.T. lernende Algorithmen realisiert, welche für jeden Benutzer individuell angepasst werden müssen, um eine optimale Leistungsfähigkeit des BCI-Systems zu erzielen. Einer der zu optimierenden Schritte ist die Selektion einer geeigneten Menge von Merkmalen. Diese Merkmalsmenge soll eine möglichst exakte Unterscheidung der mentalen Zustände ermöglichen, durch Einblick in die Lösung das Verständnis für diesen Lösungsansatz erhöhen, den experimentellen Aufwand absenken und damit die Akzeptanz für das BCI-System bei den Benutzern erhöhen. Sieht man EEG Elektroden als Merkmale an, so ist die Auswahl einer kleineren Merkmalsmenge äußerst wünschenswert - sie verkleinert den immensen täglichen Aufwand für das Setzen der Elektroden vor dem Beginn der Kommunikation per BCI. Das Problem der Merkmalsselektion ist außerordentlich schwierig zu lösen...

Feature Selection and Classification Using Age Layered Population Structure Genetic Programming

Awuley, Anthony
Fonte: Brock University Publicador: Brock University
Tipo: Electronic Thesis or Dissertation
ENG
Relevância na Pesquisa
66.27%
The curse of dimensionality is a major problem in the fields of machine learning, data mining and knowledge discovery. Exhaustive search for the most optimal subset of relevant features from a high dimensional dataset is NP hard. Sub–optimal population based stochastic algorithms such as GP and GA are good choices for searching through large search spaces, and are usually more feasible than exhaustive and determinis- tic search algorithms. On the other hand, population based stochastic algorithms often suffer from premature convergence on mediocre sub–optimal solutions. The Age Layered Population Structure (ALPS) is a novel meta–heuristic for overcoming the problem of premature convergence in evolutionary algorithms, and for improving search in the fitness landscape. The ALPS paradigm uses an age–measure to control breeding and competition between individuals in the population. This thesis uses a modification of the ALPS GP strategy called Feature Selection ALPS (FSALPS) for feature subset selection and classification of varied supervised learning tasks. FSALPS uses a novel frequency count system to rank features in the GP population based on evolved feature frequencies. The ranked features are translated into probabilities...

Feature Selection and Classification Using Age Layered Population Structure Genetic Programming

Awuley, Anthony
Fonte: Brock University Publicador: Brock University
Tipo: Electronic Thesis or Dissertation
ENG
Relevância na Pesquisa
66.27%
The curse of dimensionality is a major problem in the fields of machine learning, data mining and knowledge discovery. Exhaustive search for the most optimal subset of relevant features from a high dimensional dataset is NP hard. Sub–optimal population based stochastic algorithms such as GP and GA are good choices for searching through large search spaces, and are usually more feasible than exhaustive and deterministic search algorithms. On the other hand, population based stochastic algorithms often suffer from premature convergence on mediocre sub–optimal solutions. The Age Layered Population Structure (ALPS) is a novel metaheuristic for overcoming the problem of premature convergence in evolutionary algorithms, and for improving search in the fitness landscape. The ALPS paradigm uses an age–measure to control breeding and competition between individuals in the population. This thesis uses a modification of the ALPS GP strategy called Feature Selection ALPS (FSALPS) for feature subset selection and classification of varied supervised learning tasks. FSALPS uses a novel frequency count system to rank features in the GP population based on evolved feature frequencies. The ranked features are translated into probabilities, which are used to control evolutionary processes such as terminal–symbol selection for the construction of GP trees/sub-trees. The FSALPS metaheuristic continuously refines the feature subset selection process whiles simultaneously evolving efficient classifiers through a non–converging evolutionary process that favors selection of features with high discrimination of class labels. We investigated and compared the performance of canonical GP...

Feature selection for Support Vector Machines via Mixed Integer Linear Programming

Weber, Richard; Pérez, Juan; Labbé, Martine; Maldonado, Sebastián
Fonte: Elsevier Publicador: Elsevier
Tipo: Artículo de revista
EN
Relevância na Pesquisa
66.19%
Artículo de publicación ISI; The performance of classification methods, such as Support Vector Machines, depends heavily on the proper choice of the feature set used to construct the classifier. Feature selection is an NP-hard problem that has been studied extensively in the literature. Most strategies propose the elimination of features independently of classifier construction by exploiting statistical properties of each of the variables, or via greedy search. All such strategies are heuristic by nature. In this work we propose two different Mixed Integer Linear Programming formulations based on extensions of Support Vector Machines to overcome these shortcomings. The proposed approaches perform variable selection simultaneously with classifier construction using optimization models. We ran experiments on real-world benchmark datasets, comparing our approaches with well-known feature selection techniques and obtained better predictions with consistently fewer relevant features.; Support from the Institute of Complex Engineering Systems (ICM: P-05-004-F, CONICYT: FBO16)

On the optimality of sequential forward feature selection using class separability measure

Wang, L.; Shen, C.; Hartley, R.
Fonte: IEEE; USA Publicador: IEEE; USA
Tipo: Conference paper
Publicado em //2011 EN
Relevância na Pesquisa
66.25%
This paper studies sequential forward feature selection that uses the scatter-matrix-based class separability measure. We find that by adding a scale factor to each iteration of the conventional sequential selection, a sequential selection that guarantees the global optimum can be attained. We give a thorough theoretical proof of its optimality via a novel geometric interpretation, and this leads to a unified framework including the optimal sequential selection, the conventional sequential selection and the best-individual-N selection. In addition, we show that with our formulation, feature selection can be treated as a linear fractional maximization problem, and it can be efficiently solved by algorithms well developed in the literature. This gives a non-sequential globally optimal feature selection algorithm. Both theoretical and experimental study demonstrate their efficiency.; Lei Wang, Chunhua Shen and Richard Hartley

Feature Selection with Kernel Class Separability

Wang, Lei
Fonte: Institute of Electrical and Electronics Engineers (IEEE Inc) Publicador: Institute of Electrical and Electronics Engineers (IEEE Inc)
Tipo: Artigo de Revista Científica
Relevância na Pesquisa
66.24%
Classification can often benefit from efficient feature selection. However, the presence of linearly nonseparable data, quick response requirement, small sample problem and noisy features makes the feature selection quite challenging. In this work, a clas

Feature Selection using Typical Testors applied to Estimation of Stellar Parameters

Santos,José Á; Carrasco,Ariel; Martínez,José F
Fonte: Centro de Investigación en computación, IPN Publicador: Centro de Investigación en computación, IPN
Tipo: Artigo de Revista Científica Formato: text/html
Publicado em 01/09/2004 EN
Relevância na Pesquisa
66.23%
In this paper a comparative analysis of feature selection using typical testors applied on astronomical data, is presented. The comparison is based on the classification efficiency using typical testors as feature selection method against the classification efficiency using Ramirez (2001) method, which uses genetic algorithms. The well-known K-nearest neighbors rule (KNN) was used as classifier. The feature selection based on typical testors was modified to be applied on a prediction problem of a real valued function. The feature selection obtained with typical testors reduces the amount of features in approximately 50% and the classification error index is better than both using the original data and Ramirez's method.