Página 1 dos resultados de 12984 itens digitais encontrados em 0.021 segundos

Um ambiente para avaliação de algoritmos de aprendizado de máquina simbólico utilizando exemplos.; An environment to evaluate machine learning algorithms.

Batista, Gustavo Enrique de Almeida Prado Alves
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 15/10/1997 PT
Relevância na Pesquisa
66.32%
Um sistema de aprendizado supervisionado é um programa capaz de realizar decisões baseado na experiência contida em casos resolvidos com sucesso. As regras de classificação induzidas por um sistema de aprendizado podem ser analisadas segundo dois critérios: a complexidade dessas regras e o erro de classificação sobre um conjunto independente de exemplos. Sistemas de aprendizado têm sido desenvolvidos na prática utilizando diferentes paradigmas incluindo estatística, redes neurais, bem como sistemas de aprendizado simbólico proposicionais e relacionais. Diversos métodos de aprendizado podem ser aplicados à mesma amostra de dados e alguns deles podem desempenhar melhor que outros. Para uma dada aplicação, não existem garantias que qualquer um desses métodos é necessariamente o melhor. Em outras palavras, não existe uma análise matemática que possa determinar se um algoritmo de aprendizado irá desempenhar melhor que outro. Desta forma, estudos experimentais são necessários. Neste trabalho nos concentramos em uma tarefa de aprendizado conhecida como classificação ou predição, na qual o problema consiste na construção de um procedimento de classificação a partir de um conjunto de casos no qual as classes verdadeiras são conhecidas...

"Pré-processamento de dados em aprendizado de máquina supervisionado" ; "Data pre-processing for supervised machine learning"

Batista, Gustavo Enrique de Almeida Prado Alves
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 16/05/2003 PT
Relevância na Pesquisa
66.37%
A qualidade de dados é uma das principais preocupações em Aprendizado de Máquina - AM -cujos algoritmos são freqüentemente utilizados para extrair conhecimento durante a fase de Mineração de Dados - MD - da nova área de pesquisa chamada Descoberta de Conhecimento de Bancos de Dados. Uma vez que a maioria dos algoritmos de aprendizado induz conhecimento estritamente a partir de dados, a qualidade do conhecimento extraído é amplamente determinada pela qualidade dos dados de entrada. Diversos aspectos podem influenciar no desempenho de um sistema de aprendizado devido à qualidade dos dados. Em bases de dados reais, dois desses aspectos estão relacionados com (i) a presença de valores desconhecidos, os quais são tratados de uma forma bastante simplista por diversos algoritmos de AM, e; (ii) a diferença entre o número de exemplos, ou registros de um banco de dados, que pertencem a diferentes classes, uma vez que quando essa diferença é expressiva, sistemas de aprendizado podem ter dificuldades em aprender o conceito relacionado com a classe minoritária. O problema de tratamento de valores desconhecidos é de grande interesse prático e teórico. Em diversas aplicações é importante saber como proceder quando as informações disponíveis estão incompletas ou quando as fontes de informações se tornam indisponíveis. O tratamento de valores desconhecidos deve ser cuidadosamente planejado...

Adaptatividade em aprendizagem de máquina: conceitos e estudo de caso.; Adaptivity in machine learning: Concepts and case study.

Stange, Renata Luiza
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 21/10/2011 PT
Relevância na Pesquisa
66.41%
A aprendizagem incremental requer que o mecanismo de aprendizagem seja baseado no acúmulo dinâmico da informação extraída das experiências realizadas. A aprendizagem de máquina usando adaptatividade considera a integração de técnicas de aprendizagem de máquina simbólicas com técnicas adaptativas para a solução de problemas de aprendizagem. A palavra adaptatividade sugere a capacidade de modificação do conjunto de regras aprendidas em resposta a eventos que podem ocorrer durante o processo de aprendizagem, ou então autoajustes no conjunto de parâmetros. Os dispositivos adaptativos que possuem a capacidade de reter em suas regras informações extraídas de suas entradas podem acumular informações, para que sejam utilizadas quando forem necessárias. As estratégias de interesse para a incorporação da adaptatividade incluem a utilização de métodos e técnicas de aprendizagem de máquina, em particular as que implementam aprendizado supervisionado e tomada de decisão. O objetivo deste trabalho é explorar a utilização de técnicas adaptativas no processo de aprendizado por máquina, tanto de forma exclusiva como em conjunto com outras técnicas de aprendizagem. Para atingir este objetivo...

Machine learning via dynamical processes on complex networks; Aprendizado de máquina via processos dinâmicos em redes complexas

Cupertino, Thiago Henrique
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 20/12/2013 EN
Relevância na Pesquisa
66.41%
Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to "learn" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization...

Extração automática de termos simples baseada em aprendizado de máquina; Automatic simple term extraction based on machine learning

Laguna, Merley da Silva Conrado
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 06/05/2014 PT
Relevância na Pesquisa
66.34%
A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos...

A unified framework for design, deployment, execution, and recommendation of machine learning experiments= : Uma ferramenta unificada para projeto, desenvolvimento, execução e recomendação de experimentos de aprendizado de máquina; Uma ferramenta unificada para projeto, desenvolvimento, execução e recomendação de experimentos de aprendizado de máquina

Rafael de Oliveira Werneck
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 22/08/2014 PT
Relevância na Pesquisa
66.39%
Devido ao grande crescimento do uso de tecnologias para a aquisição de dados, temos que lidar com grandes e complexos conjuntos de dados a fim de extrair conhecimento que possa auxiliar o processo de tomada de decisão em diversos domínios de aplicação. Uma solução típica para abordar esta questão se baseia na utilização de métodos de aprendizado de máquina, que são métodos computacionais que extraem conhecimento útil a partir de experiências para melhorar o desempenho de aplicações-alvo. Existem diversas bibliotecas e arcabouços na literatura que oferecem apoio à execução de experimentos de aprendizado de máquina, no entanto, alguns não são flexíveis o suficiente para poderem ser estendidos com novos métodos, além de não oferecerem mecanismos que permitam o reuso de soluções de sucesso concebidos em experimentos anteriores na ferramenta. Neste trabalho, propomos um arcabouço para automatizar experimentos de aprendizado de máquina, oferecendo um ambiente padronizado baseado em workflow, tornando mais fácil a tarefa de avaliar diferentes descritores de características, classificadores e abordagens de fusão em uma ampla gama de tarefas. Também propomos o uso de medidas de similaridade e métodos de learning-to-rank em um cenário de recomendação...

Controle integrado de tensão e potência reativa através de aprendizado de máquina; Integrated voltage and reactive power control using machine learning

Adriano Costa Pinto
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 30/04/2015 PT
Relevância na Pesquisa
66.34%
A crescente demanda por energia elétrica, por vezes em ritmo mais acelerado que os investimentos em expansão das redes de distribuição, tem levado as distribuidoras a operarem próximo aos limites aceitáveis, o que torna toda a operação da rede mais complexa. Um dos desafios atuais é estabelecer um efetivo controle de tensão e potência reativa (Volt/var) na rede buscando melhorar o nível de operação e de eficiência energética da rede. Muitas propostas para encontrar a solução do problema partiram de uma abordagem de forma desacoplada: o controle de tensão e o controle de potência reativa foram resolvidos separadamente. Neste trabalho, porém, foram estudados métodos de solução do problema visando à segurança da operação e à otimização global dos recursos da rede de modo integrado, ou seja, considerando a dependência entre tensão e potência reativa. Na literatura, grande parte dos trabalhos reportam soluções baseadas em modelos elétricos da rede de distribuição. Os métodos estudados nessa dissertação são baseados em técnicas de aprendizado de máquina com o objetivo de construir um modelo capaz de utilizar apenas as medições de tensão e corrente provenientes dos medidores instalados ao longo da rede e obter o melhor despacho dos ajustes dos dispositivos de controle...

Machine learning Gaussian short rate

Sousa, João Beleza Teixeira Seixas e
Fonte: Faculdade de Ciências e Tecnologia Publicador: Faculdade de Ciências e Tecnologia
Tipo: Tese de Doutorado
Publicado em //2013 ENG
Relevância na Pesquisa
66.37%
Dissertação para obtenção do Grau de Doutor em Estatística e Gestão do Risco; The main theme of this thesis is the calibration of a short rate model under the risk neutral measure. The problem of calibrating short rate models arises as most of the popular models have the drawback of not fitting prices observed in the market, in particular, those of the zero coupon bonds that define the current term structure of interest rates. This thesis proposes a risk neutral Gaussian short rate model based on Gaussian processes for machine learning regression using the Vasicek short rate model as prior. The proposed model fits not only the prices that define the current term structure observed in the market but also all past prices. The calibration is done using market observed zero coupon bond prices, exclusively. No other sources of information are needed. This thesis has two parts. The first part contains a set of self-contained finished papers, one already published, another accepted for publication and the others submitted for publication. The second part contains a set of self-contained unsubmitted papers. Although the fundamental work on papers in part two is finished as well, there are some extra work we want to include before submitting them for publication. Part I: - Machine learning Vasicek model calibration with Gaussian processes In this paper we calibrate the Vasicek interest rate model under the risk neutral measure by learning the model parameters using Gaussian processes for machine learning regression. The calibration is done by maximizing the likelihood of zero coupon bond log prices...

Métodos Machine Learning aplicados para estimar la concentración de los contaminantes de la DQO y de los SST en hidrosistemas de saneamiento urbano a partir de espectrometría UV-Visible

Zamora Ávila, David Andrés
Fonte: Pontifícia Universidade Javeriana Publicador: Pontifícia Universidade Javeriana
Formato: PDF
Relevância na Pesquisa
66.34%
El presente trabajo tuvo como objetivo desarrollar nuevas metodologías basadas en métodos machine learning, para lo cual se implementaron tres técnicas de inteligencia artificial denominadas: Support Vector Machine (SVM), Redes Neuronales Artificiales (RNA) y algoritmos evolutivos. Éste último fue empleado para realizar una optimización multiobjetivo de los parámetros SVM y RNA con el fin de estimar concentraciones equivalentes de determinates en continuo asociadas a las aguas de drenaje urbano mediante datos de espectrometría UV-visible in situ. Adicionalmente, para comprender mejor la relación entre el espectro de absorbancias y presencia-magnitud de los determinantes objeto de estudio (SST y DQO (total o filtrada)), se desarrollaron varias metodologías que abarcan los siguientes puntos importantes para consolidar y evaluar un modelo quimiométrico, orientas a: evaluar la incertidumbre de los datos medidos in situ y de ensayos de laboratorio (Ley de la propagación de la incertidumbre y métodos Monte Carlo), establecer la recurrencia y la relevancia de las longitudes de onda del espectro UV-Visible en su relación con la presencia de un determinante, y por último evaluar la calidad y representatividad de un par de datos espectro-concentración (outliers).; The knowledge of the pollutant concentration values represents a significant input to the improvement in the management of the urban sanitation systems (USS). Therefore...

Interpretable Machine Learning Approaches in Computational Biology; Interpretierbare Maschinelle Lernansätze in der Bioinformatik

Briesemeister, Sebastian
Fonte: Universität Tübingen Publicador: Universität Tübingen
Tipo: Dissertation; info:eu-repo/semantics/doctoralThesis
EN
Relevância na Pesquisa
66.36%
Machine learning has become an essential tool for analyzing, predicting, and understanding biological properties and processes. Machine learning models can substantially support the work of biologists by reducing the number of expensive and time-consuming experiments. They are able to uncover novel properties of biological systems and can be used to guide experiments. Machine learning models have been successfully applied to various tasks ranging from gene prediction to three-dimensional structure prediction of proteins. However, due to their lack of interpretability, many biologists put only little trust in the predictions made by computational models. In this thesis, we show how to overcome the typical "black box" character of machine learning algorithms by presenting two novel interpretable approaches for classification and regression. In the first part, we introduce YLoc, an interpretable classification approach for predicting the subcellular localization of proteins. YLoc is able to explain why a prediction was made by identifying the biological properties with the strongest influence on the prediction. We show that interpretable predictions made by YLoc help to understand a protein's localization and, moreover, can assist biologists in engineering the location of proteins. Furthermore...

"Novas abordagens em aprendizado de máquina para a geração de regras, classes desbalanceadas e ordenação de casos" ; "New approaches in machine learning for rule generation, class imbalance and rankings"

Prati, Ronaldo Cristiano
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 07/07/2006 PT
Relevância na Pesquisa
66.41%
Algoritmos de aprendizado de máquina são frequentemente os mais indicados em uma grande variedade de aplicações de mineração dados. Entretanto, a maioria das pesquisas em aprendizado de máquina refere-se ao problema bem definido de encontrar um modelo (geralmente de classificação) de um conjunto de dados pequeno, relativamente bem preparado para o aprendizado, no formato atributo-valor, no qual os atributos foram previamente selecionados para facilitar o aprendizado. Além disso, o objetivo a ser alcançado é simples e bem definido (modelos de classificação precisos, no caso de problemas de classificação). Mineração de dados propicia novas direções para pesquisas em aprendizado de máquina e impõe novas necessidades para outras. Com a mineração de dados, algoritmos de aprendizado estão quebrando as restrições descritas anteriormente. Dessa maneira, a grande contribuição da área de aprendizado de máquina para a mineração de dados é retribuída pelo efeito inovador que a mineração de dados provoca em aprendizado de máquina. Nesta tese, exploramos alguns desses problemas que surgiram (ou reaparecem) com o uso de algoritmos de aprendizado de máquina para mineração de dados. Mais especificamente, nos concentramos seguintes problemas: Novas abordagens para a geração de regras. Dentro dessa categoria...

AutoCompete: A Framework for Machine Learning Competition

Thakur, Abhishek; Krohn-Grimberghe, Artus
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 08/07/2015
Relevância na Pesquisa
66.36%
In this paper, we propose AutoCompete, a highly automated machine learning framework for tackling machine learning competitions. This framework has been learned by us, validated and improved over a period of more than two years by participating in online machine learning competitions. It aims at minimizing human interference required to build a first useful predictive model and to assess the practical difficulty of a given machine learning challenge. The proposed system helps in identifying data types, choosing a machine learn- ing model, tuning hyper-parameters, avoiding over-fitting and optimization for a provided evaluation metric. We also observe that the proposed system produces better (or comparable) results with less runtime as compared to other approaches.; Comment: Paper at AutoML workshop in ICML, 2015

Making Early Predictions of the Accuracy of Machine Learning Applications

Smith, J. E.; Caleb-Solly, P.; Tahir, M. A.; Sannen, D.; van-Brussel, H.
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 05/12/2012
Relevância na Pesquisa
66.32%
The accuracy of machine learning systems is a widely studied research topic. Established techniques such as cross-validation predict the accuracy on unseen data of the classifier produced by applying a given learning method to a given training data set. However, they do not predict whether incurring the cost of obtaining more data and undergoing further training will lead to higher accuracy. In this paper we investigate techniques for making such early predictions. We note that when a machine learning algorithm is presented with a training set the classifier produced, and hence its error, will depend on the characteristics of the algorithm, on training set's size, and also on its specific composition. In particular we hypothesise that if a number of classifiers are produced, and their observed error is decomposed into bias and variance terms, then although these components may behave differently, their behaviour may be predictable. We test our hypothesis by building models that, given a measurement taken from the classifier created from a limited number of samples, predict the values that would be measured from the classifier produced when the full data set is presented. We create separate models for bias, variance and total error. Our models are built from the results of applying ten different machine learning algorithms to a range of data sets...

Global Gene Expression Analysis Using Machine Learning Methods

Xu, Min
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 05/06/2015
Relevância na Pesquisa
66.34%
Microarray is a technology to quantitatively monitor the expression of large number of genes in parallel. It has become one of the main tools for global gene expression analysis in molecular biology research in recent years. The large amount of expression data generated by this technology makes the study of certain complex biological problems possible and machine learning methods are playing a crucial role in the analysis process. At present, many machine learning methods have been or have the potential to be applied to major areas of gene expression analysis. These areas include clustering, classification, dynamic modeling and reverse engineering. In this thesis, we focus our work on using machine learning methods to solve the classification problems arising from microarray data. We first identify the major types of the classification problems; then apply several machine learning methods to solve the problems and perform systematic tests on real and artificial datasets. We propose improvement to existing methods. Specifically, we develop a multivariate and a hybrid feature selection method to obtain high classification performance for high dimension classification problems. Using the hybrid feature selection method, we are able to identify small sets of features that give predictive accuracy that is as good as that from other methods which require many more features.; Comment: Author's master thesis (National University of Singapore...

Large-scale Machine Learning for Metagenomics Sequence Classification

Vervier, Kévin; Mahé, Pierre; Tournoud, Maud; Veyrieras, Jean-Baptiste; Vert, Jean-Philippe
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 26/05/2015
Relevância na Pesquisa
66.34%
Metagenomics characterizes the taxonomic diversity of microbial communities by sequencing DNA directly from an environmental sample. One of the main challenges in metagenomics data analysis is the binning step, where each sequenced read is assigned to a taxonomic clade. Due to the large volume of metagenomics datasets, binning methods need fast and accurate algorithms that can operate with reasonable computing requirements. While standard alignment-based methods provide state-of-the-art performance, compositional approaches that assign a taxonomic class to a DNA read based on the k-mers it contains have the potential to provide faster solutions. In this work, we investigate the potential of modern, large-scale machine learning implementations for taxonomic affectation of next-generation sequencing reads based on their k-mers profile. We show that machine learning-based compositional approaches benefit from increasing the number of fragments sampled from reference genome to tune their parameters, up to a coverage of about 10, and from increasing the k-mer size to about 12. Tuning these models involves training a machine learning model on about 10 8 samples in 10 7 dimensions, which is out of reach of standard soft-wares but can be done efficiently with modern implementations for large-scale machine learning. The resulting models are competitive in terms of accuracy with well-established alignment tools for problems involving a small to moderate number of candidate species...

Self-configuration from a Machine-Learning Perspective

Konen, Wolfgang
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Relevância na Pesquisa
66.36%
The goal of machine learning is to provide solutions which are trained by data or by experience coming from the environment. Many training algorithms exist and some brilliant successes were achieved. But even in structured environments for machine learning (e.g. data mining or board games), most applications beyond the level of toy problems need careful hand-tuning or human ingenuity (i.e. detection of interesting patterns) or both. We discuss several aspects how self-configuration can help to alleviate these problems. One aspect is the self-configuration by tuning of algorithms, where recent advances have been made in the area of SPO (Sequen- tial Parameter Optimization). Another aspect is the self-configuration by pattern detection or feature construction. Forming multiple features (e.g. random boolean functions) and using algorithms (e.g. random forests) which easily digest many fea- tures can largely increase learning speed. However, a full-fledged theory of feature construction is not yet available and forms a current barrier in machine learning. We discuss several ideas for systematic inclusion of feature construction. This may lead to partly self-configuring machine learning solutions which show robustness, flexibility, and fast learning in potentially changing environments.; Comment: 12 pages...

New Optimisation Methods for Machine Learning

Defazio, Aaron
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 08/10/2015
Relevância na Pesquisa
66.33%
A thesis submitted for the degree of Doctor of Philosophy of The Australian National University. In this work we introduce several new optimisation methods for problems in machine learning. Our algorithms broadly fall into two categories: optimisation of finite sums and of graph structured objectives. The finite sum problem is simply the minimisation of objective functions that are naturally expressed as a summation over a large number of terms, where each term has a similar or identical weight. Such objectives most often appear in machine learning in the empirical risk minimisation framework in the non-online learning setting. The second category, that of graph structured objectives, consists of objectives that result from applying maximum likelihood to Markov random field models. Unlike the finite sum case, all the non-linearity is contained within a partition function term, which does not readily decompose into a summation. For the finite sum problem, we introduce the Finito and SAGA algorithms, as well as variants of each. For graph-structured problems, we take three complementary approaches. We look at learning the parameters for a fixed structure, learning the structure independently, and learning both simultaneously. Specifically...

Twitter Sentiment Analysis: Lexicon Method, Machine Learning Method and Their Combination

Kolchyna, Olga; Souza, Tharsis T. P.; Treleaven, Philip; Aste, Tomaso
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Relevância na Pesquisa
66.34%
This paper covers the two approaches for sentiment analysis: i) lexicon based method; ii) machine learning method. We describe several techniques to implement these approaches and discuss how they can be adopted for sentiment classification of Twitter messages. We present a comparative study of different lexicon combinations and show that enhancing sentiment lexicons with emoticons, abbreviations and social-media slang expressions increases the accuracy of lexicon-based classification for Twitter. We discuss the importance of feature generation and feature selection processes for machine learning sentiment classification. To quantify the performance of the main sentiment analysis methods over Twitter we run these algorithms on a benchmark Twitter dataset from the SemEval-2013 competition, task 2-B. The results show that machine learning method based on SVM and Naive Bayes classifiers outperforms the lexicon method. We present a new ensemble method that uses a lexicon based sentiment score as input feature for the machine learning approach. The combined method proved to produce more precise classifications. We also show that employing a cost-sensitive classifier for highly unbalanced datasets yields an improvement of sentiment classification performance up to 7%.; Comment: 32 pages...

An Easy to Use Repository for Comparing and Improving Machine Learning Algorithm Usage

Smith, Michael R.; White, Andrew; Giraud-Carrier, Christophe; Martinez, Tony
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Relevância na Pesquisa
66.37%
The results from most machine learning experiments are used for a specific purpose and then discarded. This results in a significant loss of information and requires rerunning experiments to compare learning algorithms. This also requires implementation of another algorithm for comparison, that may not always be correctly implemented. By storing the results from previous experiments, machine learning algorithms can be compared easily and the knowledge gained from them can be used to improve their performance. The purpose of this work is to provide easy access to previous experimental results for learning and comparison. These stored results are comprehensive -- storing the prediction for each test instance as well as the learning algorithm, hyperparameters, and training set that were used. Previous results are particularly important for meta-learning, which, in a broad sense, is the process of learning from previous machine learning results such that the learning process is improved. While other experiment databases do exist, one of our focuses is on easy access to the data. We provide meta-learning data sets that are ready to be downloaded for meta-learning experiments. In addition, queries to the underlying database can be made if specific information is desired. We also differ from previous experiment databases in that our databases is designed at the instance level...

MILJS : Brand New JavaScript Libraries for Matrix Calculation and Machine Learning

Miura, Ken; Mano, Tetsuaki; Kanehira, Atsushi; Tsuchiya, Yuichiro; Harada, Tatsuya
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 20/02/2015
Relevância na Pesquisa
66.34%
MILJS is a collection of state-of-the-art, platform-independent, scalable, fast JavaScript libraries for matrix calculation and machine learning. Our core library offering a matrix calculation is called Sushi, which exhibits far better performance than any other leading machine learning libraries written in JavaScript. Especially, our matrix multiplication is 177 times faster than the fastest JavaScript benchmark. Based on Sushi, a machine learning library called Tempura is provided, which supports various algorithms widely used in machine learning research. We also provide Soba as a visualization library. The implementations of our libraries are clearly written, properly documented and thus can are easy to get started with, as long as there is a web browser. These libraries are available from http://mil-tokyo.github.io/ under the MIT license.