Página 1 dos resultados de 514 itens digitais encontrados em 0.082 segundos

Evidence-based software engineering: systematic literature review process based on visual text mining; Engenharia de software baseada em evidências: processo de revisão sistemática de literatura baseado em mineração visual de texto

Scannavino, Katia Romero Felizardo
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 15/05/2012 PT
Relevância na Pesquisa
75.91%
Context: Systematic literature review (SLR) is a methodology used to aggregate all relevant evidence of a specific research question. One of the activities associated with the SLR process is the selection of primary studies. The process used to select primary studies can be arduous, particularly when the researcher faces large volumes of primary studies. Another activity associated with an SLR is the presentation of results of the primary studies that meet the SLR purpose. The results are generally summarized in tables and an alternative to reduce the time consumed to understand the data is the use of graphic representations. Systematic mapping (SM) is a more open form of SLR used to build a classification and categorization scheme of a field of interest. The categorization and classification activities in SM are not trivial tasks, since they require manual effort and domain of knowledge by reviewers to achieve adequate results. Although clearly crucial, both SLR and SM processes are time-consuming and most activities are manually conducted. Objective: The aim of this research is to use Visual Text Mining (VTM) to support different activities of SLR and SM processes, e.g., support the selection of primary studies, the presentation of results of an SLR and the categorization and classification of an SM. Method: Extensions to the SLR and SM processes based on VTM were proposed. A series of case studies were conducted to demonstrate the usefulness of the VTM techniques in the selection...

Classificação de textos com redes complexas; Using complex networks to classify texts

Amancio, Diego Raphael
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 29/10/2013 PT
Relevância na Pesquisa
85.94%
A classificação automática de textos em categorias pré-estabelecidas tem despertado grande interesse nos últimos anos devido à necessidade de organização do número crescente de documentos. A abordagem dominante para classificação é baseada na análise de conteúdo dos textos. Nesta tese, investigamos a aplicabilidade de atributos de estilo em tarefas tradicionais de classificação, usando a modelagem de textos como redes complexas, em que os vértices representam palavras e arestas representam relações de adjacência. Estudamos como métricas topológicas podem ser úteis no processamento de línguas naturais, sendo a tarefa de classificação apoiada por métodos de aprendizado de máquina, supervisionado e não supervisionado. Um estudo detalhado das métricas topológicas revelou que várias delas são informativas, por permitirem distinguir textos escritos em língua natural de textos com palavras distribuídas aleatoriamente. Mostramos também que a maioria das medidas de rede depende de fatores sintáticos, enquanto medidas de intermitência são mais sensíveis à semântica. Com relação à aplicabilidade da modelagem de textos como redes complexas, mostramos que existe uma dependência significativa entre estilo de autores e topologia da rede. Para a tarefa de reconhecimento de autoria de 40 romances escritos por 8 autores...

Classificação automática de texto por meio de similaridade de palavras: um algoritmo mais eficiente.; Automatic text classification using word similarities: a more efficient algorithm.

Catae, Fabricio Shigueru
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 08/01/2013 PT
Relevância na Pesquisa
95.97%
A análise da semântica latente é uma técnica de processamento de linguagem natural, que busca simplificar a tarefa de encontrar palavras e sentenças por similaridade. Através da representação de texto em um espaço multidimensional, selecionam-se os valores mais significativos para sua reconstrução em uma dimensão reduzida. Essa simplificação lhe confere a capacidade de generalizar modelos, movendo as palavras e os textos para uma representação semântica. Dessa forma, essa técnica identifica um conjunto de significados ou conceitos ocultos sem a necessidade do conhecimento prévio da gramática. O objetivo desse trabalho foi determinar a dimensionalidade ideal do espaço semântico em uma tarefa de classificação de texto. A solução proposta corresponde a um algoritmo semi-supervisionado que, a partir de exemplos conhecidos, aplica o método de classificação pelo vizinho mais próximo e determina uma curva estimada da taxa de acerto. Como esse processamento é demorado, os vetores são projetados em um espaço no qual o cálculo se torna incremental. Devido à isometria dos espaços, a similaridade entre documentos se mantém equivalente. Esta proposta permite determinar a dimensão ideal do espaço semântico com pouco esforço além do tempo requerido pela análise da semântica latente tradicional. Os resultados mostraram ganhos significativos em adotar o número correto de dimensões.; The latent semantic analysis is a technique in natural language processing...

Aplicação de redes neurais na classificação de rentabilidade futura de empresas

Matsumoto, Élia Yathie
Fonte: Fundação Getúlio Vargas Publicador: Fundação Getúlio Vargas
Tipo: Dissertação
Relevância na Pesquisa
75.81%
Este trabalho tem por motivação evidenciar a eficiência de redes neurais na classificação de rentabilidade futura de empresas, e desta forma, prover suporte para o desenvolvimento de sistemas de apoio a tomada de decisão de investimentos. Para serem comparados com o modelo de redes neurais, foram escolhidos o modelo clássico de regressão linear múltipla, como referência mínima, e o de regressão logística ordenada, como marca comparativa de desempenho (benchmark). Neste texto, extraímos dados financeiros e contábeis das 1000 melhores empresas listadas, anualmente, entre 1996 e 2006, na publicação Melhores e Maiores – Exame (Editora Abril). Os três modelos foram construídos tendo como base as informações das empresas entre 1996 e 2005. Dadas as informações de 2005 para estimar a classificação das empresas em 2006, os resultados dos três modelos foram comparados com as classificações observadas em 2006, e o modelo de redes neurais gerou o melhor resultado.

Sistema adaptativo neural para compressão sequencial e classificação de textos

Ricken, Cristina Elisabeth
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Dissertação de Mestrado Formato: 251 f.| il., grafs., tabs.
POR
Relevância na Pesquisa
76.03%
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Engenharia de Produção, Florianópolis, 2001.; O contexto de crescente disponibilidade de informação textual em formato digital evidencia a importância de mecanismos de compactação de dados sem perda e de classificação automática de textos para a gestão de informações. Esta dissertação apresenta um novo sistema para compressão de dados sem perda, utilizando uma rede neural artificial baseada na Teoria da Ressonância Adaptativa (Adaptive Resonance Theory - ART) para modelagem preditiva de seqüências discretas. Uma rede fuzzy ARTMAP modificada gera modelos para estimações probabilísticas e é integrada a um codificador aritmético. O sistema adaptativo neural de compressão desenvolvido realiza o aprendizado incremental dos padrões observados nas seqüências apresentadas, executando a compactação seqüencial e a descompactação exata de seqüências discretas sem conhecimento prévio da estrutura estatística da fonte das mensagens. O sistema foi testado diante de uma base de dados pública para benchmark (formada por arquivos binários e de texto) para avaliação de seu desempenho em relação a compactadores de texto tradicionais...

Método fuzzy para a sumarização automática de texto com base em um modelo extrativo (FSumm)

Goularte, Fábio Bif
Fonte: Universidade Federal de Santa Catarina Publicador: Universidade Federal de Santa Catarina
Tipo: Dissertação de Mestrado Formato: 117 p.| il., grafs., tabs.
POR
Relevância na Pesquisa
75.88%
Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2015.; A sumarização automática de texto procura condensar o conteúdo do documento, extraindo as informações mais relevantes. Esse processo normalmente é executado através de métodos computacionais que incorporam o método estatístico e o linguístico. O rápido desenvolvimento das tecnologias emergentes e a crescente quantidade de informação disponível inserem novos desafios para esta área de pesquisa. Um desses desafios está na identificação das sentenças mais informativas no momento da geração do sumário. Como a tarefa de sumarizar informações de texto traz consigo a incerteza inerente à linguagem natural, a lógica fuzzy pode ser aplicada nessa tarefa para contribuir nos resultados gerados. Portanto, esta dissertação propõe um método de sumarização automática de texto utilizando a lógica fuzzy para a classificação das sentenças. O método foi desenvolvido por meio da técnica de sumarização extrativa ao qual se associam tarefas de Recuperação de Informação (RI) e de Processamento de Linguagem Natural (PLN). Para a avaliação deste método...

Verificação de texto manuscrito em dispositivos móveis

Guerin Júnior, Nilson Donizete
Fonte: Universidade de Brasília Publicador: Universidade de Brasília
Tipo: Dissertação
POR
Relevância na Pesquisa
75.75%
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciências da Computação, 2015.; O reconhecimento biométrico pode ser definido como a ciência de estabelecer a identidade de um indivíduo baseado nas características físicas e/ou comportamentais da pessoa seja de maneira totalmente automática seja de forma semiautomática. Um sistema biométrico tem dois tipos de funcionalidades: a verificação e a identificação. Na verificação, o usuário afirma sua identidade e o sistema verifica se a afirmação é genuína. A identificação diz respeito a apontar uma identidade, dentre todas as cadastradas no sistema, para uma amostra de entrada. A biometria tem vantagens sobre abordagens baseadas em tokens ou conhecimento de informações (por exemplo, uma senha). Isto porque tokens podem ser perdidos e o conhecimento pode ser esquecido. O reconhecimento de escritor baseado em texto é uma das áreas mais ativas na biometria, dentre as biometrias comportamentais. Tanto as abordagens online quanto offline tem sido estudadas em trabalhos anteriores. Mas quando se refere ao tipo de texto usado, o reconhecimento de assinatura tem atraído muito mais atenção do que abordagens baseadas em outros tipos de escrita...

A sentence-based information retrieval system for biomedical corpora; Recuperação de informação baseada em frases para textos biomédicos

Nunes, Tiago Santos Barata
Fonte: Universidade de Aveiro Publicador: Universidade de Aveiro
Tipo: Dissertação de Mestrado
ENG
Relevância na Pesquisa
75.75%
O desenvolvimento de novos métodos experimentais e tecnologias de alto rendimento no campo biomédico despoletou um crescimento acelerado do volume de publicações científicas na área. Inúmeros repositórios estruturados para dados biológicos foram criados ao longo das últimas décadas, no entanto, os utilizadores estão cada vez mais a recorrer a sistemas de recuperação de informação, ou motores de busca, em detrimento dos primeiros. Motores de pesquisa apresentam-se mais fáceis de usar devido à sua flexibilidade e capacidade de interpretar os requisitos dos utilizadores, tipicamente expressos na forma de pesquisas compostas por algumas palavras. Sistemas de pesquisa tradicionais devolvem documentos completos, que geralmente requerem um grande esforço de leitura para encontrar a informação procurada, encontrando-se esta, em grande parte dos casos, descrita num trecho de texto composto por poucas frases. Além disso, estes sistemas falham frequentemente na tentativa de encontrar a informação pretendida porque, apesar de a pesquisa efectuada estar normalmente alinhada semanticamente com a linguagem usada nos documentos procurados, os termos usados são lexicalmente diferentes. Esta dissertação foca-se no desenvolvimento de técnicas de recuperação de informação baseadas em frases que...

Utilização de Informação Linguística na classificação de documentos em Língua Portuguesa

Gonçalves, Teresa
Fonte: Universidade de Évora Publicador: Universidade de Évora
Tipo: Tese de Doutorado Formato: 1948148 bytes; application/pdf
ENG
Relevância na Pesquisa
75.87%
As Tecnologias de Informação actuais e os serviços baseados na Web necessitam de gerir, seleccionar e filtrar quantidades crescentes de informação textual. A classificação de textos permite aos utilizadores, através da navegação sobre hierarquias de classes, consultar mais facilmente o conjunto de textos do seu interesse. Este paradigma é muito eficaz tanto na filtragem de informação como no desenvolvimento de serviços online dirigidos para o utilizador. Como a quantidade de documentos envolvidos nestas aplicações é grande, são necessárias aproximações eficientes e automáticas de classificação. Os modelos padrão de Aprendizagem Automática utilizam a representação saco-de-palavras para induzir a função objectivo de classificação, onde as únicas características do documento são estatísticas sobre as suas palavras. As estruturas da linguagem típicas, como a morfologia, a sintaxe e a semântica são completamente ignoradas no processo de aprendizagem. Por outro lado, a quase totalidade de estudos tem sido realizada sobre textos escritos na língua Inglesa. Esta tese examina o papel das diversas estruturas linguísticas na classificação de textos, aplicando o estudo à língua Portuguesa. Define-se uma arquitectura modular para a tarefa de classificação de documentos que permite seleccionar o nível de informação linguística utilizado e propõe-se uma representação e um algoritmo de aprendizagem adequados para a informação semântica. A experimentação mostra que utilizando informação morfológica os resultados podem ser superiores aos da representação padrão e que as estruturas semânticas utilizadas possuem um poder discriminante sobre as classes equivalente ao das estruturas morfológicas.

Procura de padrões em documentos para extracção e classificação de informação

Ferreira, João Carlos Godinho
Fonte: Instituto Politécnico de Lisboa Publicador: Instituto Politécnico de Lisboa
Tipo: Dissertação de Mestrado
Publicado em /11/2008 POR
Relevância na Pesquisa
75.94%
A limitada capacidade dos computadores em processar documentos de texto e consequente di culdade de extracção de informação desses documentos deve-se à dificuldade de processamento de informação não-estruturada. De modo a reduzir essa limitação é necessário aumentar a estrutura dos documentos com que os computadores trabalham. Este trabalho propõe um modelo de classificação de documentos através de um processo de refinamento sucessivo da informação. A cada iteração a informação presente no documento é melhor caracterizada através da aplicação de um classi cador apropriado. O processo de classificação recorre a informação estatística, usando o modelo de classificação de Bayes, sobre documentos ou fragmentos de documentos. O processo de classificação também recorre a técnicas para especificação de padrões de texto, usando expressões regulares para extrair informação que exibe um padrão conhecido. A informação obtida é armazenada em XML, que permite a interrogação de colecções de documentos de modo automático (recorrendo a bases de dados de suporte nativo XML). O XML também é usado para transformar a informação original noutros formatos, como por exemplo o HTML. Este formato pode ser usado para sintetizar a informação de modo melhorar a sua apresentação.

Classificação de informação usando ontologias; Information classification using ontologies

Silva, Eunice Palmeira da
Fonte: Universidade Federal de Alagoas; BR; Modelagem Computacional de Conhecimento; Programa de Pós-Graduação em Modelagem Computacional de Conhecimento; UFAL Publicador: Universidade Federal de Alagoas; BR; Modelagem Computacional de Conhecimento; Programa de Pós-Graduação em Modelagem Computacional de Conhecimento; UFAL
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
75.94%
Although the positive aspects that Internet possesses and the potential it permits, there is a problematic that consists on finding needed pieces of information among the deluge of available documents on the web. Tools that are able to semantically treat the information contained in the documents which follows a structure only focused on data presentation are still lacking. The MASTER-Web system solves the problem of integrated extraction of content-pages that belong to classes which form a cluster. In this context, we propose the extension of this tool to the scientific articles classification based on ontologies. To achieve this goal, an ontology for the Artificial Intelligence domain was constructed and rule-based classification strategies were adopeted. The approach presented here employs this ontology and textual classification techniques to extract useful pieces of information from the articles in order to infer to which themes it is about. This combination led to significative results: e.g. in the texts, the system is able to identify the specific subdivisions of AI and entails conclusions, distinguishing correctlly the themes of the articles from the ones that are briefiy mentioned in the texts. The application of simple techniques and a detailed ontology lead to promising classification results...

Class-test: classificação automática de testes para auxíio à criação de suítes de teste

de Souza Lima, Leonardo; de Almeida Barros, Flávia (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
75.81%
Este trabalho apresenta o Class-Test, uma ferramenta idealizada para auxiliar os profissionais de testes na criação de suítes de testes extensas. Em geral, as suítes de testes devem conter um determinado número de testes de cada tipo (e.g., testes negativos, testes de fronteira, testes de interação, etc), número este fixado pelo engenheiros/designers de testes da empresa. Um dos maiores problemas enfrentados pelos testadores para montar essas suítes é o tempo gasto na categorização manual dos testes pré-selecionados para compor suítes extensas (com 1.000 testes, por exemplo). O Class-Test é uma ferramenta para classificação automática de casos de testes, que visa diminuir o esforço e o tempo gasto no processo de categorização dos testes. A ferramenta foi construída com base em técnicas de Aprendizagem de Máquina, em particular, da área de Categorização de Texto. Três classificadores automáticos foram construídos utilizando-se um corpus composto por 879 casos de testes, com a distribuição de 191 casos de testes do tipo Fronteira (Test Boundary), 338 do tipo Negativo (Test Negative), e 350 do tipo interação (Test Interaction). Cada classificador é especializado em apenas um desses três tipos de teste. Foi necessário criar três classificadores porque alguns casos de teste podem ser associados a mais de uma classe de teste ao mesmo tempo. Foram realizados dois estudos de casos. O primeiro estudo teve como objetivo avaliar...

Um sistema de extração de informação em referências bibliográficas baseado em aprendizagem e máquina

Fraga do Amaral e Silva, Eduardo; de Almeida Barros, Flávia (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
75.81%
Existe atualmente uma gigantesca quantidade de informações disponibilizada em formato de texto na Internet e nas redes das grandes corporações. Essas informações encontram-se em um formato não estruturado, dificilmente manipulável por programas de computador. A Extração de Informação (EI) tem como objetivo transformar documentos textuais em um formato estruturado, mapeando a informação contida em um documento em uma estrutura tabular. Tal estrutura é mais facilmente tratável por programas de computador, possibilitando assim a sua utilização por variadas aplicações inteligentes . Dentro da Inteligência Artificial, vemos duas abordagens para tratar o problema da EI: os sistemas baseados em conhecimento e a aprendizagem automática. O trabalho apresentado tem como objetivo a construção de um sistema para extrair informações a partir de textos contendo citações científicas (ou referências bibliográficas) através de uma abordagem baseada em aprendizagem automática. Dentre as diversas técnicas existentes, escolhemos tratar o problema através de uma abordagem híbrida, que combina o uso de técnicas de classificação de textos com os Modelos de Markov Escondidos (HMM). Esta combinação mostrou resultados superiores aos obtidos usando exclusivamente as técnicas de classificação e sua idéia básica é gerar com o uso das técnicas de classificação de textos para EI uma saída inicial para o sistema e refiná-la depois por meio de um HMM. Experimentos realizados com um conjunto de teste contendo 3000 referências resultaram em uma precisão de 87...

Sistemas inteligentes híbridos para classificação de texto

Pereira Rodrigues, Joseane; de Almeida Barros, Flávia (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
116.03%
Grande parte da informação contida em repositórios digitais, como a Web e as Bibliotecas Digitais, está representada em formato de documentos de texto. Sistemas de Recuperação de Informação têm sido usados para prover acesso a documentos relevantes armazenados nesses repositórios. No entanto, esses sistemas ainda apresentam limitações a serem superadas. Muitos dos problemas desses sistemas têm sido tratados usando técnicas de classificação de texto oriundas da Inteligência Artificial (em especial os algoritmos de Aprendizado de Máquina). Cada técnica apresenta vantagens e limitações, considerando os conjuntos de textos em que são aplicadas. Este trabalho investigou técnicas de combinação de classificadores de texto, em especial, técnicas baseadas em Boosting. Essas técnicas tentam superar as limitações dos classificadores sendo combinados, mantendo suas vantagens individuais, e assim apresentando um melhor desempenho nas tarefas em que são aplicados. Trabalhos anteriores apontam problemas em aberto em relação ao uso de métodos de combinação para classificadores de texto. Assim, esperamos neste projeto avançar o estado da arte sobre o tema. No trabalho realizado, implementamos uma variação de Boosting proposta na literatura que usa informações de vizinhança...

Segmentação de texto em imagens de mapas e plantas baixas antigos

Machado, Saulo Cadete Santos; Mello, Carlos Alexandre Barros de (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
BR
Relevância na Pesquisa
85.94%
Documentos antigos podem conter informações importantes para o desenvolvimento de trabalhos atuais. Mapas e plantas baixas históricos podem representar a cultura artística e tecnológica do momento em que foram criados. A qualidade e quantidade de suas informações justificam esforços para mantê-los e garantir a disponibilidade desses documentos. O primeiro passo para alcançar isso é a digitalização. Mas é necessário um processamento automático para que o documento seja pesquisável sem a custosa indexação manual. Ferramentas comuns de reconhecimento automático de caracteres têm dificuldade em reconhecer o texto de imagens de mapas e plantas baixas. Além do desgaste do papel provocado pelo tempo e manuseio, esses documentos possuem muitos elementos gráficos, como desenhos de rios e paredes, que ocupam a maior parte da imagem e podem até colidir com componentes textuais. Esse texto pode ser de diferentes estilos, tamanhos e orientações. Para facilitar a o reconhecimento de texto pelas ferramentas de reconhecimento automático, é importante remover os componentes gráficos da imagem antes de submetê-la ao processo de reconhecimento. Trabalhos recentes sobre segmentação de texto em imagens de mapas e plantas baixas usam regras definidas especialmente para as características das imagens que esperam. Esta dissertação apresenta uma nova abordagem para segmentar texto em imagens de mapas e plantas baixas. O método é divido em três etapas. A primeira é o pré-processamento em que o plano de fundo e alguns componentes gráficos são removidos. A segunda etapa é a de classificação em que são utilizados classificadores baseados em Máquinas de Vetores de Suporte treinados para identificar caracteres e sequências de caracteres. Por fim...

PairClassif-um método para classificação de sentimentos baseado em pares

Silva, Nelson Gutemberg Rocha da; Barros, Flavia de Almeida (Orientadora)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
BR
Relevância na Pesquisa
75.78%
Na última década, a Internet tem crescido de forma surpreendente, tornando-se uma das maiores bases de informações do mundo. Com o surgimento e o rápido cresci-mento de Blogs, Fóruns e Redes Sociais, milhões de usuários tornam públicas suas opi-niões sobre os mais diversos assuntos. Esse tipo de informação é de grande auxílio para pessoas e empresas na hora de tomar uma decisão. Contudo, toda essa informação está dispersa na Web, em formato livre, tornando impraticável a análise manual dessas opiniões com o objetivo de se obter o “sentimento geral” acerca de um produto ou serviço. Automatizar essa tarefa é a me-lhor alternativa. Porém, interpretar textos em formato livre não é uma tarefa trivial para o computador, devido às irregularidades e à ambiguidade inerentes às línguas naturais. Nesse contexto, estão surgindo sistemas que tratam as opiniões de forma auto-mática utilizando-se dos conceitos da área de Análise de Sentimentos (AS), também conhecido por Mineração de Opinião. A AS se preocupa em classificar opiniões expres-sas em textos, com respeito a um determinado produto ou serviço, como positivas ou negativas. Muitos trabalhos foram propostos na área de Análise Sentimentos, porém...

Inductive inference for large scale text classification

Silva, Catarina Helena Branco Simões da
Fonte: Universidade de Coimbra Publicador: Universidade de Coimbra
Tipo: Tese de Doutorado
ENG
Relevância na Pesquisa
76.08%
Nas últimas décadas a disponibilidade e importância dos textos em formato digital tem vindo a aumentar exponencialmente, encontrando-se neste momento presentes em quase todos os aspectos da vida moderna. A classificação de textos é deste modo uma área activa de investigação, justificada por muitas aplicações reais. Ainda assim, lidar com a sobrecarga de textos em formato digital envolve desafios inerentes, nomeadamente as elevadas dimensionalidade e escala, necessárias para representar os textos, a dificuldade de introduzir conhecimento humano no processo de aprendizagem e subjectividade da classificação. Nesta tese propomos novas técnicas para lidar de um modo eficiente com tais desafios com base num sistema de inferência indutiva. Descrevemos a aplicação de máquinas baseadas em kernels à classificação automática de documentos e estabelecemos uma framework que integra conhecimento de forma a melhorar o desempenho do sistema. Uma fonte importante de conhecimento em classificação de texto são os textos não classificados, normalmente menos onerosos e mais simples d obter do que os já classificados. Investigamos vários métodos baseados na margem de classificação e fazemos uso do seu potencial. Mostramos que os melhoramentos propostos integram novo conhecimento nos procedimentos de aprendizagem e apresentamos melhorias em relação ao desempenho de base. Métodos baseados em kernels...

Classificação multi-etiqueta hierárquica de textos segundo a taxonomia ACM

Santos, António Paulo Gomes dos
Fonte: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto Publicador: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
Tipo: Dissertação de Mestrado
Publicado em //2008 POR
Relevância na Pesquisa
86.08%
Mestrado em Engenharia Informática; Muitos dos trabalhos de classificação existentes na literatura, envolvem a atribuição a cada instância (exemplo) de uma única classe, de entre um conjunto pré-definido de classes normalmente pequeno e organizado de forma plana. Porém, existem problemas de classificação mais complexos, em que a cada instância é possível atribuir mais do que uma classe, podendo as classes, estar organizadas numa estrutura hierárquica. Para estes problemas, existe um conjunto de abordagens para lidar com o facto de uma instância poder pertencer a mais do que uma classe (classificação multi-etiqueta). Existem também abordagens para lidar com a organização hierárquica das classes (classificação hierárquica). Esta dissertação, apresenta um estudo das abordagens e conceitos de classificação multi-etiqueta e hierárquica, aplicados à classificação de documentos de texto. Trata-se, portanto, de um problema de classificação, em que as instâncias são documentos de texto, que podem pertencer a mais do que uma classe e estas encontram-se organizadas hierarquicamente. Nos problemas de classificação de texto, uma fase importante, é o pré-processamento dos documentos. Um processo transformativo...

Modelo de representação de texto mais adequado à classificação

Alves, Alexandra Isabel Magalhães
Fonte: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto Publicador: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
Tipo: Dissertação de Mestrado
Publicado em //2010 POR
Relevância na Pesquisa
96.09%
Mestrado em Engenharia Informática; A área de text mining, mais especificamente a classificação de texto, é alvo de muito trabalho e avanços nos últimos anos. Esta área tornou-se cada vez mais importante com a evolução da tecnologia e assume grande relevância na actual sociedade de informação. Um dos problemas ainda presente nesta área baseia-se na classificação de texto para categorias que representam conceitos muito próximos e difíceis de distinguir quando se considera o modelo tradicional do “saco de palavras” (bag-of-word). Estes problemas surgem sobretudo quando se classifica texto referente a um mesmo tema, como por exemplo: respostas em texto livre dadas por alunos ao responder a perguntas abertas, comentários a um mesmo filme, etc. Neste trabalho, é apresentado um estudo sobre todo o processo de classificação de texto que permite avaliar as tarefas e fases mais importantes para a definição de uma metodologia útil para o problema enunciado. A abordagem adoptada neste trabalho baseou-se na ideia de que os resultados da classificação podem melhorar caso se considerem representações de texto mais elaboradas que o simples modelo bag-of-words. Foram então criados diversos modelos de representação dos documentos - envolvendo os modelos de bag-of-words...

Automatic email organization

Gabriel, Ludimila Luiza de Lima
Fonte: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto Publicador: Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto
Tipo: Dissertação de Mestrado
Publicado em //2009 ENG
Relevância na Pesquisa
66.03%
Introdução Actualmente, as mensagens electrónicas são consideradas um importante meio de comunicação. As mensagens electrónicas – vulgarmente conhecidas como emails – são utilizadas fácil e frequentemente para enviar e receber o mais variado tipo de informação. O seu uso tem diversos fins gerando diariamente um grande número de mensagens e, consequentemente um enorme volume de informação. Este grande volume de informação requer uma constante manipulação das mensagens de forma a manter o conjunto organizado. Tipicamente esta manipulação consiste em organizar as mensagens numa taxonomia. A taxonomia adoptada reflecte os interesses e as preferências particulares do utilizador. Motivação A organização manual de emails é uma actividade morosa e que consome tempo. A optimização deste processo através da implementação de um método automático, tende a melhorar a satisfação do utilizador. Cada vez mais existe a necessidade de encontrar novas soluções para a manipulação de conteúdo digital poupando esforços e custos ao utilizador; esta necessidade, concretamente no âmbito da manipulação de emails, motivou a realização deste trabalho. Hipótese O objectivo principal deste projecto consiste em permitir a organização ad-hoc de emails com um esforço reduzido por parte do utilizador. A metodologia proposta visa organizar os emails num conjunto de categorias...