Página 1 dos resultados de 37 itens digitais encontrados em 0.052 segundos

Extração de informação de artigos científicos: uma abordagem baseada em indução de regras de etiquetagem; Information extraction from scientific articles: an approach based on induction of tagging rules

Álvarez, Alberto Cáceres
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 08/05/2007 PT
Relevância na Pesquisa
66.1%
Este trabalho faz parte do projeto de uma ferramenta denominada FIP (Ferramenta Inteligente de Apoio à Pesquisa) para recuperação, organização e mineração de grandes coleções de documentos. No contexto da ferramenta FIP, diversas técnicas de Recuperação de Informação, Mineração de Dados, Visualização de Informações e, em particular, técnicas de Extração de Informações, foco deste trabalho, são usadas. Sistemas de Extração de Informação atuam sobre um conjunto de dados não estruturados e objetivam localizar informações específicas em um documento ou coleção de documentos, extraí-las e estruturá-las com o intuito de facilitar o uso dessas informações. O objetivo específico desenvolvido nesta dissertação é induzir, de forma automática, um conjunto de regras para a extração de informações de artigos científicos. O sistema de extração proposto, inicialmente, analisa e extrai informações presentes no corpo dos artigos (título, autores, a filiação, resumo, palavras chaves) e, posteriormente, foca na extração das informações de suas referências bibliográficas. A proposta para extração automática das informações das referências é uma abordagem nova, baseada no mapeamento do problema de part-of-speech tagging ao problema de extração de informação. Como produto final do processo de extração...

Extração de termos de manuais técnicos de produtos tecnológicos: uma aplicação em Sistemas de Adaptação Textual; Term extraction from technological products instruction manuals: an application in textual adaptation systems

Muniz, Fernando Aurélio Martins
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 28/04/2011 PT
Relevância na Pesquisa
96.02%
No Brasil, cerca de 68% da população é classificada como leitores com baixos níveis de alfabetização, isto é, possuem o nível de alfabetização rudimentar (21%) ou básico (47%), segundo dados do INAF (2009). O projeto PorSimples utilizou as duas abordagens de Adaptação Textual, a Simplificação e a Elaboração, para ajudar leitores com baixo nível de alfabetização a compreender documentos disponíveis na Web em português do Brasil, principalmente textos jornalísticos. Esta pesquisa de mestrado também se dedicou às duas abordagens acima, mas o foco foi o gênero de textos instrucionais. Em tarefas que exigem o uso de documentação técnica, a qualidade da documentação é um ponto crítico, pois caso a documentação seja imprecisa, incompleta ou muito complexa, o custo da tarefa ou até mesmo o risco de acidentes aumenta muito. Manuais de instrução possuem duas relações procedimentais básicas: a relação gera generation (quando uma ação gera automaticamente uma ação ), e a relação habilita enablement (quando a realização de uma ação permite a realização da ação , mas o agente precisa fazer algo a mais para garantir que irá ocorrer). O projeto aqui descrito, intitulado NorMan, estudou como as relações procedimentais gera e habilita são realizadas em manuais de instruções...

Construção automática de redes bayesianas para extração de interações proteína-proteína a partir de textos biomédicos; Learning Bayesian networks for extraction of protein-protein interaction from biomedical articles

Juárez, Pedro Nelson Shiguihara
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 20/06/2013 PT
Relevância na Pesquisa
76.07%
A extração de Interações Proteína-Proteína (IPPs) a partir de texto é um problema relevante na área biomédica e um desafio na área de aprendizado de máquina. Na área biomédica, as IPPs são fundamentais para compreender o funcionamento dos seres vivos. No entanto, o número de artigos relacionados com IPPs está aumentando rapidamente, sendo impraticável identicá-las e catalogá-las manualmente. Por exemplo, no caso das IPPs humanas apenas 10% foram catalogadas. Por outro lado, em aprendizado de máquina, métodos baseados em kernels são frequentemente empregados para extrair automaticamente IPPs, atingindo resultados considerados estado da arte. Esses métodos usam informações léxicas, sintáticas ou semânticas como características. Entretanto, os resultados ainda são insuficientes, atingindo uma taxa relativamente baixa, em termos da medida F, devido à complexidade do problema. Apesar dos esforços em produzir kernels, cada vez mais sofisticados, usando árvores sintáticas como árvores constituintes ou de dependência, pouco é conhecido sobre o desempenho de outras abordagens de aprendizado de máquina como, por exemplo, as redes bayesianas. As àrvores constituintes são estruturas de grafos que contêm informação importante da gramática subjacente as sentenças de textos contendo IPPs. Por outro lado...

Extração automática de termos simples baseada em aprendizado de máquina; Automatic simple term extraction based on machine learning

Laguna, Merley da Silva Conrado
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 06/05/2014 PT
Relevância na Pesquisa
136.39%
A Mineração de Textos (MT) visa descobrir conhecimento inovador nos textos não estruturados. A extração dos termos que representam os textos de um domínio é um dos passos mais importantes da MT, uma vez que os resultados de todo o processo da MT dependerão, em grande parte, da qualidade dos termos obtidos. Nesta tese, considera-se como termos as unidades lexicais realizadas para designar conceitos em um cenário tematicamente restrito. Para a extração dos termos, pode-se fazer uso de abordagens como: estatística, linguística ou híbrida. Normalmente, para a Mineração de Textos, são utilizados métodos estatísticos. A aplicação desses métodos é computacionalmente menos custosa que a dos métodos linguísticos, entretanto seus resultados são geralmente menos interpretáveis. Ambos métodos, muitas vezes, não são capazes de identificar diferenças entre termos e não-termos, por exemplo, os estatísticos podem não identificar termos raros ou que têm a mesma frequência de não-termos e os linguísticos podem não distinguir entre termos que seguem os mesmo padrões linguísticos dos não-termos. Uma solução para esse problema é utilizar métodos híbridos, de forma a combinar as estratégias dos métodos linguísticos e estatísticos...

A variação morfossintática na terminologia

Diegues, Cléo de Souza
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
65.95%
A presente pesquisa propõe um estudo acerca das variações lingüísticas presentes no âmbito das linguagens especializadas. Especificamente, realizou-se o estudo das variações denominativas, entendidas como formas linguísticas diferentes cujo significado é equivalente, em CLEs (Combinatórias Lexicais Especializadas), isto é, expressões linguísticas polilexicais, formadas por um núcleo terminológico e respectivos coocorrentes. Procedeu-se à classificação e consideração de todos os tipos de variações encontradas para tais combinatórias, a saber: gráfica, morfossintática, lexical e redução. O foco de análise, no entanto, esteve calcado na variação morfossintática. O objetivo da análise foi a busca de elementos contextuais que estivessem condicionando ou indicando a presença da variação morfossintática. A partir da detecção das causas da variação e posterior busca por elementos formais que refletissem tais causas, realizou-se a sistematização de tais elementos, com o intuito de fornecer subsídios para o estabelecimento de regras informatizadas que pudessem auxiliar na criação futura de um programa de extração automática de variações. A análise foi efetuada a partir de quatro corpora pertencentes às áreas de Cardiologia...

Extração de relações semanticas via análise de correlação de termos em documentos; Extracting semantic relations via analysis of correlated terms in documents

Sergio William Botero
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 12/12/2008 PT
Relevância na Pesquisa
56.07%
Sistemas de recuperação de informação são ferramentas para automatizar os procedimentos de busca por informações. Surgiram com propostas simples nas quais a recuperação era baseada exclusivamente na sintaxe das palavras e evoluíram para sistemas baseados na semântica das palavras como, por exemplo, os que utilizam ontologias. Entretanto, a especificação manual de ontologias é uma tarefa extremamente custosa e sujeita a erros humanos. Métodos automáticos para a construção de ontologias mostraram-se ineficientes, identificando falsas relações semânticas. O presente trabalho apresenta uma técnica baseada em processamento de linguagem natural e um novo algoritmo de agrupamento para a extração semi-automática de relações que utiliza o conteúdo dos documentos, uma ontologia de senso comum e supervisão do usuário para identificar corretamente as relações semânticas. A proposta envolve um estágio que utiliza recursos lingüísticos para a extração de termos e outro que utiliza algoritmos de agrupamento para a identificação de conceitos e relações semânticas de instanciação entre termos e conceitos. O algoritmo proposto é baseado em técnicas de agrupamento possibilístico e de bi-agrupamento e permite a extração interativa de conceitos e relações. Os resultados são promissores...

Equivalência conceitual na terminologia dos textos de bulas de medicamentos

Angotti, Mary Lourdes de Oliveira
Fonte: Universidade de Brasília Publicador: Universidade de Brasília
Tipo: Tese
PT_BR
Relevância na Pesquisa
65.88%
Tese(doutorado)—Universidade de Brasília, Instituto de Letras, Departamento de Linguística, Português e Línguas Classicas, Programa de Pós-Graduação em Linguística, 2007.; Foram objetivos centrais desta tese: (i) analisar os aspectos sociolingüísticos dos termos das bulas de medicamentos, sob a perspectiva funcionalista e (ii) elaborar um glossário com os termos mais recorrentes das bulas para os pacientes. O corpus foi constituído por 572 bulas direcionadas aos pacientes, do Compêndio de Bulas de Medicamentos, volumes I e II, publicados em versão impressa e disponibilizados no site da Anvisa. Quanto aos aspectos terminológicos, observou-se a recorrência de afixos e bases de origem culta (latim e grego) na formação das UTs, os quais foram analisados sob a perspectiva do Modelo Lexemático Funcional Martin Mingorance (1987), (1990) e (1995) e Dik (1990), (1993). Por meio do Contructo de (Faulstich, 2001) foi possível estabelecer critérios para classificar os textos de bulas em três estágios. Verificou-se a predominância das variantes competitivas nos textos em estágio + científico, das variantes coocorrentes nos textos + banalizados e das variantes concorrentes, especialmente a variante lexical e a variante de registro de discurso...

Extração automática de modelos de sistemas de tempo real

Carvalho, André Ribeiro de
Fonte: Universidade do Minho Publicador: Universidade do Minho
Tipo: Dissertação de Mestrado
Publicado em 14/12/2011 POR
Relevância na Pesquisa
65.76%
Dissertação de mestrado em Engenharia de Informática; Esta dissertação insere-se no contexto da investigação sobre verificação de programas de tempo-real. Tendo como principais referências o artigo de Alan Burns [10] e a dissertação de Joel Carvalho [16], introduz-se aqui uma ferramenta capaz de gerar automaticamente modelos Uppaal representativos de programas escritos em Ada. Através desses modelos, e com o auxílio do model checker do Uppaal é possível então verificar propriedades especificadas em lógica temporal, e dessa forma obter confiança quanto ao comportamento do sistema em termos temporais. Assim, ao longo desta dissertação irão ser apresentados todos os conceitos imprescindíveis na compressão do trabalho, bem como todos os pormenores do algoritmo desenvolvido. Por fim serão usados alguns casos de estudo para demonstrar as potencialidades da ferramenta desenvolvida.; The context of this master thesis dissertation is the verification of realtime programs. Taking as main references an article by Alan Burns [10] and a master’s dissertation by Joel Carvalho [16], we introduce here a tool that is able to automatically generate Uppaal models of Ada programs. With these models, it is possible to use the Uppaal model checker to verify properties specified in temporal logic...

A sentence-based information retrieval system for biomedical corpora; Recuperação de informação baseada em frases para textos biomédicos

Nunes, Tiago Santos Barata
Fonte: Universidade de Aveiro Publicador: Universidade de Aveiro
Tipo: Dissertação de Mestrado
ENG
Relevância na Pesquisa
65.86%
O desenvolvimento de novos métodos experimentais e tecnologias de alto rendimento no campo biomédico despoletou um crescimento acelerado do volume de publicações científicas na área. Inúmeros repositórios estruturados para dados biológicos foram criados ao longo das últimas décadas, no entanto, os utilizadores estão cada vez mais a recorrer a sistemas de recuperação de informação, ou motores de busca, em detrimento dos primeiros. Motores de pesquisa apresentam-se mais fáceis de usar devido à sua flexibilidade e capacidade de interpretar os requisitos dos utilizadores, tipicamente expressos na forma de pesquisas compostas por algumas palavras. Sistemas de pesquisa tradicionais devolvem documentos completos, que geralmente requerem um grande esforço de leitura para encontrar a informação procurada, encontrando-se esta, em grande parte dos casos, descrita num trecho de texto composto por poucas frases. Além disso, estes sistemas falham frequentemente na tentativa de encontrar a informação pretendida porque, apesar de a pesquisa efectuada estar normalmente alinhada semanticamente com a linguagem usada nos documentos procurados, os termos usados são lexicalmente diferentes. Esta dissertação foca-se no desenvolvimento de técnicas de recuperação de informação baseadas em frases que...

Uso de sintagmas nominais na classificação automática de documentos eletrônicos

Maia,Luiz Cláudio; Souza,Renato Rocha
Fonte: Escola de Ciência da Informação da UFMG Publicador: Escola de Ciência da Informação da UFMG
Tipo: Artigo de Revista Científica Formato: text/html
Publicado em 01/04/2010 PT
Relevância na Pesquisa
65.86%
Esta pesquisa verificou se ocorre aprimoramento na classificação de documentos eletrônicos com o uso de técnicas e algoritmos de mineração de texto (análise de texto) utilizando-se, além das palavras, sintagmas nominais como indexadores. Utilizaram-se duas ferramentas nos experimentos propostos desta pesquisa o OGMA e a WEKA. O OGMA foi desenvolvido pelos autores para automatizar a extração dos sintagmas nominas e o cálculo do peso de cada termo na indexação dos documentos para cada um dos seis métodos propostos. A WEKA foi utilizada para analisar os resultados encontrados pelo OGMA utilizando aos algoritmos de agrupamento e classificação, SimpleKMeans e NaiveBayes, respectivamente, obtendo um valor percentual indicando quantos documentos foram classificados corretamente. Os métodos com melhores resultados foram o de termos sem stopwords e o de sintagmas nominais classificados e pontuados como descritores.

Extração automática de candidatos a termos para criação de um mapa conceitual do domínio de intensificação agropecuária.

SHIRATORI, F. H.; OLIVEIRA, L. H. M. de.
Fonte: Campinas: EMBRAPA-CNPTIA, 2009. Publicador: Campinas: EMBRAPA-CNPTIA, 2009.
Tipo: Resumo em anais de congresso (ALICE)
PT_BR
Relevância na Pesquisa
75.88%
O objetivo deste trabalho é extrair automaticamente os candidatos a termos de um córpus do domínio Intensificação Agropecuária, para subsidiar e facilitar a criação de um mapa conceitual deste domínio.; 2009; Trabalho apresentado na V Mostra de Trabalhos de Estagiários e Bolsistas, Campinas, out. 2009.

Construíndo ontologias de domínio: o (re)conhecimento da intensificação agropecuária no Brasil.

PIEROZZI JUNIOR, I.; OLIVEIRA, L. H. M. de; SOUZA, K. X. S. de.
Fonte: In: SEMINÁRIO DE PESQUISA EM ONTOLOGIA NO BRASIL, 3., 2010, Florianopólis. Glossários, taxonomias e tesauros enriquecendo as ontologias: anais... Florianópolis: UFSC, 2010. Publicador: In: SEMINÁRIO DE PESQUISA EM ONTOLOGIA NO BRASIL, 3., 2010, Florianopólis. Glossários, taxonomias e tesauros enriquecendo as ontologias: anais... Florianópolis: UFSC, 2010.
Tipo: Artigo em anais de congresso (ALICE) Formato: p. 100-108.
PT_BR
Relevância na Pesquisa
95.84%
Em seus projetos de PD&I, a Embrapa necessita integrar informações oriundas dos mais variados domínios de conhecimento, visando soluções para os inúmeros problemas que afetam a atividade agrícola nacional. No caso do entendimento da intensificação agropecuária, observada em algumas regiões produtoras de commodities agrícolas, propõe-se o desenvolvimento de estudos terminológicos como suporte ao processo de organização, disseminação e apropriação do conhecimento, tanto pela comunidade científica como pelos usuários das tecnologias, serviços e produtos da Embrapa. Nesse contexto, o presente artigo relata o desenvolvimento de um trabalho de construção de um mapa conceitual focado no tema da intensificação agropecuária. Esse trabalho tem como suporte o uso de ferramentas computacionais e tecnologias de informação para tratamento semi-automático dos termos e construção de taxonomia e ontologia específicas.; 2010; ONTOBRASIL 2010.

Indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa

Silva, Tiago José da; Corrêa, Renato Fernandes (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Dissertação
BR
Relevância na Pesquisa
96.24%
Objetiva fazer um levantamento do estado da arte da indexação automática por sintagmas nominais para textos em português. Para tanto, identifica e sintetiza os fundamentos teóricos, metodologias e ferramentas da indexação automática por meio da extração e seleção de sintagmas nominais em textos em língua portuguesa, levando em conta publicações científicas nas áreas da Ciência da Informação, Ciência da Computação, Terminologia e Linguística. Discute as metodologias para indexação automática através de sintagmas nominais em textos em língua portuguesa, no intuito de apontar critérios para extração e seleção de sintagmas que possam ser usados como descritores documentais. Avalia e compara ferramentas de extração automática de sintagmas nominais como o parser PALAVRAS, OGMA e LX-Parser, usando como referência a extração manual de sintagmas nominais. Percebe que os trabalhos produzidos depois do ano de 2000 e que trabalham com a extração automática de termos fazem referências ao parser PALAVRAS, tendo-o como um bom etiquetador e analisador sintático. Na comparação entre as referidas ferramentas automáticas, percebe-se que apesar do LX-Parser ter tido melhor desempenho em alguns aspectos como extrair um maior número de SNs do que o PALAVRAS...

Análise elétrica de impedimentos programados de sistemas elétricos utilizando fluxo de potência e rough sets

Rodrigues, Rafael
Fonte: Universidade Federal do Paraná Publicador: Universidade Federal do Paraná
Tipo: Teses e Dissertações Formato: application/pdf
PORTUGUêS
Relevância na Pesquisa
65.86%
Resumo: O presente trabalho propõe uma metodologia de análise elétrica de impedimentos programados (AEIPs) que sistematiza os passos identificados em um sistema de apoio, reduzindo o esforço na execução dos estudos, agilizando e aumentando a segurança da operação do sistema elétrico a partir de uma base de conhecimentos de estudo. Conforme descrito na justificativa do presente estudo, as AEIPs são análises do sistema elétrico que visam avaliar as condições de operação do sistema. Ainda, se necessário, recomendam outras medidas de operação, considerando a topologia temporária que o sistema irá assumir por um período determinado para atender as demandas de desligamentos programados de equipamentos solicitados pelas áreas de manutenção, construção ou configurações provisórias do sistema devido a uma ocorrência de longa duração. No processo das AEIPs observa-se conceitos notáveis, como experiência prática, julgamento e eleição. Por essa razão, a utilização da teoria dos conjuntos aproximados (Rough Sets) foi considerada uma técnica adequada para abordar o assunto, pois apresenta grande potencial para avaliação de bases de dados de estudos elétricos e extração automática de regras para operação. A teoria dos Rough Sets tem sido cada vez mais explorada e aplicada em sistemas elétricos para a classificação e também para a eliminação de informações irrelevantes e se mostrou muito eficiente nas aplicações feitas nesta pesquisa. O objetivo da metodologia desenvolvida neste trabalho e aplicada nas AEIPs é extrair os principais atributos que caracterizam os pontos operativos dos equipamentos para...

"Avaliação de métodos para a extração automática de terminologia de textos em português"

Teline, Maria Fernanda
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 19/03/2004 PT
Relevância na Pesquisa
76.12%
Nas últimas décadas, o grande avanço da ciência e tecnologia com suas invenções, novos materiais, equipamentos e métodos gerou a necessidade da criação de novos nomes, chamados aqui de termos, e alterações nos seus significados, para nomear adequadamente esses avanços, principalmente em áreas dinâmicas como a Ciência da Computação, a Genética e a Medicina. Dado que o desenvolvimento de repertórios terminológicos é um trabalho difícil quando realizado manualmente, lingüistas computacionais, lingüistas aplicados, tradutores, intérpretes, jornalistas científicos têm se interessado pela extração automática de terminologias (EAT) de textos. O crescimento explosivo de dados do tipo texto disponíveis na Web foi um fator contribuinte para a facilidade na construção de córpus eletrônicos de textos técnicos e científicos, propiciando a implementação de métodos de EAT. A EAT tem sido de grande interesse para todos os tipos de aplicações do Processamento de Línguas Naturais (PLN) que trabalham com domínios especializados e que, conseqüentemente, necessitam de um vocabulário especial. O objetivo desse projeto de mestrado foi avaliar métodos de EAT para o português do Brasil, ainda carente do tratamento automatizado para a criação de terminologias. Especificamente...

Extração de tópicos baseado em agrupamento de regras de associação; Topic extraction based on association rule clustering

Santos, Fabiano Fernandes dos
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 29/05/2015 PT
Relevância na Pesquisa
56.16%
Uma representação estruturada dos documentos em um formato apropriado para a obtenção automática de conhecimento, sem que haja perda de informações relevantes em relação ao formato originalmente não-estruturado, é um dos passos mais importantes da mineração de textos, pois a qualidade dos resultados obtidos com as abordagens automáticas para obtenção de conhecimento de textos estão fortemente relacionados à qualidade dos atributos utilizados para representar a coleção de documentos. O Modelo de Espaço de Vetores (MEV) é um modelo tradicional para obter uma representação estruturada dos documentos. Neste modelo, cada documento é representado por um vetor de pesos correspondentes aos atributos do texto. O modelo bag-of-words é a abordagem de MEV mais utilizada devido a sua simplicidade e aplicabilidade. Entretanto, o modelo bag-of-words não trata a dependência entre termos e possui alta dimensionalidade. Diversos modelos para representação dos documentos foram propostos na literatura visando capturar a informação de relação entre termos, destacando-se os modelos baseados em frases ou termos compostos, o Modelo de Espaço de Vetores Generalizado (MEVG) e suas extensões, modelos de tópicos não-probabilísticos...

Análise do desempenho de extratores automáticos de candidatos a termos: proposta metodológica para tratamento de filtragem dos dados

Teixeira, Rosana de Barros Silva e
Fonte: Universidade de São Paulo. Faculdade de Filosofia, Letras e Ciências Humanas Publicador: Universidade de São Paulo. Faculdade de Filosofia, Letras e Ciências Humanas
Tipo: info:eu-repo/semantics/article; info:eu-repo/semantics/publishedVersion; ; Formato: application/pdf
Publicado em 04/12/2011 POR
Relevância na Pesquisa
96.11%
This article aims to present one aspect of the masters dissertation entitled (Onco)mastology terms: a corpus-mediated approach (2011). This work will explore one of the goals that guided the study, namely, verifying the success rates of four computational tools for automatic extraction of term candidates: Corpógrafo 4.0, WordSmith Tools 3.0, e-Termos and ZExtractor. Two corpora were used in the investigation: the study corpus (MAMAtex), with a total of 563,482 words, and a reference corpus (Banco de Português 1.0), with 125,927,624 words. The first, which is specialized, consists of some of the genres of scientific discourse, of scientific dissemination and instruction in (Onco)mastology, while the second, a generallanguage text, includes various genres. Two approaches were chosen to support this analysis from the theoretical and methodological standpoint: the Communicative Theory of Terminology (CABRÉ 1993) and Corpus Linguistics (SINCLAIR 1991; BERBER SARDINHA 2004, 2005). As revealed by the data, Corpógrafo 4.0 ranks highest, with 27.56% accuracy, followed by ZExtractor (26.05%), WordSmith Tools 3.0 (21.77%) and e-Terms (14.44 %). In order to make feasible the examination of candidates, given that the lists generated by the programs included thousands of words...

Une méthode pour l'alignement de termes complexes plurilingues dans les textes spécialisés; Une Méthode pour l'alignement de termes complexes plurilingues dans les textes spécialisés

Ladouceur, Jacques; Cochrane, Guylaine; Miranda, Ligia Maria Café de
Fonte: Universidade de São Paulo. Faculdade de Filosofia, Letras e Ciências Humanas Publicador: Universidade de São Paulo. Faculdade de Filosofia, Letras e Ciências Humanas
Tipo: info:eu-repo/semantics/article; info:eu-repo/semantics/publishedVersion; ; Formato: application/pdf
Publicado em 18/12/1997 FRA
Relevância na Pesquisa
76.02%
Há já alguns anos, diversos pesquisadores vieram a se interessar pela extração e exploração de conhecimentos contidos em córpus de traduções, entendendo constituir esse um meio de fornecer ao tradutor ferramentas para a identificação de equivalentes interlinguais. A exploração de traduções representa, no entanto, um problema, na medida em que os equivalentes não são redigidos espontaneamente; ora, o primeiro critério que o terminólogo leva em conta é a língua na qual foi redigido o documento que analisa (língua do original ou língua de tradução). Tal fato levou-nos a formular a seguinte indagação: seria possível identificar os equivalentes interlinguais a partir de textos originais em línguas distintas? A resposta é afirmativa. Tomando por base textos redigidos espontaneamente em francês, em inglês e em português, foi possível encontrar de forma rápida, e para um número significativo de termos complexos de uma das línguas, os equivalentes nas duas outras línguas. A única condição a ser respeitada é a utilização de textos que pertençam a um mesmo domínio e que tenham a mesma função comunicativa. A identificação pode ser efetuada em tempo real, com o auxílio de algumas ferramentas. No presente trabalho...

Análise de tendências da produção científica nacional na área de Ciência da Informação: estudo exploratório de mineração de textos; El análisis de tendencias de la producción científica brasileña en el área de Ciencia de la Información: una investigación exploratoria de minería de texto; Trend analysis of the Brazilian scientific production in Information Science area: a text mining exploratory study

Trucolo, Caio Cesar; Universidade de São Paulo - USP; Digiampietri, Luciano Antonio; Universidade de São Paulo - USP
Fonte: Mestrado Interdisciplinar em Ciência, Gestão e Tecnologia da Informação - UFPR Publicador: Mestrado Interdisciplinar em Ciência, Gestão e Tecnologia da Informação - UFPR
Tipo: info:eu-repo/semantics/article; info:eu-repo/semantics/publishedVersion; Artículo evaluado por pares; estudio cuantitativo; ; quantitative study; Avaliado pelos pares; Estudo quantitativo Formato: text/html; application/pdf; application/epub+zip
Publicado em 05/03/2015 POR
Relevância na Pesquisa
75.94%
Introdução: A análise de tendências pode ser utilizada como uma estratégia para identificar assuntos ou áreas de pesquisa com potencial de popularidade, mas que ainda não são disseminados amplamente. Este trabalho consiste em identificar tendências por mineração de texto e análise histórica das produções científicas (artigos científicos) de doutores da área de Ciência da Informação. Método: De natureza exploratória, este trabalho foi construído em três etapas. A primeira etapa foi a obtenção dos dados dos currículos cadastrados na plataforma Lattes. A segunda etapa consistiu na extração automática dos termos mais importantes inseridos nos títulos das publicações e, na terceira etapa foram feitas regressões lineares e não lineares dos índices de importância baseados em frequência dos termos extraídos. Resultados: Informações gerais sobre as tendências identificadas para a área de Ciência de Informação para curto, médio e longo prazo são apresentadas. Conclusão: Apresenta e aplica uma metodologia de identificação de tendências que ainda pode ser considerada um primeiro passo ante ao potencial da análise de tendências para a produção científica nacional. Além disso, informações gerais sobre as tendências identificadas e os comportamentos dessas tendências ao longo do tempo foram discutidas.; Introduction: Trend analysis can be used as a strategy to identify subjects or research areas with potential of popularity which are not very widespread. This work consists of trend identification by text mining and historic analysis of the scientific productions (scientific papers) of the Information Science area PhD s. Method: This work...

Indización y recuperación de tesis y disertaciones por medio de sintagmas nominales; Indexing and information retrieval of theses and dissertations through noun phrases; Indexação e recuperação de teses e dissertações por meio de sintagmas nominais

Corrêa, Renato Fernandes; Universidade Federal de Pernambuco - UFPE; Miranda, Darliane Goes de; Universidade Federal de Pernambuco - UFPE; Lima, Camila Oliveira de Almeida; Universidade Federal de Pernambuco - UFPE; Silva, Tiago José da; Universidade Fe
Fonte: Mestrado Interdisciplinar em Ciência, Gestão e Tecnologia da Informação - UFPR Publicador: Mestrado Interdisciplinar em Ciência, Gestão e Tecnologia da Informação - UFPR
Tipo: info:eu-repo/semantics/article; info:eu-repo/semantics/publishedVersion; Artículo evaluado por pares; ; ; ; Avaliado pelos pares; pesquisa empírica de campo Formato: text/html; application/pdf; application/epub+zip
Publicado em 01/06/2011 POR
Relevância na Pesquisa
56.21%
Introducción: Aborda la utilización de los sintagmas nominales en el proceso de indización automática de las tesis y las disertaciones depositadas en la Biblioteca Digital de Tesis y Disertaciones de UFPE (BDTD-UFPE), considerando la hipótesis de que los sintagmas nominales consistirían en una mejor unidad de conocimiento para la indización y recuperación de información, que términos aislados, permitiendo aumentar la satisfacción de las necesidades de información del usuario durante la búsqueda de información. Se discute sobre el estado del arte de los sintagmas nominales y de su extracción automática, tanto como de su aplicación en la indización automática y en la recuperación de información. Metodología: Tomando como base la herramienta para análisis de texto (OGMA), analiza la aplicación de la extracción de sintagmas nominales en la indización automática y recuperación de información de las tesis y disertaciones en el contexto de BDTD-UFPE. Con base en los resúmenes en el área de Derecho, Computación y Nutrición, se definieron los valores totales para cada una de las variables observadas, lo que permitió evaluar la extracción de sintagmas nominales a través de los porcentajes de precisión de los sintagmas nominales relevantes; la tasa de error al extraer las cadenas de caracteres que no constituyen sintagmas nominales...