Página 1 dos resultados de 17772 itens digitais encontrados em 0.018 segundos

Perfil evolutivo da fluência da fala de falantes do português brasileiro; Speech fluency developmental profile in brazilian Portuguese speakers

MARTINS, Vanessa de Oliveira; ANDRADE, Claudia Regina Furquim de
Fonte: Pró-Fono Produtos Especializados para Fonoaudiologia Ltda. Publicador: Pró-Fono Produtos Especializados para Fonoaudiologia Ltda.
Tipo: Artigo de Revista Científica
POR
Relevância na Pesquisa
36.81%
TEMA: a fluência de fala varia de indivíduo para indivíduo, fluente ou gago, dependendo de diversos fatores. Estudos que investigam a influência da idade nos padrões de fluência foram identificados, mas em grupos etários isolados. Estudos sobre a variação da fluência da fala ao longo da vida não foram localizados. OBJETIVO: verificar o perfil evolutivo da fluência da fala. MÉTODO: foram analisadas amostras de fala de 594 participantes fluentes, de ambos os gêneros com idades entre 2:0 e 99:11 anos, falantes do Português Brasileiro, agrupado em: pré-escolares, escolares, adolescência inicial, adolescência final, adultos e idosos. As amostras de fala foram analisadas a partir das variáveis do Perfil da Fluência da Fala e comparadas quanto a: tipologia das rupturas (disfluências comuns e gagas), velocidade de fala (em palavras e sílabas por minuto) e freqüência das rupturas (porcentagem de descontinuidade de fala). RESULTADOS: ao longo das idades não houve diferença estatisticamente significante para os índices de ruptura (disfluências comuns e gagas e porcentagem de descontinuidade de fala), embora tenham sido identificadas algumas variações isoladas. Já para velocidade de fala observa-se diferença estatisticamente significante entre os grupos. CONCLUSÃO: a maturação do sistema neurolingüístico para a fluência...

Variação da fluência da fala em falantes do português brasileiro: quatro estudos; Variations in speech fluency of Brazilian Portuguese speakers: four study

Martins, Vanessa de Oliveira
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 11/07/2007 PT
Relevância na Pesquisa
36.81%
A fluência de fala varia de indivíduo para indivíduo, fluente ou gago, dependendo de diversos fatores. O objetivo desta Tese foi verificar a variação da fluência da fala em falantes do Português Brasileiro. Participaram deste estudo 594 indivíduos fluentes, 336 do gênero feminino e 258 do gênero masculino com idades entre 2:0 e 99:11 anos, residentes na cidade de São Paulo. As variáveis da fluência analisadas foram: tipologia das rupturas, velocidade de fala e porcentagem de descontinuidade de fala. Esta Tese foi dividida em quatro estudos. O primeiro estudo teve como objetivo verificar o perfil evolutivo da fluência da fala. De acordo com os resultados o padrão de rupturas de fala não sofre grande variabilidade entre os grupos etários, enquanto que a velocidade de fala varia ao longo das fases da vida, podendo indicar aquisição, desenvolvimento, estabilização e degeneração. O segundo estudo teve como objetivo conhecer a variação da fluência segundo o gênero e as fases da adolescência (adolescência inicial - 12 a 14 anos; e adolescência final - 5 a 17 anos). Os gêneros não se diferenciam para nenhuma das variáveis analisadas, enquanto que as fases da adolescência se diferenciam quanto a todas as variáveis. Ocorre uma diminuição nas rupturas de fala e um aumento na velocidade de fala com o aumento da idade. O terceiro estudo teve como objetivo verificar a influência do gênero e do nível de escolaridade (fundamental...

A produção da fala nas diferentes modalidades de reabilitação oral; Speech production in different oral rehabilitation modalities

Rodrigues, Lidiane Cristina Barraviera
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 16/09/2008 PT
Relevância na Pesquisa
36.79%
Estudou-se a fala de idosos submetidos a diferentes modalidades de reabilitação oral para verificar se o tipo de modalidade interferiu na produção da fala. Após aprovação do Comitê de Ética em Pesquisa, 36 idosos (média=68 anos) foram avaliados, formando-se 3 grupos: 13 com dentes naturais no mínimo até o 2º pré-molar (A) e outros dois grupos de desdentados reabilitados, sendo um com 13 usuários de prótese total mucosossuportada superior e inferior (B) e outro com 10 usuários de prótese total mucosossuportada superior e implantossuportada inferior (C). Excluíram-se casos com histórico de doenças neurológica, oncológica da região da cabeça e pescoço e psiquiátrica; realização de cirurgia laríngea; etilismo; usuários de medicamentos que causasse xerostomia; malformação craniofacial, má oclusão e disfunção velofaríngea; dificuldade auditiva ou usuário de Aparelho de Amplificação Sonora Individual e alteração cognitiva. A estabilidade das próteses foi avaliada por um cirurgião-dentista e amostras de fala foram registradas e analisadas por 5 fonoaudiólogos, orientados a: identificar articulação exagerada ou fechada, redução dos movimentos labiais e falta de controle salivar na fala espontânea; determinar a freqüência de alteração dos fones na análise da repetição de vocábulos e frases para o cálculo da Porcentagem de Consoantes Corretas (PCC); e a detectar troca de ponto articulatório...

Fala espontânea e leitura oral no português do Brasil: comparação por meio de análise acústica; Spontaneous speech and oral reading in portuguese of Brazil: comparison by means of acoustic analysis

Silva, Carmen Lucianna Miranda e
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 13/04/2009 PT
Relevância na Pesquisa
36.81%
A fala espontânea, também nomeada como discurso espontâneo, compõe a investigação de várias pesquisas nas áreas da fonética e da fonologia. Pesquisas relevantes na área podem ser observadas no Journal of the International Phonetic Association (JIPA), referência base para a nossa pesquisa e publicação onde constam estudos que investigam diferentes línguas nos aspectos fonético- acústicos da fala espontânea. O objetivo geral desta pesquisa é investigar aspectos fonético-acústicos da fala espontânea no português do Brasil e comparar a leitura oral tendo como justificativa principal o desafio que este estudo propõe diante da escassez de pesquisas em relação à fala espontânea com o português do Brasil. Nossas hipóteses basearam-se em estudos de alguns autores que estudaram a fala espontânea em diferentes línguas, como Barry e Andreeva; Shriberg (2001) e que chegaram a algumas definições para fala espontânea. Segundo esses autores, a fala espontânea se opõe ao discurso lido por ser uma fala despreparada e não treinada, além de apresentar duração de discurso mais longa e maior ocorrência de disfluência do que a leitura oral. Barry e Andreeva (2001) destacam também mudanças na prosódia, já que a função das palavras é diferente em cada uma dessas modalidades de fala. A partir destes trabalhos...

Funcionamento velofaríngeo com e sem prótese de palato após palatoplastia; Velopharyngeal function with and without speech bulb after palatoplasty

Rodrigues, Raquel
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 30/06/2011 PT
Relevância na Pesquisa
36.81%
Introdução: Indivíduos com fissura palatina podem apresentar disfunção velofaríngea após palatoplastia primária e assim, necessitarem de um procedimento secundário. Nestes casos, a prótese de palato pode ser utilizada temporariamente enquanto aguarda-se a cirurgia, além de funcionar como uma ferramenta diagnóstica ou mesmo terapêutica. Objetivo: Este estudo teve como objetivo comparar a ressonância de fala, nas condições com e sem prótese de palato. Material e Método: A casuística do estudo foi composta por 30 pacientes (15 do sexo feminino e 15 de masculino), com fissura labiopalatina operada que foram submetidos à palatoplastia primária entre 9 e 18 meses de idade. Todos permaneceram com insuficiência velofaríngea após a palatoplastia primária e estavam temporariamente utilizando prótese de palato enquanto aguardavam melhora do funcionamento velofaríngeo para definição de procedimento cirúrgico para reparo da insuficiência. Os pacientes faziam uso de prótese de palato há, pelo menos, 6 meses e, no momento da avaliação estavam com idades entre 6 e 14 anos (Média = 9 anos). O funcionamento velofaríngeo foi avaliado por meio do Teste de Hipernasalidade e do julgamento perceptivoauditivo por ouvintes da ocorrência (presença/ausência) da hipernasalidade de fala...

Audição e inteligibilidade da fala de crianças após 10 anos da cirurgia de implante coclear; Audition and speech intelligibility in children after ten years of cochlear implant surgery

Tanamati, Liège Franzini
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 09/01/2012 PT
Relevância na Pesquisa
36.8%
As habilidades comunicativas de crianças portadoras de deficiência auditiva (DA) pré-lingual, submetidas à cirurgia do implante coclear (IC) desenvolvem-se ao longo dos anos de uso do dispositivo. O objetivo deste trabalho foi estudar o desempenho alcançado por adolescentes e jovens adultos com, no mínimo, dez anos de experiência com o IC, em relação à audição e à inteligibilidade de fala e, considerando o tipo de DA, o tempo de privação sensorial auditiva e o tipo de dispositivo. Participaram deste estudo, 61 adolescentes e jovens adultos portadores de DA pré-lingual, que receberam diferentes tipos de IC em média, aos 3 anos e 10 meses de idade. Reconhecimento da lista de palavras dissílabas, Teste Hint adaptativo e reconhecimento das sentenças Hint no silêncio e no ruído foram os procedimentos utilizados para avaliar o desempenho de audição. A inteligibilidade da fala dos participantes foi avaliada por dois julgadores sem experiência com deficientes auditivos, usando o método de transcrição e a escala de inteligibilidade de 5 pontos. Após 10 anos de experiência com o IC, 53 participantes (86,9%) alcançaram habilidade de reconhecimento auditivo em conjunto aberto. Os resultados médios obtidos na lista de palavras dissílabas foram de 49...

Alterações de fala em escolares : ocorrencia, identificação e condutas adotadas; Speech disorders in scholars : occurrences, identification and proceeding

Marcia Regina da Silva
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 18/02/2008 PT
Relevância na Pesquisa
36.79%
O objetivo desta pesquisa foi verificar a prevalência das alterações de fala em escolares do Ensino Fundamental, saber o que os professores desses alunos pensam sobre as possíveis interferências das alterações de fala na vida das pessoas e que condutas tomam ao identificar tais alterações. Participaram 523 escolares de 1a a 4a série de uma escola estadual da Cidade de São Paulo, com os quais foi realizada uma avaliação fonoaudiológica para a coleta da fala, bem como foi verificada a percepção desses enquanto falantes. Participaram, ainda, 28 professores desses mesmos escolares, dos quais solicitou-se a identificação dos alunos que eles achassem que apresentavam problemas de fala. Esses professores também responderam a um questionário dizendo o que pensavam sobre as alterações de fala e que condutas tomavam quando identificavam o problema. Esta pesquisa demonstrou que o índice de alteração de fala nessa população de escolares é elevado, predominando as alterações do tipo distorção. A percepção de possíveis erros na fala do próprio falante (aluno) é mais acurada do que a percepção do professor. Tanto alunos, como professores, identificam um número menor de alterações de fala quando comparado com a avaliação fonoaudiológica. Todos os professores acreditam que as alterações de fala interferem negativamente na vida da pessoa e referem encaminhar alunos com dificuldades de fala para o fonoaudiólogo; The purpose of this research was to verify the prevalence of speech disorders in students of elementary school...

Spectral multi-normalisation for robust speech recognition

Lima, C. S.; Almeida, Luís B.; Tavares, Adriano; Silva, Carlos A.
Fonte: ISCA. International Speech Communication Association Publicador: ISCA. International Speech Communication Association
Tipo: Conferência ou Objeto de Conferência
Publicado em 13/04/2003 ENG
Relevância na Pesquisa
46.69%
This paper presents an improved version of a spectral normalisation based method for extraction of speech robust features in additive noise. The baseline normalisation method was developed by taking into consideration that, while the speech regions with less energy need more robustness, since in these regions the noise is more dominant, the “peaked” spectral regions which are the most reliable due to the higher speech energy must also be preserved as much as possible by the feature extraction process. The additive noise effect tends to flatten the “peaked” spectral zones while the spectral zones of less energy are usually raised. The algorithm proposed in this paper showed to alleviate the noise effect by emphasising the voiced nature of the speech signal by raising the spectral “peaks”, which are “flatten” by the noise effect. The clean speech database is assumed as lightly contaminated, the additive noise is estimated in a frame by frame basis and then used to restore both the “peaked” and the flat spectral zones of the speech spectrum.

Education or Promotion?: Industry-Sponsored Continuing Medical Education (CME) as a Center for the Core/Commercial Speech Debate

Chen, Peggy
Fonte: Harvard University Publicador: Harvard University
Tipo: Paper (for course/seminar/workshop)
EN_US
Relevância na Pesquisa
36.81%
Because of its importance to determining drug usage, information has always been an important part of the regulation of prescription drugs. The Food and Drug Administration (FDA) and the pharmaceutical industry are in a continuous battle over the dissemination of product information. This paper focuses on one of the battlegrounds on the speech issue, industry sponsorship of continuing medical education (CME). The FDA’s guidance on regulating industry-sponsored CME bans speech about off-label uses at CME and requires that other speech presented be truthful, non-misleading and fairly balanced. This guidance raises First Amendment issues, in particular because the speech presented at CME, although arguably commercial speech, appears at first glance to be core scientific speech meriting the highest constitutional protection. This paper first provides a background on the FDA’s regulatory authority over promotional activities, looking at the FDA’s authority to approve drugs, to declare drugs misbranded due to lack of adequate directions for use, and to regulate the labeling and advertising of drugs. Next, it discusses the Washington Legal Foundation cases, brought to challenge the CME guidance as an unconstitutional restriction on speech because it bans speech about off-label uses. It examines the district court’s holdings that industry-sponsored CME speech is commercial speech...

Representation of speech-like sounds in the discharge patterns of auditory-nerve fibers.

Delgutte, Bertrand
Fonte: Massachusetts Institute of Technology. Publicador: Massachusetts Institute of Technology.
Tipo: Outros Formato: 1641776 bytes; 243 leaves.; application/pdf
EN_US
Relevância na Pesquisa
46.48%
Thesis (Ph.D.)—Massachusetts Institute of Technology, Dept. of Electrical Engineering and Computer Science, 1981.; Includes bibliographical references (p. 233-242).; This electronic version was scanned from a copy of the thesis on file at the Speech Communication Group. The certified thesis is available in the Institute Archives and Special Collections.; National Institutes of Health (No. NS04332 and No. NS13126). C.J. Lebel Fellowship. Grass Instruments Corporation Fellowship.

Relationships among speech perception, production, language, hearing loss, and age in children with impaired hearing

Blamey, P.; Sarant, J.; Paatsch, L.; Barry, J.; Bow, C.; Wales, R.; Wright, M.; Psarros, C.; Rattigan, K.; Tooher, R.
Fonte: Amer Speech-Language-Hearing Assoc Publicador: Amer Speech-Language-Hearing Assoc
Tipo: Artigo de Revista Científica
Publicado em //2001 EN
Relevância na Pesquisa
46.73%
Eighty-seven primary-school children with impaired hearing were evaluated using speech perception, production, and language measures over a 3-year period. Forty-seven children with a mean unaided pure-tone-average hearing loss of 106 dB HL used a 22-electrode cochlear implant, and 40 with a mean unaided puretone-average hearing loss of 78 dB HL were fitted with hearing aids. All children were enrolled in oral/aural habilitation programs, and most attended integrated classes with normally hearing children for part of the time at school. Multiple linear regression was used to describe the relationships among the speech perception, production, and language measures, and the trends over time. Little difference in the level of performance and trends was found for the two groups of children, so the perceptual effect of the implant is equivalent, on average, to an improvement of about 28 dB in hearing thresholds. Scores on the Peabody Picture Vocabulary Test (PPVT) and the Clinical Evaluation of Language Fundamentals showed an upward trend at about 60% of the rate for normally hearing children. Rates of improvement for individual children were not correlated significantly with degree of hearing loss. The children showed a wide scatter about the average speech production score of 40% of words correctly produced in spontaneous conversations...

Lautdiskrimination natürlicher und akustisch modifizierter Sprache bei Kindern mit Lese-Rechtschreibstörung; Speech sound discrimination of natural and acoustically modified speech in dyslexic children

Wannke, Michael
Fonte: Universidade de Tubinga Publicador: Universidade de Tubinga
Tipo: Dissertação
DE_DE
Relevância na Pesquisa
36.79%
In der Forschungsliteratur sind ätiologische Modelle vorgeschlagen worden, die Defizite der auditiv-zeitlichen Verarbeitung akustischer Reize als eine wesentliche Ursache von Sprachentwicklungsstörungen betrachten. In Erweiterung dieser Modelle sollen auch Störungen des Erwerbs schriftsprachlicher Kompetenzen, insbesondere die Lese-Rechtschreibstörung, durch derartige Defizite verursacht werden. Auf dieser Grundlage wurden akustische Sprachmodifikationen entwickelt, die Sprachsignale so modifizieren sollen, daß etwaige Störungen der auditiv-zeitlichen Verarbeitung kompensiert und dadurch insbesondere die Wahrnehmung und Verarbeitung von Sprachlauten verbessert werden sollen. Üblicherweise umfassen diese akustischen Modifikationen eine zeitliche Dehnung als auch eine spezifische Betonung einzelner Komponenten der Hüllkurve der Sprachsignale. Bisherige Trainingsstudien legen bereits nahe, daß ein Training mit akustisch modifizierter Sprache zumindest bei einigen Kindern den Lernfortschritt gegenüber gleichen Trainingsmaßnahmen mit unmodifizierter Sprache beschleunigen könnte. In der hier vorliegenden Untersuchung konnte nun gezeigt werden, daß die vorgeschlagenen akustischen Modifikationen im direkten Vergleich zu unmodifizierter Sprache Lautunterscheidungsleistungen im Gegensatz zur ursprünglichen Annahme reduzieren. Dies betraf die hier untersuchten deutschsprachigen Kinder der 3. und 4. Grundschulklassen sowohl ohne als auch mit Lese-Rechschreibstörung. Die Kinder mit Lese-Rechtschreibstörung schnitten in Tests zur phonologischen Bewußtheit...

Band-pass filtering of the time sequences of spectral parameters for robust wireless speech recognition

Vicente-Peña, Jesús; Gallardo-Antolín, Ascensión; Peláez-Moreno, Carmen; Díaz-de-María, Fernando
Fonte: European Association for Signal Processing (EURASIP) : International Speech Communication Association (ISCA); Elsevier Publicador: European Association for Signal Processing (EURASIP) : International Speech Communication Association (ISCA); Elsevier
Tipo: Artigo de Revista Científica Formato: application/pdf
Publicado em //2006 ENG; ENG
Relevância na Pesquisa
46.64%
In this paper we address the problem of automatic speech recognition when wireless speech communication systems are involved. In this context, three main sources of distortion should be considered: acoustic environment, speech coding and transmission errors. Whilst the first one has already received a lot of attention, the last two deserve further investigation in our opinion. We have found out that band-pass filtering of the recognition features improves ASR performance when distortions due to these particular communication systems are present. Furthermore, we have evaluated two alternative configurations at different bit error rates (BER) typical of these channels: band-pass filtering the LP-MFCC parameters or a modification of the RASTA-PLP using a sharper low-pass section perform consistently better than LP-MFCC and RASTA-PLP, respectively.

A Comparison of Open-Source Segmentation Architectures for Dealing with Imperfect Data from the Media in Speech Synthesis

Gallardo-Antolín, Ascensión; Montero, Juan Manuel; King, Simon
Fonte: International Speech Communication Association Publicador: International Speech Communication Association
Tipo: info:eu-repo/semantics/publishedVersion; info:eu-repo/semantics/bookPart; info:eu-repo/semantics/conferenceObject
Publicado em //2014 ENG
Relevância na Pesquisa
46.64%
Traditional Text-To-Speech (TTS) systems have been developed using especially-designed non-expressive scripted recordings. In order to develop a new generation of expressive TTS systems in the Simple4All project, real recordings from the media should be used for training new voices with a whole new range of speaking styles. However, for processing this more spontaneous material, the new systems must be able to deal with imperfect data (multi-speaker recordings, background and fore-ground music and noise), filtering out low-quality audio segments and creating mono-speaker clusters. In this paper we compare several architectures for combining speaker diarization and music and noise detection which improve the precision and overall quality of the segmentation.; This work has been carried out during the research stay of A. Gallardo-Antolín and J. M. Montero at the Centre for Speech Technology Research (CSTR), University of Edinburgh, supported by the Spanish Ministry of Education, Culture and Sports under the National Program of Human Resources Mobility from the I+D+i 2008-2011 National Program, extended by agreement of the Council of Ministers in October 7th, 2011. The work leading to these results has received funding from the European Union under grant agreement No 287678. It has also been supported by EPSRC Programme Grant grant...

Blind Estimation of Perceptual Quality for Modern Speech Communications

Falk, Tiago
Fonte: Quens University Publicador: Quens University
Tipo: Tese de Doutorado Formato: 1412501 bytes; application/pdf
EN; EN
Relevância na Pesquisa
36.79%
Modern speech communication technologies expose users to perceptual quality degradations that were not experienced earlier with conventional telephone systems. Since perceived speech quality is a major contributor to the end user's perception of quality of service, speech quality estimation has become an important research field. In this dissertation, perceptual quality estimators are proposed for several emerging speech communication applications, in particular for i) wireless communications with noise suppression capabilities, ii) wireless-VoIP communications, iii) far-field hands-free speech communications, and iv) text-to-speech systems. First, a general-purpose speech quality estimator is proposed based on statistical models of normative speech behaviour and on innovative techniques to detect multiple signal distortions. The estimators do not depend on a clean reference signal hence are termed ``blind." Quality meters are then distributed along the network chain to allow for both quality degradations and quality enhancements to be handled. In order to improve estimation performance for wireless communications, statistical models of noise-suppressed speech are also incorporated. Next, a hybrid signal-and-link-parametric quality estimation paradigm is proposed for emerging wireless-VoIP communications. The algorithm uses VoIP connection parameters to estimate a base quality representative of the packet switching network. Signal-based distortions are then detected and quantified in order to adjust the base quality accordingly. The proposed hybrid methodology is shown to overcome the limitations of existing pure signal-based and pure link parametric algorithms. Temporal dynamics information is then investigated for quality diagnosis for hands-free speech communications. A spectro-temporal signal representation...

A Speech Enhancement System Based on Statistical and Acoustic-Phonetic Knowledge

Sudirga, RENITA
Fonte: Quens University Publicador: Quens University
Tipo: Tese de Doutorado Formato: 1611528 bytes; application/pdf
EN; EN
Relevância na Pesquisa
36.79%
Noise reduction aims to improve the quality of noisy speech by suppressing the background noise in the signal. However, there is always a tradeoff between noise reduction and signal distortion--more noise reduction is always accompanied by more signal distortion. An evaluation of the intelligibility of speech processed by several noise reduction algorithms in [23] showed that most noise reduction algorithms were not successful in improving the intelligibility of noisy speech. In this thesis, we aim to utilize acoustic-phonetic knowledge to enhance the intelligibility of noise-reduced speech. Acoustic-phonetics studies the characteristics of speech and the acoustic cues that are important for speech intelligibility. We considered the following questions: what is the noise reduction algorithm that we should use, what are the acoustic cues that should be targeted, and how to incorporate this information into the design of the noise reduction system. A Bayesian noise reduction method similar to the one proposed by Ephraim and Malah in [16] is employed. We first evaluate the goodness-of-fit of several parametric PDF models to the empirical speech data. For classified speech, we find that the Rayleigh and Gamma. with a fixed shape parameter of 5...

Incorporación de información suprasegmental en el proceso de reconocimiento automático del habla; Incorporation of suprasegmental information into automatic speech recognition process

Evin, Diego Alexis
Fonte: Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires Publicador: Facultad de Ciencias Exactas y Naturales. Universidad de Buenos Aires
Tipo: info:eu-repo/semantics/doctoralThesis; tesis doctoral; info:eu-repo/semantics/publishedVersion Formato: application/pdf
Publicado em //2011 SPA
Relevância na Pesquisa
36.79%
Desarrollar sistemas informáticos capaces de interactuar con sus usuarios de la forma más natural y eficiente posible es uno de los requisitos esenciales para lograr la integración del mundo tecnológico en la so- ciedad. En ese marco el habla se presenta como una de las formas de comu- nicación más eficientes y naturales que posee el ser humano. Es por ello que desde el origen mismo de la investigación en ciencias de la computación, el desarrollo de interfaces hombre-máquina a través de la voz ha despertado un gran interés. Uno de los elementos que componen dicha interfaz oral es el Re- conocimiento Automático del Habla (RAH), área de la Inteligencia Artificial que busca desarrollar sistemas computacionales capaces de transformar un fragmento de habla en su trascripción textual. El RAH es un problema de gran complejidad, lo que se puede atri- buir principalmente a dos factores: en primer lugar a la variabilidad de la señal de habla, que responde a múltiples factores como caracte- rísticas particulares del locutor y medio acústico donde se registra, la velocidad y estilos de elocución; y en segundo lugar a la necesidad de encontrar palabras individuales en un continuo acústico, es decir realizar al mismo tiempo las tareas de segmentación y clasificación. Si bien se pueden encontrar en los últimos años avances significa- tivos en el desempeño de los sistemas de RAH...

Unsupervised intralingual and cross-lingual speaker adaptation for HMM-based speech synthesis using two-pass decision tree construction

Gibson, Matthew; Byrne, William
Fonte: IEEE Transactions on Audio, Speech and Language Processing Publicador: IEEE Transactions on Audio, Speech and Language Processing
Tipo: Article; accepted version
Relevância na Pesquisa
46.67%
Hidden Markov model (HMM)-based speech synthesis systems possess several advantages over concatenative synthesis systems. One such advantage is the relative ease with which HMM-based systems are adapted to speakers not present in the training dataset. Speaker adaptation methods used in the field of HMM-based automatic speech recognition (ASR) are adopted for this task. In the case of unsupervised speaker adaptation, previous work has used a supplementary set of acoustic models to estimate the transcription of the adaptation data. This paper firstly presents an approach to the unsupervised speaker adaptation task for HMM-based speech synthesis models which avoids the need for such supplementary acoustic models. This is achieved by defining a mapping between HMM-based synthesis models and ASR-style models, via a two-pass decision tree construction process. Secondly, it is shown that this mapping also enables unsupervised adaptation of HMM-based speech synthesis models without the need to perform linguistic analysis of the estimated transcription of the adaptation data. Thirdly, this paper demonstrates how this technique lends itself to the task of unsupervised cross-lingual adaptation of HMM-based speech synthesis models, and explains the advantages of such an approach. Finally...

Autoregressive HMMs for speech synthesis

Shannon, Matt; Byrne, William
Fonte: ISCA (International Speech Communication Association) Publicador: ISCA (International Speech Communication Association)
Tipo: Article; accepted version
EN
Relevância na Pesquisa
46.48%
We propose the autoregressive HMM for speech synthesis. We show that the autoregressive HMM supports efficient EM parameter estimation and that we can use established effective synthesis techniques such as synthesis considering global variance with minimal modification. The autoregressive HMM uses the same model for parameter estimation and synthesis in a consistent way, in contrast to the standard HMM synthesis framework, and supports easy and efficient parameter estimation, in contrast to the trajectory HMM. We find that the autoregressive HMM gives performance comparable to the standard HMM synthesis framework on a Blizzard Challenge-style naturalness evaluation.; This research was funded by the European Community's Seventh Framework Programme (FP7/2007-2013), grant agreement 213845 (EMIME).

Speech intelligibility estimation via neural networks

Knight, Stephen
Fonte: Rochester Instituto de Tecnologia Publicador: Rochester Instituto de Tecnologia
Tipo: Tese de Doutorado
EN_US
Relevância na Pesquisa
36.83%
Current methods of speech intelligibility estimation rely on the subjective judgements of trained listeners. Accurate and unbiased intelligibility estimates have a number of procedural and/or methodological constraints including the necessity for large pools of listeners and a wide variety of stimulus materials. Recent research findings however, have shown a strong relationship between speech intelligibility estimates and selected acoustic speech parameters which appear to determine the intelligibility of speech. These findings suggest that such acoustic speech parameters could be used to derive computer-based speech intelligibility estimation, obviating the procedural and methodological constraints typically associated with such estimates. The relationship between speech intelligibility estimates and acoustic speech parameters is complex and nonlinear in nature. Artificial neural networks have proven in general speech recognition that they are capable of dealing with complex and unspecified nonlinear relationships. The purpose of this study was to explore the possibility of using artificial neural networks to make speech intelligibility estimates. Sixty hearing-impaired speakers, whose measured speech intelligibility ranged from 0 to 99%...