Página 1 dos resultados de 221 itens digitais encontrados em 0.025 segundos

Uso de heurísticas para a aceleração do aprendizado por reforço.; Heuristically acelerated reinforcement learning.

Bianchi, Reinaldo Augusto da Costa
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 05/04/2004 PT
Relevância na Pesquisa
66.12%
Este trabalho propõe uma nova classe de algoritmos que permite o uso de heurísticas para aceleração do aprendizado por reforço. Esta classe de algoritmos, denominada "Aprendizado Acelerado por Heurísticas" ("Heuristically Accelerated Learning" - HAL), é formalizada por Processos Markovianos de Decisão, introduzindo uma função heurística H para influenciar o agente na escolha de suas ações, durante o aprendizado. A heurística é usada somente para a escolha da ação a ser tomada, não modificando o funcionamento do algoritmo de aprendizado por reforço e preservando muitas de suas propriedades. As heurísticas utilizadas nos HALs podem ser definidas a partir de conhecimento prévio sobre o domínio ou extraídas, em tempo de execução, de indícios que existem no próprio processo de aprendizagem. No primeiro caso, a heurística é definida a partir de casos previamente aprendidos ou definida ad hoc. No segundo caso são utilizados métodos automáticos de extração da função heurística H chamados "Heurística a partir de X" ("Heuristic from X"). Para validar este trabalho são propostos diversos algoritmos, entre os quais, o "Q-Learning Acelerado por Heurísticas" (Heuristically Accelerated Q-Learning - HAQL), que implementa um HAL estendendo o conhecido algoritmo Q-Learning...

Arquitetura híbrida inteligente para navegação autônoma de robôs; Intelligent hybrid architecture for robot autonomous navigation

Calvo, Rodrigo
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 09/03/2007 PT
Relevância na Pesquisa
66.09%
Este projeto consiste em um sistema de navegação autônomo baseado em redes neurais nebulosas modulares capacitando o robô a alcançar alvos, ou pontos metas, em ambientes desconhecidos. Inicialmente, o sistema não tem habilidade para a navegação, após uma fase de experimentos com algumas colisões, o mecanismo de navegação aprimora-se guiando o robô ao alvo de forma eficiente. Uma arquitetura híbrida inteligente é apresentada para este sistema de navegação, baseada em redes neurais artificiais e lógica nebulosa. A arquitetura é hierárquica e costitiui-se de dois módulos responsáveis por gerar comportamentos inatos de desvio de obstáculos e de busca ao alvo. Um mecanismo de aprendizagem por reforço, baseada em uma extensão da lei de Hebb, pondera os comportamentos inatos conflitantes ajustando os pesos sinápticos das redes neurais nos instantes de captura do alvo e de colisão contra obstáculos. A abordagem consolidada em simulação é validada em ambientes reais neste trabalho. Para tanto, este sistema foi implementado e testado no simulador Saphira, ambiente de simulação que acompanha o robô Pioneer I e que denota um estágio anterior aos testes em ambientes reais por apresentar comportamentos do robô similares aos comportamentos do robô móvel. Modificações na arquitetura híbrida foram necessárias para adaptar o sistema de navegação simulado ao sistema incorporado no Pioneer I. Experimentos em ambientes reais demonstraram a eficiência e a capacidade de aprendizagem do sistema de navegação...

Agente topológico de aprendizado por reforço; Topological reinforcement learning agent

Braga, Arthur Plínio de Souza
Fonte: Biblioteca Digitais de Teses e Dissertações da USP Publicador: Biblioteca Digitais de Teses e Dissertações da USP
Tipo: Tese de Doutorado Formato: application/pdf
Publicado em 07/04/2004 PT
Relevância na Pesquisa
86.4%
Os métodos de Aprendizagem por Reforço (AR) se mostram adequados para problemas de tomadas de decisões em diversos domínios por sua estrutura flexível e adaptável. Apesar de promissores, os métodos AR frequentemente tem seu campo de atuação prático restrito a problemas com espaço de estados de pequeno ou médio porte devido em muito à forma com que realizam a estimativa da função de avaliação. Nesta tese, uma nova abordagem de AR, denominada de Agente Topológico de Aprendizagem por Reforço (ATAR), inspirada em aprendizagem latente, é proposta para acelerar a aprendizagem por reforço através de um mecanismo alternativo de seleção dos pares estado-ação para atualização da estimativa da função de avaliação. A aprendizagem latente refere-se à aprendizagem animal que ocorre na ausência de reforço e que não é aparente até que um sinal de reforço seja percebido pelo agente. Este aprendizado faz com que um agente aprenda parcialmente uma tarefa mesmo antes que este receba qualquer sinal de reforço. Mapas Cognitivos são usualmente empregados para codificar a informação do ambiente em que o agente está imerso. Desta forma, o ATAR usa um mapa topológico, baseado em Mapas Auto-Organizáveis, para realizar as funções do mapa cognitivo e permitir um mecanismo simples de propagação das atualizações. O ATAR foi testado...

Uma arquitetura híbrida aplicada em problemas de aprendizagem por reforço; A hybrid architecture to address reinforcement learning problems

Rodrigo Lopes Setti de Arruda
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 07/02/2012 PT
Relevância na Pesquisa
66.22%
Com o uso de sistemas cognitivos em uma crescente gama de aplicações, criou-se uma grande expectativa e elevada demanda por máquinas cada vez mais autônomas, inteligentes e criativas na solução de problemas reais. Em diversos casos, os desafios demandam capacidade de aprendizado e adaptação. Este trabalho lida com conceitos de aprendizagem por reforço e discorre sobre as principais abordagens de solução e variações de problemas. Em seguida, constrói uma proposta híbrida incorporando outras ideias em aprendizagem de máquina, validando-a com experimentos simulados. Os experimentos permitem apontar as principais vantagens da metodologia proposta, a qual está fundamentada em sua capacidade de lidar com cenários de espaços contínuos e, também, de aprender uma política ótima enquanto segue outra, exploratória. A arquitetura proposta é híbrida, baseada em uma rede neural perceptron multi-camadas acoplada a um aproximador de funções denominado wirefitting. Esta arquitetura é coordenada por um algoritmo adaptativo e dinâmico que une conceitos de programação dinâmica, análise de Monte Carlo, aprendizado por diferença temporal e elegibilidade. O modelo proposto é utilizado para resolver problemas de controle ótimo...

Modelagem de aprendizagem por reforço e controle em nível meta para melhorar a performance da comunicação em gerência de tráfego aéreo

Alves, Daniela Pereira
Fonte: Universidade de Brasília Publicador: Universidade de Brasília
Tipo: Dissertação
POR
Relevância na Pesquisa
66.33%
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006.; Uma solução computacional que utiliza troca de mensagens lida com a dificuldade em decidir qual a melhor ação a ser executada à medida que uma nova mensagem chega. No caso específico da área de tráfego aéreo, o uso de troca de mensagens é empregado para manter consistentes as informações distribuídas entre os aeroportos, sujeitas ás características estocásticas deste contexto. O uso de gerência em nível meta e a aprendizagem por reforço foram empregados, neste trabalho, com intuito de apresentar uma estratégia para tratar o problema de gerência da imensa quantidade de mensagens geradas no contexto de tráfego aéreo. A estratégia proposta fundamenta-se na busca pela adaptação por meio da aprendizagem durante o processo de tomada de decisão. A idéia é empregar uma camada adicional de controle em nível meta sobre a camada de controle já existente no sistema hospedeiro para auxiliar o processo de tomada de decisão. A decisão passa a ser tomada com uso da experiência adquirida pelo agente com a aprendizagem por reforço melhorada por heurísticas propostas. O trabalho, então...

Utilização de CPGs e técnicas de inteligência computacional na geração de marcha em robôs humanóides; Using CPGs and computational intelligence techniques in the gait generation of humanoid robots

Paiva, Rafael Cortes de
Fonte: Universidade de Brasília Publicador: Universidade de Brasília
Tipo: Dissertação
POR
Relevância na Pesquisa
66.15%
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2014.; Nesse trabalho foi realizado o estudo de técnicas bio-inspiradas para gerar a marcha de um robô bípede. Foi utilizado o conceito de CPG, Central Pattern Generator (CPG), que é uma rede neural capaz de produzir respostas rítmicas. Elas foram modeladas como osciladores acoplados chamados de osciladores neurais. Para tanto foram utilizados alguns modelos de osciladores, o modelo de Matsuoka, o modelo de Kuramoto e o modelo de Kuramoto com acoplamento entre a dinâmica do oscilador e a dinâmica da marcha. Foram usados dois modelos de robôs, o Bioloid e o NAO. Para otimizar os parâmetros dos osciladores foram utilizados o Algoritmo Genético (AG), o Particle Swarm Optimization (PSO) e o Nondominated sorting Genetic Algorithm II (NSGA-II). Foi utilizada uma função de custo que através de determinadas condições tem como objetivo obter uma marcha eficiente. No NSGA-II, além dessa função de custo, foi utilizada outra função de custo que considera o trabalho realizado pelo robô. Além disso, também foi utilizada a aprendizagem por reforço para treinar um controlador que corrige a postura do robô durante a marcha. Foi possível propor um framework para obter os parâmetros dos osciladores e através dele obter uma marcha estável em ambas as plataformas. Também foi possível propor um framework utilizando aprendizagem por reforço para treinar um controlador para corrigir a postura do robô com a marcha sendo gerado pelo oscilador de Kuramoto com acoplamento. O objetivo do algoritmo foi minimizar a velocidade do ângulo de arfagem do corpo do robô...

NXT e Aprendizagem por Reforço

Coelho, João; Gonçalves, Teresa
Fonte: Universidade de Évora Publicador: Universidade de Évora
Tipo: Artigo de Revista Científica
POR
Relevância na Pesquisa
96.33%
A aprendizagem por reforço é uma aprendizagem por tentativa e erro, onde o agente, através da interacção com o ambiente, aprende a realizar uma tarefa com base em recompensas positivas e negativas. Este artigo pretende analisar o comportamento de um robô implementado com um sistema de aprendizagem por reforço cujo objectivo consiste em seguir uma linha. Para tal foi utilizado o robô educacional criado pela Lego, o NXT Mindstorms, implementado com o algoritmo Q-learning. Realizaram-se experiências com o propósito de determinar quais os valores óptimos das variáveis principais do algoritmo Q-learning (taxa de aprendizagem, o factor de desconto e a taxa de exploração), para que o robô tivesse um bom desempenho. Conclui-se que um robô implementado com um sistema de aprendizagem por reforço consegue aprender uma determinada tarefa em poucas iterações (passos).

Dynamic equilibrium through reinforcement learning

Faustino, Paulo Fernando Pinho
Fonte: Instituto Politécnico de Lisboa Publicador: Instituto Politécnico de Lisboa
Tipo: Dissertação de Mestrado
Publicado em /09/2011 ENG
Relevância na Pesquisa
66.37%
Reinforcement Learning is an area of Machine Learning that deals with how an agent should take actions in an environment such as to maximize the notion of accumulated reward. This type of learning is inspired by the way humans learn and has led to the creation of various algorithms for reinforcement learning. These algorithms focus on the way in which an agent’s behaviour can be improved, assuming independence as to their surroundings. The current work studies the application of reinforcement learning methods to solve the inverted pendulum problem. The importance of the variability of the environment (factors that are external to the agent) on the execution of reinforcement learning agents is studied by using a model that seeks to obtain equilibrium (stability) through dynamism – a Cart-Pole system or inverted pendulum. We sought to improve the behaviour of the autonomous agents by changing the information passed to them, while maintaining the agent’s internal parameters constant (learning rate, discount factors, decay rate, etc.), instead of the classical approach of tuning the agent’s internal parameters. The influence of changes on the state set and the action set on an agent’s capability to solve the Cart-pole problem was studied. We have studied typical behaviour of reinforcement learning agents applied to the classic BOXES model and a new form of characterizing the environment was proposed using the notion of convergence towards a reference value. We demonstrate the gain in performance of this new method applied to a Q-Learning agent.; A Aprendizagem por Reforço é uma área da Aprendizagem Automática que se preocupa com a forma como um agente deve tomar acções num ambiente de modo a maximizar a noção de recompensa acumulada. Esta forma de aprendizagem é inspirada na forma como os humanos aprendem e tem levado à criação de diversos algoritmos de aprendizagem por reforço. Estes algoritmos focam a forma de melhorar o comportamento do agente...

Desempenho de algoritmos de aprendizagem por reforço sob condições de ambiguidade sensorial em robótica móvel

Monteiro,Sildomar T.; Ribeiro,Carlos H. C.
Fonte: Sociedade Brasileira de Automática Publicador: Sociedade Brasileira de Automática
Tipo: Artigo de Revista Científica Formato: text/html
Publicado em 01/09/2004 PT
Relevância na Pesquisa
96.18%
Analisamos a variação de desempenho de algoritmos de aprendizagem por reforço em situações de ambigüidade de estados comumente produzidas pela baixa capacidade sensorial de robôs móveis. Esta variação é produzida pela violação da condição de Markov, importante para garantir a convergência destes algoritmos. As conseqüências práticas desta violação em sistemas reais não estão avaliadas de maneira definitiva na literatura. São estudados neste artigo os algoritmos Q-learning, Sarsa e Q(lambda), em experimentos realizados em um robô móvel Magellan Pro™. De modo a definir um verificador de desempenho para os algoritmos testados, foi implementado um método para criar mapas cognitivos de resolução variável. Os resultados mostram um desempenho satisfatório dos algoritmos, com uma degradação suave em função da ambigüidade sensorial. O algoritmo Q-learning teve o melhor desempenho, seguido do algoritmo Sarsa. O algoritmo Q(lambda) teve seu desempenho limitado pelos parâmetros experimentais. O método de criação de mapas se mostrou bastante eficiente, permitindo uma análise adequada dos algoritmos.

Aplicação de mineração de dados para reduzir a dimensão do espaço de características e ações em aprendizagem por reforço: cenário do drible da RoboCup

Carnaúba de Lima Vieira, Davi; Jorge Leitão Adeodato, Paulo (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
96.37%
A aprendizagem por reforço é usada em cenários nos quais não se dispõe de um resultado associado a cada estado nem a cada ação tomada por um agente inteligente. Essa forma de aprendizagem; portanto, mantém uma forte dependência da exploração dos espaços de estados e de ações que produz uma explosão de dados cujo armazenamento se torna um problema em muitas situações. Por outro lado, tem-se a mineração de dados como uma área da inteligência artificial que busca extrair informações ou padrões de grandes quantidades de dados, ou armazenados em um banco de dados ou trafegando em um fluxo contínuo de dados. A principal contribuição deste trabalho é mostrar como as técnicas de mineração de dados podem ser utilizadas para selecionar as variáveis e ações mais relevantes dos ambientes da aprendizagem por reforço. O objetivo desta seleção é reduzir a complexidade do problema e a quantidade de memória usada pelo agente, que podem acelerar a convergência da aprendizagem. A dificuldade em utilizar as técnicas de mineração de dados em ambientes da aprendizagem por reforço deve-se ao não armazenamento dos dados provenientes da exploração dos espaços de estados e de ações em um banco de dados. Este trabalho também contribui propondo um esquema de armazenamento para os estados visitados e as ações executadas pelo agente. Neste estudo...

Balanceamento dinâmico de jogos: uma abordagem baseada em aprendizagem por reforço

Danzi de Andrade, Gustavo; Lisboa Ramalho, Geber (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
96.26%
A capacidade de entretenimento de jogos digitais depende de vários fatores, como qualidade gráfica, enredo e jogabilidade. Um dos elementos que afetam a jogabilidade é o nível de desafio enfrentado pelo usuário, que é determinado pelo balanceamento do jogo. Balancear consiste em proporcionar níveis adequados de desafios, evitando os extremos de entediar o jogador com tarefas triviais ou frustrá-lo com tarefas intransponíveis. Jogos possuem uma grande diversidade de usuários, em termos de habilidades e experiências, e cada um evolui em um ritmo distinto. Dessa forma, a dificuldade sentida por cada jogador é influenciada por suas características individuais. A adaptação dos desafios ao perfil de cada um é realizada através do balanceamento dinâmico, que automaticamente avalia cada usuário e propõe desafios adequados a suas habilidades. Este trabalho apresenta um método original de balanceamento dinâmico de jogos baseado em aprendizagem por reforço. A abordagem consiste em dividir o problema em duas dimensões: competência (o conhecimento) e desempenho (a utilização prática do conhecimento). Para a aquisição de competência, são criados agentes inteligentes capazes de descobrir, por meio de aprendizagem por reforço...

Patrulha multi-agente com aprendizagem por reforço

Pimentel de Santana, Hugo; Lisboa Ramalho, Geber (Orientador)
Fonte: Universidade Federal de Pernambuco Publicador: Universidade Federal de Pernambuco
Tipo: Outros
PT_BR
Relevância na Pesquisa
96.24%
A tarefa de patrulha pode ser encontrada em diferentes domínios, desde administração de redes de computadores a simulações de jogos de guerra. Esta é uma tarefa multi-agente complexa, que requer que os agentes participantes coordenem as suas tomadas de decisão de modo a obter um bom desempenho para o grupo como um todo. Neste trabalho, é mostrado de que maneira a tarefa da patrulha pode ser modelada como um problema de aprendizagem por reforço (AR), permitindo uma adaptação contínua e automática das estratégias dos agentes ao ambiente. Nós demonstramos que um comportamento cooperativo eficiente pode ser obtido utilizando técnicas padrão de AR, como Q-Learning, para treinar os agentes individualmente. É feita uma análise detalhada da optimalidade das soluções propostas e os resultados obtidos constituem um caso de estudo positivo no uso de técnicas de aprendizagem por reforço em sistemas multi-agentes. As reflexões e técnicas apresentadas são igualmente valiosas para outros problemas que compartilham propriedades similares. Além disto, a abordagem proposta é totalmente distribuída, o que a torna computacionalmente eficiente. A avaliação empírica comprova a eficácia da mesma, e torna este trabalho uma primeira abordagem de sucesso na obtenção de uma estratégia adaptativa para tal tarefa

Uma implementação paralela híbrida para o problema do caixeiro viajante usando algoritmos genéticos, GRASP e aprendizagem por reforço

Santos, João Paulo Queiroz dos
Fonte: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações Publicador: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
66.15%
The metaheuristics techiniques are known to solve optimization problems classified as NP-complete and are successful in obtaining good quality solutions. They use non-deterministic approaches to generate solutions that are close to the optimal, without the guarantee of finding the global optimum. Motivated by the difficulties in the resolution of these problems, this work proposes the development of parallel hybrid methods using the reinforcement learning, the metaheuristics GRASP and Genetic Algorithms. With the use of these techniques, we aim to contribute to improved efficiency in obtaining efficient solutions. In this case, instead of using the Q-learning algorithm by reinforcement learning, just as a technique for generating the initial solutions of metaheuristics, we use it in a cooperative and competitive approach with the Genetic Algorithm and GRASP, in an parallel implementation. In this context, was possible to verify that the implementations in this study showed satisfactory results, in both strategies, that is, in cooperation and competition between them and the cooperation and competition between groups. In some instances were found the global optimum, in others theses implementations reach close to it. In this sense was an analyze of the performance for this proposed approach was done and it shows a good performance on the requeriments that prove the efficiency and speedup (gain in speed with the parallel processing) of the implementations performed; As metaheurísticas são técnicas conhecidas para a resolução de problemas de otimização...

Uma contribuição à solução do problema dos k-servos usando aprendizagem por reforço

Lima Júnior, Manoel Leandro de
Fonte: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações Publicador: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
86.34%
Neste trabalho é proposto um novo algoritmo online para o resolver o Problema dos k-Servos (PKS). O desempenho desta solução é comparado com o de outros algoritmos existentes na literatura, a saber, os algoritmos Harmonic e Work Function, que mostraram ser competitivos, tornando-os parâmetros de comparação significativos. Um algoritmo que apresente desempenho eficiente em relação aos mesmos tende a ser competitivo também, devendo, obviamente, se provar o referido fato. Tal prova, entretanto, foge aos objetivos do presente trabalho. O algoritmo apresentado para a solução do PKS é baseado em técnicas de aprendizagem por reforço. Para tanto, o problema foi modelado como um processo de decisão em múltiplas etapas, ao qual é aplicado o algoritmo Q-Learning, um dos métodos de solução mais populares para o estabelecimento de políticas ótimas neste tipo de problema de decisão. Entretanto, deve-se observar que a dimensão da estrutura de armazenamento utilizada pela aprendizagem por reforço para se obter a política ótima cresce em função do número de estados e de ações, que por sua vez é proporcional ao número n de nós e k de servos. Ao se analisar esse crescimento (matematicamente, ) percebe-se que o mesmo ocorre de maneira exponencial...

Classificação de padrões através de um comitê de máquinas aprimorado por aprendizagem por reforço

Lima, Naiyan Hari Cândido
Fonte: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações Publicador: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
96.35%
Reinforcement learning is a machine learning technique that, although finding a large number of applications, maybe is yet to reach its full potential. One of the inadequately tested possibilities is the use of reinforcement learning in combination with other methods for the solution of pattern classification problems. It is well documented in the literature the problems that support vector machine ensembles face in terms of generalization capacity. Algorithms such as Adaboost do not deal appropriately with the imbalances that arise in those situations. Several alternatives have been proposed, with varying degrees of success. This dissertation presents a new approach to building committees of support vector machines. The presented algorithm combines Adaboost algorithm with a layer of reinforcement learning to adjust committee parameters in order to avoid that imbalances on the committee components affect the generalization performance of the final hypothesis. Comparisons were made with ensembles using and not using the reinforcement learning layer, testing benchmark data sets widely known in area of pattern classification; A aprendizagem por reforço é uma técnica de aprendizado de máquina que, embora já tenha encontrado uma grande quantidade de aplicações...

Roteamento em Redes de Sensores Sem Fios Com Base Em Aprendizagem Por Reforço

Campos, Leonardo Rene dos Santos
Fonte: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações Publicador: Universidade Federal do Rio Grande do Norte; BR; UFRN; Programa de Pós-Graduação em Engenharia Elétrica; Automação e Sistemas; Engenharia de Computação; Telecomunicações
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
86.1%
The use of wireless sensor and actuator networks in industry has been increasing past few years, bringing multiple benefits compared to wired systems, like network flexibility and manageability. Such networks consists of a possibly large number of small and autonomous sensor and actuator devices with wireless communication capabilities. The data collected by sensors are sent directly or through intermediary nodes along the network to a base station called sink node. The data routing in this environment is an essential matter since it is strictly bounded to the energy efficiency, thus the network lifetime. This work investigates the application of a routing technique based on Reinforcement Learning s Q-Learning algorithm to a wireless sensor network by using an NS-2 simulated environment. Several metrics like energy consumption, data packet delivery rates and delays are used to validate de proposal comparing it with another solutions existing in the literature; A utilização das redes de sensores e atuadores sem fio nas plantas das indústrias vem crescendo nos últimos anos, trazendo vários benefícios em relação aos sistemas cabeados, como flexibilidade na instalação e manutenção da rede. Tais redes consistem basicamente de um número possivelmente grande de dispositivos sensores e atuadores pequenos e autônomos que possuem capacidade de comunicação sem fio. Os dados coletados pelos sensores são enviados seja diretamente ou passando através de nós intermediários pela rede até uma estação-base conhecida como nó sink. O roteamento nesse ambiente é uma questão essencial já que está intimamente ligado à eficiência energética e consequentemente ao tempo de vida da rede. Este trabalho investiga a aplicação de uma técnica de roteamento baseado no algoritmo Q-Learning de Aprendizagem por Reforço a uma rede de sensores sem fio através de simulações no ambiente NS-2. Diversas métricas como consumo de energia...

D-VisionDraughts: uma rede neural jogadora de damas que aprende por reforço em um ambiente de computação distribuída

Barcelos, Ayres Roberto Araújo
Fonte: Universidade Federal de Uberlândia Publicador: Universidade Federal de Uberlândia
Tipo: Dissertação
POR
Relevância na Pesquisa
76.2%
O objetivo deste trabalho é propor um sistema de aprendizagem de damas, o DVisionDraughts (Distributed VisionDraughts): um agente distribuído jogador de damas baseado em redes neurais que aprende por reforço. O D-VisionDraughts é treinado em um ambiente de processamento distribuído de modo a alcançar um alto nível de jogo sem a análise de especialistas e com o mínimo de intervenção humana possível (diferentemente do agente campeão do mundo de damas Chinook). O D-VisionDraughts corresponde a uma versão distribuída do e ciente jogador VisionDraughts, onde este último corresponde à uma rede neural MLP (multilayer perceptron) que aprende pelo método das diferenças temporais. O papel da rede neural é avaliar o quanto um estado de tabuleiro é favorável ao agente (valor de predição). Este valor irá guiar o módulo de busca na procura pela melhor ação (neste caso, o melhor movimento) correspondente ao estado de tabuleiro corrente do jogo. Outro fator que é importante na e ciência da busca, e que foi analisado neste trabalho, é o grau de ordenação da árvore de jogo. Desta forma, as principais contribuições deste trabalho consistem em: substituir o algoritmo serial utilizado para a busca em árvore de jogos do VisionDraughts...

LS-DRAUGHTS – um sistema de aprendizagem de jogos de Damas baseado em algoritmos genéticos, redes neurais e diferenças temporais

Castro Neto, Henrique de
Fonte: Universidade Federal de Uberlândia Publicador: Universidade Federal de Uberlândia
Tipo: Dissertação
POR
Relevância na Pesquisa
76.21%
O objetivo deste trabalho é propor um Sistema de Aprendizagem de Damas, LS-DRAUGHTS, que visa, por meio da técnica dos Algoritmos Genéticos (Ags), gerar, automaticamente, um conjunto de características mínimas necessárias e essenciais de um jogo de Damas, de forma a otimizar o treino de um agente jogador que aprende a jogar Damas. A aprendizagem deste agente consiste em aproximar uma rede neural MLP através do método de Aprendizagem por Reforço RD(λ) aliado com a busca minimax, com o mapeamento de tabuleiro NET-FEATUREMAP (feito a partir das características geradas pelo AG) e com a técnica de treinamento por self-play com clonagem. O objetivo da auto-aprendizagem do agente, sem Ter que recorrer a uma base de jogos de especialistas, é permitir que um sistema inteligente aprenda a jogar Damas pela sua própria experiência. Tal processo de aprendizagem é análogo ao processo utilizado pelo sistema NeuroDraughts proposto por Mark Lynch. Contudo, o LS-DRAUGHTS expande o NeuroDraughts ao fazer a geração automática de um conjunto eficaz e resumido de características do mapeamento NET-FEATUREMAP, ao passo que, o último, utiliza um conjunto fixo e definido manualmente. Foi efetuado um torneio entre o melhor jogador obtido pelo LS-DRAUGHTS e o melhor jogador de Mark Lynch disponível. Os resultados do torneio...

NXT Mindstorms e aprendizagem por reforço

Coelho, João Paulo Carracha
Fonte: Universidade de Évora Publicador: Universidade de Évora
Tipo: Dissertação de Mestrado
POR
Relevância na Pesquisa
66.37%
A aprendizagem por reforço é uma aprendizagem por tentativa e erro, onde o agente, através da interação com o ambiente, aprende a realizar uma tarefa com base em recompensas positivas e negativas. Esta dissertação pretende analisar o comportamento de um robô implementado com um algoritmo de aprendizagem por reforço cujo objetivo consiste em seguir um percurso. Para tal, foi utilizado o robô educacional criado pela Lego, o NXT Mindstorms, implementado com um algoritmo de aprendizagem por reforço, o Q-learning, utilizando os métodos de pesquisa Softmax e -greedy. Para programar o robô utilizou-se a linguagem de programação lejOS NXJ. Realizaram-se várias experiências com o objetivo de determinar a influência das variáveis do algoritmo Q-learning (taxa de aprendizagem e fator de desconto) e dos métodos de pesquisa Softmax (temperatura) e -Greedy (taxa de exploração), dos valores da função de recompensa e da utilização de vários percursos. Concluiu-se, através das experiências realizadas, que um robô implementado com um algoritmo de aprendizagem por reforço consegue aprender a tarefa em poucas iterações (inferior a 100 iterações). Também é possivel concluir, através da experiência para determinar a influência das variáveis do algoritmo e dos métodos de pesquisa...

Análise funcional comparativa de algoritmos de aprendizagem por reforço

Pessoa, João Manuel Dionísio
Fonte: Instituto Politécnico de Lisboa Publicador: Instituto Politécnico de Lisboa
Tipo: Dissertação de Mestrado
Publicado em /09/2011 POR
Relevância na Pesquisa
96.32%
De entre todos os paradigmas de aprendizagem actualmente identificados, a Aprendizagem por Reforço revela-se de especial interesse e aplicabilidade nos inúmeros processos que nos rodeiam: desde a solitária sonda que explora o planeta mais remoto, passando pelo programa especialista que aprende a apoiar a decisão médica pela experiencia adquirida, até ao cão de brincar que faz as delícias da criança interagindo com ela e adaptando-se aos seus gostos, e todo um novo mundo que nos rodeia e apela crescentemente a que façamos mais e melhor nesta área. Desde o aparecimento do conceito de aprendizagem por reforço, diferentes métodos tem sido propostos para a sua concretização, cada um deles abordando aspectos específicos. Duas vertentes distintas, mas complementares entre si, apresentam-se como características chave do processo de aprendizagem por reforço: a obtenção de experiência através da exploração do espaço de estados e o aproveitamento do conhecimento obtido através dessa mesma experiência. Esta dissertação propõe-se seleccionar alguns dos métodos propostos mais promissores de ambas as vertentes de exploração e aproveitamento, efectuar uma implementação de cada um destes sobre uma plataforma modular que permita a simulação do uso de agentes inteligentes e...