Página 1 dos resultados de 351 itens digitais encontrados em 0.002 segundos

Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos; Simulation and study of the hadoop mapreduce platform on heterogeneous environments

Kolberg, Wagner
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Trabalho de Conclusão de Curso Formato: application/pdf
POR
Relevância na Pesquisa
37.96%
MapReduce é um modelo de programação voltado à computação paralela em larga escala, e ao processamento de grandes volumes de dados. A implementação do modelo, e as suposições feitas em relação ao ambiente sobre o qual será executado, influenciam fortemente no tempo de computação dos jobs submetidos. O Hadoop, uma das implementações mais populares do MapReduce, e que será estudada neste trabalho, supõe que o ambiente de execução é homogêneo, prejudicando o desempenho do framework quando a grade apresenta um certo nível de heterogeneidade no que toca a capacidade de processamento das máquinas que a constituem. Como ferramenta de análise para as adaptações propostas, é desenvolvido um simulador para o MapReduce — tendo como base o simulador de grades SimGrid — com o objetivo de facilitar a implementação e avaliação de novos algoritmos de escalonamento de tarefas e distribuição de dados, dentre outros. Dentre as vantagens proporcionadas pelo uso do simulador é possível citar: a facilidade na implementação de algoritmos teóricos; a agilidade em testes para uma grande variedade de configurações; e a possibilidade de avaliar rapidamente a escalabilidade de algoritmos sem custos de infraestrutura. Em relação ao simulador...

Maresia : an approach to deal with the single points of failure of the MapReduce model; Maresi: uma abordagem para lidar com os pontos de falha única do modelo MapReduce

Marcos, Pedro de Botelho
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Dissertação Formato: application/pdf
ENG
Relevância na Pesquisa
37.74%
Durante os últimos anos, a quantidade de dados gerada pelas aplicações cresceu consideravelmente. No entanto, para tornarem-se relevantes estes dados precisam ser processados. Para atender este objetivo, novos modelos de programação para processamento paralelo e distribuído foram propostos. Um exemplo é o modelo MapReduce, o qual foi proposto pela Google. Este modelo, no entanto, possui pontos de falha única (SPOF), os quais podem comprometer a sua execução. Assim, este trabalho apresenta uma nova arquitetura, inspirada pelo Chord, para lidar com os SPOFs do modelo. A avaliação da proposta foi realizada através de modelagem analítica e de testes experimentais. Os resultados mostram a viabilidade de usar a arquitetura proposta para executar o MapReduce.; During the last years, the amount of data generated by applications grew considerably. To become relevant, however, this data should be processed. With this goal, new programming models for parallel and distributed processing were proposed. An example is the MapReduce model, which was proposed by Google. This model, nevertheless, has Single Points of Failure (SPOF), which can compromise the execution of a job. Thus, this work presents a new architecture, inspired by Chord...

Adequação da computação intensiva em dados para ambientes desktop grid com uso de MapReduce; Adequacy of intensive data computing to desktop grid environment with using of mapreduce

Anjos, Julio Cesar Santos dos
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Dissertação Formato: application/pdf
POR
Relevância na Pesquisa
37.95%
O surgimento de volumes de dados na ordem de petabytes cria a necessidade de desenvolver-se novas soluções que viabilizem o tratamento dos dados através do uso de sistemas de computação intensiva, como o MapReduce. O MapReduce é um framework de programação que apresenta duas funções: uma de mapeamento, chamada Map, e outra de redução, chamada Reduce, aplicadas a uma determinada entrada de dados. Este modelo de programação é utilizado geralmente em grandes clusters e suas tarefas Map ou Reduce são normalmente independentes entre si. O programador é abstraído do processo de paralelização como divisão e distribuição de dados, tolerância a falhas, persistência de dados e distribuição de tarefas. A motivação deste trabalho é aplicar o modelo de computação intensiva do MapReduce com grande volume de dados para uso em ambientes desktop grid. O objetivo então é investigar os algoritmos do MapReduce para adequar a computação intensiva aos ambientes heterogêneos. O trabalho endereça o problema da heterogeneidade de recursos, não tratando neste momento a volatilidade das máquinas. Devido às deficiências encontradas no MapReduce em ambientes heterogêneos foi proposto o MR-A++, que é um MapReduce com algoritmos adequados ao ambiente heterogêneo. O modelo do MR-A++ cria uma tarefa de medição para coletar informações...

Aplicação do MapReduce na análise de mutações gênicas de pacientes; Application of mapreduce in the analysis of genetic mutations in patients

Reckziegel Filho, Bruno
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Trabalho de Conclusão de Curso Formato: application/pdf
POR
Relevância na Pesquisa
37.54%
O avanço obtido com o desenvolvimento de técnicas rápidas para o sequenciamento de DNA e a comercialização de máquinas sequenciadoras, permitiram vários progressos na área da genética médica. Porém, devido à grande quantia de dados produzidos por tais máquinas, métodos e programas que façam a análise de sequenciamento eficientemente e em um curto espaço de tempo são indispensáveis. Além disso, aplicações que façam o diagnóstico clínico de pacientes são vistas com extremo interese por parte de pesquisadores e médicos. O MapReduce é um modelo de computação intensiva em dados que possibilita o tratamento de dados intensivos em um sistema de arquivos distribuído, além de abstrair o paralelismo de tarefas, através do uso de duas funções básicas (Map e Reduce), e permitir o controle de falhas. Considerando a inexistência de dependência entre tais dados, arquivos longos de todos tipos são bem aceitos para serem analisados neste contexto, sendo desmembrados em tamanhos menores e manipulados por diversas máquinas. Portanto, o uso desse modelo acaba se tornando uma possível solução viável para o propósito de análise dos dados produzidos por sequenciadores. Considerando tais fatos, este trabalho de conclusão de graduação objetivou o desenvolvimento de um aplicativo MR ...

Caracterização do consumo energético do Hadoop MapReduce; Characterization of Hadoop’s MapReduce energetic consumption

Rodrigues, Flavio Alles
Fonte: Universidade Federal do Rio Grande do Sul Publicador: Universidade Federal do Rio Grande do Sul
Tipo: Trabalho de Conclusão de Curso Formato: application/pdf
POR
Relevância na Pesquisa
37.69%
O crescimento exponencial do poder computacional, das fontes de geração de dados e da capacidade de comunicação em tecnologias recentes criou uma nova categoria de aplicações computacionais: aplicações intensivas em dados. O aumento dos conjuntos de dados é verificado em diversas áreas do conhecimento e atuação humanas. Deste contexto surge a necessidade do desenvolvimento de frameworks capazes de armazenar e processar dados em larga escala em um tempo aceitável. MapReduce, desenvolvido pelo Google, é um modelo de programação paralelo com uma implementação associada criado para o processamento de grandes quantidades de dados. O usuário deste framework precisa definir somente duas funções (map e reduce) e o runtime se encarrega de lidar de forma transparente ao programador com questões advindas da paralelização da computação, como a distribuição dos dados, escalonamento de tarefas, comunicação entre processos e tolerância a falhas. Porém, esta demanda pelo processamento de quantidades crescentes de dados tem como consequência uma demanda maior por recursos computacionais para processar uma mesma aplicação. O grande problema que esta demanda crescente por recursos computacionais gera é um - também - crescente consumo energético. Esta situação é crítica por duas razões - uma de motivação financeira e outra de motivação ambiental. Por estas razões...

Loop parallelization in the cloud using OpenMP and MapReduce; Paralelização de laços na nuvem usando OpenMP e MapReduce

Rodolfo Guilherme Wottrich
Fonte: Biblioteca Digital da Unicamp Publicador: Biblioteca Digital da Unicamp
Tipo: Dissertação de Mestrado Formato: application/pdf
Publicado em 09/04/2014 PT
Relevância na Pesquisa
37.63%
A busca por paralelismo sempre foi um importante objetivo no projeto de sistemas computacionais, conduzida principalmente pelo constante interesse na redução de tempos de execução de aplicações. Programação paralela é uma área de pesquisa ativa, na qual o interesse tem crescido devido à emergência de arquiteturas multicore. Por outro lado, aproveitar as grandes capacidades de computação e armazenamento da nuvem e suas características desejáveis de flexibilidade e escalabilidade oferece várias oportunidades interessantes para abordar problemas de pesquisa relevantes em computação científica. Infelizmente, em muitos casos a implementação de aplicações na nuvem demanda conhecimento específico de interfaces de programação paralela e APIs, o que pode se tornar um fardo na programação de aplicações complexas. Para superar tais limitações, neste trabalho propomos OpenMR, um modelo de execução baseado na sintaxe e nos princípios da API OpenMP que facilita a tarefa de programar sistemas distribuídos (isto é, clusters locais ou a nuvem remota). Especificamente, este trabalho aborda o problema de executar a paralelização de laços, usando OpenMR, em um ambiente distribuído, através do mapeamento de iterações do laço para nós MapReduce. Assim...

Inclusão de funcionalidades MapReduce em sistemas de data warehousing

Silva, Dário Almeno Matos da
Fonte: Universidade do Minho Publicador: Universidade do Minho
Tipo: Dissertação de Mestrado
Publicado em 18/12/2013 POR
Relevância na Pesquisa
37.87%
Dissertação de mestrado em Engenharia Informática; Em geral, o processo de aquisição de dados nas organizações tornou-se gradualmente mais fácil. Perante a atual proliferação de dados, surgiram novas estratégias de processamento que visam a obtenção de melhores desempenhos dos processos de análise de dados. O MapReduce é um modelo de programação dedicado ao processamento de grandes conjuntos de dados e que coloca em prática muitos dos princípios da computação paralela e distribuída. Este modelo tem em vista facilitar o acesso aos sistemas paralelos e distribuídos a programadores menos experientes, de forma a que estes possam beneficiar das suas características de armazenamento e de processamento de dados. Os frameworks baseados neste modelo de programação ocupam hoje já uma posição de destaque no mercado, sobretudo no segmento dedicado à análise de dados não estruturados, tais como documentos de texto ou ficheiros log. Na prática, o problema do armazenamento das estruturas multidimensionais de dados e a capacidade de realizar cálculos “on the fly”, com tempos de execução reduzidos, constituem desafios muito importantes que têm que ser, também, encarados pelos sistemas de data warehousing modernos. Com efeito...

Hadoop MapReduce tolerante a faltas bizantinas

Costa, Pedro Alexandre Reis Sá da Costa
Fonte: Universidade de Lisboa Publicador: Universidade de Lisboa
Tipo: Dissertação de Mestrado
Publicado em //2011 POR
Relevância na Pesquisa
37.78%
Tese de mestrado em Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2011; O MapReduce é frequentemente usado para executar tarefas críticas, tais como análise de dados científicos. No entanto, evidências na literatura mostram que as faltas ocorrem de forma arbitrária e podem corromper os dados. O Hadoop MapReduce está preparado para tolerar faltas acidentais, mas não tolera faltas arbitrárias ou Bizantinas. Neste trabalho apresenta-se um protótipo do Hadoop MapReduce Tolerante a Faltas Bizantinas(BFT). Uma avaliaçãao experimental mostra que a execução de um trabalho com o algoritmo implementado usa o dobro dos recursos do Hadoop original, em vez de mais 3 ou 4 vezes, como seria alcançado com uma aplicação directa dos paradigmas comuns a tolerância a faltas Bizantinas. Acredita-se que este custo seja aceitável para aplicações críticas que requerem este nível de tolerância a faltas.; MapReduce is often used to run critical jobs such as scientific data analysis. However, evidence in the literature shows that arbitrary faults do occur and can probably corrupt the results of MapReduce jobs. MapReduce runtimes like Hadoop tolerate crash faults, but not arbitrary or Byzantine faults. In this work...

Distributed processing of large remote sensing images using MapReduce - A case of Edge Detection

Tesfamariam, Ermias Beyene
Fonte: Universidade Nova de Lisboa Publicador: Universidade Nova de Lisboa
Tipo: Dissertação de Mestrado
Publicado em 07/02/2011 ENG
Relevância na Pesquisa
37.84%
Dissertation submitted in partial fulfillment of the requirements for the Degree of Master of Science in Geospatial Technologies.; Advances in sensor technology and their ever increasing repositories of the collected data are revolutionizing the mechanisms remotely sensed data are collected, stored and processed. This exponential growth of data archives and the increasing user’s demand for real-and near-real time remote sensing data products has pressurized remote sensing service providers to deliver the required services. The remote sensing community has recognized the challenge in processing large and complex satellite datasets to derive customized products. To address this high demand in computational resources, several efforts have been made in the past few years towards incorporation of high-performance computing models in remote sensing data collection, management and analysis. This study adds an impetus to these efforts by introducing the recent advancements in distributed computing technologies, MapReduce programming paradigm, to the area of remote sensing. The MapReduce model which is developed by Google Inc. encapsulates the efforts of distributed computing in a highly simplified single library. This simple but powerful programming model can provide us distributed environment without having deep knowledge of parallel programming. This thesis presents a MapReduce based processing of large satellite images a use case scenario of edge detection methods. Deriving from the conceptual massive remote sensing image processing applications...

MRSG – a MapReduce simulator over SimGrid

Kolberg, Wagner; Marcos, Pedro de Botelho; Anjos, Julio Cesar Santos dos; Miyazaki, Alexandre Kenta Salgueiro; Geyer, Claudio Fernando Resin; Arantes, Luciana Bezerra
Fonte: Universidade Federal do Rio Grande Publicador: Universidade Federal do Rio Grande
Tipo: Artigo de Revista Científica
ENG
Relevância na Pesquisa
37.63%
MapReduce is a parallel programming model to process large datasets, and it was inspired by the Map and Reduce primitives from functional languages. Its first implementation was designed to run on large clusters of homogeneous machines. Though, in the last years, the model was ported to different types of environments, such as desktop grid and volunteer computing. To obtain a good performance in these environments, however, it is necessary to adapt some framework mechanisms, such as scheduling and data distribution algorithms. In this paper we present the MRSG simulator, which reproduces the MapReduce work-flow on top of the SimGrid simulation toolkit, and provides an API to implement and evaluate these new algorithms and policies for MapReduce. To evaluate the simulator, we compared its behavior against a real Hadoop MapReduce deployment. The results show an important similarity between the simulated and real executions.

Uma abordagem para o teste de dependabilidade de sistemas MapReduce com base em casos de falha representativos

Marynowski, Joao Eugenio
Fonte: Universidade Federal do Paraná Publicador: Universidade Federal do Paraná
Tipo: Tese de Doutorado Formato: application/pdf
PORTUGUêS
Relevância na Pesquisa
27.74%
Resumo: Os sistemas MapReduce facilitam a utilização de um grande número de máquinas para processar uma grande quantidade de dados, e têm sido utilizados por diversas aplicações, que incluem desde ferramentas de pesquisa até sistemas comerciais e financeiros. Uma das principais características dos sistemas MapReduce é abstrair problemas relacionados ao ambiente distribuído, tais como a distribuição do processamento e a tolerância a falhas. Com isso, torna-se imprescindível garantir a dependabilidade dos sistemas MapReduce, ou seja, garantir que esses sistemas funcionem corretamente mesmo na presença de falhas. Por outro lado, a falta de determinismo de um ambiente distribuído e a falta de confiabilidade do ambiente físico, podem gerar erros nos sistemas MapReduce que sejam difíceis de serem encontrados, entendidos e corrigidos. Esta tese apresenta a primeira abordagem conhecida para o teste de dependabilidade para sistemas MapReduce. Este trabalho apresenta uma definição para o teste de dependabilidade, uma modelagem do mecanismo de tolerância a falhas do MapReduce, um processo para gerar casos de falha representativos a partir de um modelo, e uma plataforma de teste para automatizar a execução de casos de falha em um ambiente distribuído. Este trabalho ainda apresenta uma nova abordagem para modelar componentes distribuídos usando redes de Petri. Essa nova abordagem permite representar a dinâmica dos componentes e a independência de suas ações e estados. Resultados experimentais são apresentados e mostram que os casos de falha gerados a partir do modelo são representativos para o teste do sistema Hadoop...

Execução paralela de programação genética utilizando MapReduce

Fonte: Universidade Federal de Lavras Publicador: Universidade Federal de Lavras
Tipo: Trabalho de Conclusão de Curso
PT_BR
Relevância na Pesquisa
37.42%
The Genetic Programming is a technique used for automatic generation of applications in Wireless Sensor Networks, which needs to perform a number of simulations for a given problem in order to have a greater degree of confidence of the result obtained by the method. Thus, its running time becomes high when using a single machine. However, there are opportunities for parallelization of these executions that might imply a reduction in execution time and improving the quality of the results. This work is a study on the MapReduce programming model adapted for a Genetic Programming to automatic generation of applications in Wireless Sensor Network (WSN), through the distribution of executions among the machines of a cluster. It proposed an implementation of a Genetic Programming to automatic generation of applications in WSN and used WSN simulator to evaluate the quality of the solution. This study also analyzes the benefits of using the MapReduce framework.

Avaliação do framework mapreduce para paralelização do algoritmo apriori

Fonte: Universidade Federal de Lavras Publicador: Universidade Federal de Lavras
Tipo: Trabalho de Conclusão de Curso
PT_BR
Relevância na Pesquisa
37.25%
The frequent-patterns mining is an area of extensive use in computing, its your objective is to find information about relevant patterns in large amounts of data. But the main algorithms for frequent-patterns mining have a high execution time, due to the large volume of data they work with. Therefore, parallel programming and frameworks that use this concept seem a good solution to reduce the execution time and level of computing required by these algorithms. This work proposes the parallel and distributed implementation of the Apriori algorithm, well known in the research area of frequent-patterns mining, using MapReduce Framework. The results were compared with the DMTA algorithm (Distributed Multithread Apriori), which also implements the Apriori algorithm in distributed and parallel, but using MPI and OpenMP libraries to create and manage processes and threads

OPTAS: optimal data placement in MapReduce

Wang, C.; Qin, Y.; Huang, Z.; Peng, Y.; Li, D.; Li, H.
Fonte: IEEE; Online Publicador: IEEE; Online
Tipo: Conference paper
Publicado em //2013 EN
Relevância na Pesquisa
37.42%
The data placement strategy greatly affects the efficiency of MapReduce. The current strategy only takes the map phase into account to optimize the map time. But the ignored shuffle phase may increase the total running time significantly in many jobs. We propose a new data placement strategy, named OPTAS, which optimizes both the map and shuffle phases to reduce their total time. However, the huge search space makes it difficult to find out an optimal data placement instance (DPI) rapidly. To address this problem, an algorithm is proposed which can prune most of the search space and find out an optimal result quickly. The search space firstly is segmented in ascending order according to the potential map time. Within each segment, we propose an efficient method to construct a local optimal DPI with the minimal total time of both the map and shuffle phases. To find the global optimal DPI, we scan the local optimal DPIs in order. We have proven that the global optimal DPI can be found as the first local optimal DPI whose total time stops decreasing, thus further pruning the search space. In practice, we find that at most fourteen local optimal DPIs are scanned in tens of thousands of segments with the pruning strategy. Extensive experiments with real trace data verify not only the theoretic analysis of our pruning strategy and construction method but also the optimality of OPTAS. The best improvements obtained in our experiments can be over 40% compared with the existing strategy used by MapReduce.; Changjian Wang...

Estudio sobre algoritmos gen??ticos en la nube y el modelo de programaci??n MapReduce

Mu??oz, G.; Garc??a-S??nchez, Pablo; Castillo Valdivieso, Pedro; Garc??a Arenas, Mar??a Isabel; Mora Garc??a, Antonio Miguel; Merelo Guerv??s, Juan Juli??n
Fonte: Universidad de Granada, Departamento de Arquitectura y Tecnolog??a de Computadores Publicador: Universidad de Granada, Departamento de Arquitectura y Tecnolog??a de Computadores
Tipo: Artigo de Revista Científica
SPA
Relevância na Pesquisa
37.63%
Este trabajo presenta el proyecto fin de carrera ???Estudio sobre algoritmos gen??ticos en la nube y el modelo de programaci??n MapReduce???. Durante el desarrollo de este proyecto se investig?? en el uso y aplicaci??n de Algoritmos Gen??ticos en distintos entornos de Cloud Computing, como el MapReduce o virtualizaci??n de instancias. Se ejecutaron distintas configuraciones de par??metros del algoritmo (como el tama??o de poblaci??n o el tipo de crossover) en distintas instancias de Amazon Web Services. Los resultados muestran el efecto de estos par??metros al tipo de instancia utilizada.; This paper shows the final degree project ???A study of genetic algorithms in the cloud and the MapReduce model???. During the development of this project the usage and application of genetic algorithms in different Cloud Computing environments was investigated, such as MapReduce or virtualization. Different parameter configurations, such as the population size or crossover type, were launched in different instances of Amazon Web Services. Results show the effect of these parameters to the different types of used instances.

Constructing Secure MapReduce Framework in Cloud-based Environment

Wang, Yongzhi
Fonte: FIU Digital Commons Publicador: FIU Digital Commons
Tipo: Artigo de Revista Científica Formato: application/pdf
Relevância na Pesquisa
37.82%
MapReduce, a parallel computing paradigm, has been gaining popularity in recent years as cloud vendors offer MapReduce computation services on their public clouds. However, companies are still reluctant to move their computations to the public cloud due to the following reason: In the current business model, the entire MapReduce cluster is deployed on the public cloud. If the public cloud is not properly protected, the integrity and the confidentiality of MapReduce applications can be compromised by attacks inside or outside of the public cloud. From the result integrity’s perspective, if any computation nodes on the public cloud are compromised,thosenodes can return incorrect task results and therefore render the final job result inaccurate. From the algorithmic confidentiality’s perspective, when more and more companies devise innovative algorithms and deploy them to the public cloud, malicious attackers can reverse engineer those programs to detect the algorithmic details and, therefore, compromise the intellectual property of those companies. In this dissertation, we propose to use the hybrid cloud architecture to defeat the above two threats. Based on the hybrid cloud architecture, we propose separate solutions to address the result integrity and the algorithmic confidentiality problems. To address the result integrity problem...

Sorting, Searching, and Simulation in the MapReduce Framework

Goodrich, Michael T.; Sitchinava, Nodari; Zhang, Qin
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 10/01/2011
Relevância na Pesquisa
27.78%
In this paper, we study the MapReduce framework from an algorithmic standpoint and demonstrate the usefulness of our approach by designing and analyzing efficient MapReduce algorithms for fundamental sorting, searching, and simulation problems. This study is motivated by a goal of ultimately putting the MapReduce framework on an equal theoretical footing with the well-known PRAM and BSP parallel models, which would benefit both the theory and practice of MapReduce algorithms. We describe efficient MapReduce algorithms for sorting, multi-searching, and simulations of parallel algorithms specified in the BSP and CRCW PRAM models. We also provide some applications of these results to problems in parallel computational geometry for the MapReduce framework, which result in efficient MapReduce algorithms for sorting, 2- and 3-dimensional convex hulls, and fixed-dimensional linear programming. For the case when mappers and reducers have a memory/message-I/O size of $M=\Theta(N^\epsilon)$, for a small constant $\epsilon>0$, all of our MapReduce algorithms for these applications run in a constant number of rounds.; Comment: 16 pages

ReStore: Reusing Results of MapReduce Jobs

Elghandour, Iman; Aboulnaga, Ashraf
Fonte: Universidade Cornell Publicador: Universidade Cornell
Tipo: Artigo de Revista Científica
Publicado em 29/02/2012
Relevância na Pesquisa
27.78%
Analyzing large scale data has emerged as an important activity for many organizations in the past few years. This large scale data analysis is facilitated by the MapReduce programming and execution model and its implementations, most notably Hadoop. Users of MapReduce often have analysis tasks that are too complex to express as individual MapReduce jobs. Instead, they use high-level query languages such as Pig, Hive, or Jaql to express their complex tasks. The compilers of these languages translate queries into workflows of MapReduce jobs. Each job in these workflows reads its input from the distributed file system used by the MapReduce system and produces output that is stored in this distributed file system and read as input by the next job in the workflow. The current practice is to delete these intermediate results from the distributed file system at the end of executing the workflow. One way to improve the performance of workflows of MapReduce jobs is to keep these intermediate results and reuse them for future workflows submitted to the system. In this paper, we present ReStore, a system that manages the storage and reuse of such intermediate results. ReStore can reuse the output of whole MapReduce jobs that are part of a workflow...

Improving memory hierarchy performance on mapreduce frameworks for multi-core architectures

de Souza Ferreira, Tharso
Fonte: [Barcelona] : Universitat Autònoma de Barcelona, Publicador: [Barcelona] : Universitat Autònoma de Barcelona,
Tipo: Tesis i dissertacions electròniques; info:eu-repo/semantics/doctoralThesis Formato: application/pdf
Publicado em //2014 ENG; ENG
Relevância na Pesquisa
27.84%
La necesidad de analizar grandes conjuntos de datos de diferentes tipos de aplicaciones ha popularizado el uso de modelos de programación simplicados como MapReduce. La popularidad actual se justifica por ser una abstracción útil para expresar procesamiento paralelo de datos y también ocultar eficazmente la sincronización de datos, tolerancia a fallos y la gestión de balanceo de carga para el desarrollador de la aplicación. Frameworks MapReduce también han sido adaptados a los sistema multi-core y de memoria compartida. Estos frameworks proponen que cada core de una CPU ejecute una tarea Map o Reduce de manera concurrente. Las fases Map y Reduce también comparten una estructura de datos común donde se aplica el procesamiento principal. En este trabajo se describen algunas limitaciones de los actuales frameworks para arquitecturas multi-core. En primer lugar, se describe la estructura de datos que se utiliza para mantener todo el archivo de entrada y datos intermedios en la memoria. Los frameworks actuales para arquitecturas multi-core han estado diseñado para mantener todos los datos intermedios en la memoria. Cuando se ejecutan aplicaciones con un gran conjunto de datos de entrada, la memoria disponible se convierte en demasiada pequeña para almacenar todos los datos intermedios del framework...

Enabling scalable data analysis for large computational structural biology datasets on large distributed memory systems supported by the MapReduce paradigm

Zhang, Boyu
Fonte: University of Delaware Publicador: University of Delaware
Tipo: Tese de Doutorado
Relevância na Pesquisa
37.54%
Taufer, Michela; Today, petascale distributed memory systems perform large-scale simulations and generate massive amounts of data in a distributed fashion at unprecedented rates. This massive amount of data presents new challenges for the scientists analyzing the data. In order to classify and cluster this data, traditional analysis methods require the comparison of single records with each other in an iterative process and therefore involve moving data across nodes of the system. When both the data and the number of nodes increase, classification and clustering methods can put increasing pressure on the system's storage and bandwidth. Thus, the methods become inefficient and do not scale. New methodologies are needed to analyze data when it is distributed across nodes of large distributed memory systems. In general, when analyzing such scientific data, we focus on specific properties of the data records. For example, in structural biology datasets, properties include the molecular geometry or the location of a molecule in a docking pocket. Based on this observation, we propose a methodology that enables the scalable analysis for large datasets, composed of millions of individual data records, in a distributed manner on large distributed memory systems. The methodology comprises two general steps. The first step extracts concise properties or features of each data record in isolation and represents them as metadata in parallel. The second step performs the analysis (i.e....