Please use this identifier to cite or link to this item: http://hdl.handle.net/10316/1899
Title: Mecanismos de checkpointing para aplicações paralelas de cálculo científico
Authors: Silva, Luís Alexandre Serras de Moura e 
Keywords: Informática; Checkpointing; Recuperação de avarias; Job-swapping; Tolerância a falhas; Computação paralela; Algoritmos distribuídos; Computação científica; Paradigmas de programação; Bibliotecas paralelas
Issue Date: 25-Mar-1997
Abstract: Esta Tese apresenta um estudo detalhado sobre técnicas de checkpointing para aplicações paralelas de cálculo científico de longa duração. São apresentados vários esquemas de checkpointing que podem ser usados como técnica de tolerância a falhas ou para efeitos de job-swapping. Os factores tidos em conta durante o desenvolvimento dos mecanismos aqui apresentados foram: o desempenho, a optimização no uso dos recursos do sistema, a funcionalidade, a portabilidade e a heterogeneidade. Na primeira parte da Tese iremos apresentar um conjunto de algoritmos de checkpointing coordenado para sistemas baseados em mensagens. Estes algoritmos são de uso geral e deverão ser implementados a nível do sistema operativo. Embora não sejam esquemas facilmente portáveis são completamente transparentes para a aplicação. Para provar a superioridade dos algoritmos de checkpointing coordenado apresentaremos um estudo experimental onde comparamos o seu desempenho com outros algoritmos existentes na literatura, tais como um algoritmo de checkpointing independente e dois protocolos de salvaguarda de mensagens. Na segunda parte, iremos desenvolver uma abordagem designada por checkpointing orientado ao paradigma. A ideia básica é explorar as características dos paradigmas de programação paralela no sentido de aumentar a eficiência do checkpointing. Esta técnica permite obter checkpoints mais compactos, que introduzem uma menor degradação no desempenho dos programas, oferece maior flexibilidade e facilita a portabilidade dos esquemas e dos respectivos checkpoints entre sistemas diferentes. Nesta linha de orientação, iremos apresentar mecanismos de checkpointing para os principais paradigmas (Mestre/Escravo, SPMD, data-pipelining e divide-and-conquer) assim como para modelos alternativos à passagem de mensagens (Linda e DSM). Finalmente, na terceira parte da Tese iremos apresentar um conjunto de mecanismos de checkpointing para ficheiros, que asseguram a consistência dos mesmos quando a aplicação tem de recomeçar a partir de um checkpoint anterior. Iremos ainda descrever um conjunto de soluções para resolver o problema da contaminação dos checkpoints, que poderão ser usadas para aumentar a confiança na correcção dos resultados finais da aplicação. Com este estudo podemos concluir que a ideia de explorar a semântica das aplicações é uma solução muito promissora. Os esquemas de checkpointing orientados aos paradigmas conseguem reduzir significativamente a degradação causada no desempenho das aplicações assim como o tamanho dos checkpoints. Além disso, oferecem maior portabilidade e permitem usar os checkpoints em ambientes heterogéneos. Palavras Chave: checkpointing, recuperação de avarias, tolerância a falhas, job-swapping, computação paralela, algoritmos distribuídos, computação científica, paradigmas de programação, bibliotecas paralelas.
Description: Tese de doutoramento em Engenharia Electrotécnica (Informática) apresentada à Fac. de Ciências e Tecnologia de Coimbra
URI: http://hdl.handle.net/10316/1899
Rights: embargoedAccess
Appears in Collections:FCTUC Eng.Electrotécnica - Teses de Doutoramento
FCTUC Eng.Informática - Teses de Doutoramento

Show full item record

Page view(s)

39
checked on Sep 22, 2020

Google ScholarTM

Check


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.