Gestión del Almacenamiento para Tolerancia a Fallos en Computación de Altas Prestaciones

Author

León Otero, Betzabeth

Director

Franco Puntes, Daniel

Rexachs del Rosario, Dolores Isabel

Date of defense

2023-03-09

Pages

216 p.



Doctorate programs

Universitat Autònoma de Barcelona. Programa de Doctorat en Informàtica

Abstract

En entornos HPC es primordial mantener en continuo funcionamiento las aplicaciones que implican gran tiempo de ejecución. La redundancia es uno de los métodos utilizados en HPC como una estrategia de protección frente a cualquier fallo, pero generando un overhead debido a la información redundante que implica tiempo y recursos adicionales para asegurar el correcto funcionamiento del sistema. La tolerancia a fallos se ha constituido como un elemento fundamental para asegurar la disponibilidad en los sistemas en entornos de computación de altas prestaciones. Entre las estrategias utilizadas se encuentra el rollback recovery, que consiste en regresar a un estado anterior correcto guardado previamente, es a través de los checkpoint que permiten guardar la información del estado de un proceso periódicamente en un sistema de almacenamiento estable; pero hay una gran latencia involucrada ya que todos los procesos están accediendo de manera concurrente al sistema de ficheros. Así mismo, el almacenamiento del checkpoint puede afectar el rendimiento y la escalabilidad de las aplicaciones paralelas que utilizan el paso de mensajes. Por lo tanto, se hace importante conocer los elementos que pueden impactar en el almacenamiento del checkpoint y como estos pueden influir en la escalabilidad de una aplicación con tolerancia a fallos. Caracterizar los archivos que se generan al realizar el checkpoint de una aplicación paralela es útil para determinar los recursos consumidos y su impacto en el sistema de E/S. También es importante caracterizar la aplicación que realiza checkpoint, debido a que la E/S del checkpoint depende en gran medida de esta. La presente investigación propone una metodología que ayuda en la configuración del almacenamiento estable, de los ficheros de E/S ge- nerados por la tolerancia a fallos, teniendo en cuenta los patrones de acceso a los ficheros generados y los requerimientos de usuario. Esta metodología tiene tres fases en las que se caracteriza los patrones de E/S del checkpoint, luego se analizan los requisitos de almacenamiento estable y se modela el comportamiento de la estrategia de tolerancia a fallos. Para completar esta última fase de la metodología se propone un modelo para la predicción de la escalabilidad del checkpoint. Esta metodología puede ser útil a la hora de seleccionar qué tipo de configuración de checkpoint es más adecuada según las características de las aplicaciones y los recursos disponibles. Así, el usuario podrá saber cuánto espacio de almacenamiento consume el checkpoint y cuánto consume la aplicación, para poder establecer políticas que ayuden a mejorar la distribución de los recursos.


In HPC environments, it is essential to keep applications that require a long execution time running continuously. Redundancy is one of the methods used in HPC as a protection strategy against any failure, but generating an overhead due to redundant information implies additional time and resources to ensure the correct functioning of the system. Fault tolerance has become fundamental in ensuring system availability in high-performance computing environments. Among the strategies used is the rollback recovery, which consists of returning to a previous correct state previously saved. Checkpoints allow information on the state of a process to be saved periodically in a stable storage system. Still, a lot of latency is involved as all processes are concurrently accessing the file system. Also, checkpoint storage can affect parallel application performance and scalability that uses message passing. Therefore, it is important to know the elements that can impact checkpoint storage and how they can influence the scalability of a fault-tolerant application. For example, characterizing the files generated when performing the checkpoint of a parallel application is useful to determine the resources consumed and their impact on the I/O system. It is also important to characterize the application that performs the checkpoint because the I/O of the checkpoint depends mainly on it. The present research proposes a methodology that helps in configuring stable storage of the I/O files generated by fault tolerance, considering the access patterns to the generated files and the user requirements. This methodology has three phases in which the I/O patterns of the checkpoint are characterized. Then, the stable storage requirements are analyzed, and the behavior of the fault tolerance strategy is modeled. A model of prediction of checkpoint scalability has been proposed as part of the last phase of the methodology. This methodology can be useful when selecting which type of checkpoint configuration is most appropriate based on the characteristics of the applications and the available resources. Thus, the user will know how much storage space the checkpoint consumes and how much the application consumes to establish policies that help improve the distribution of resources.

Keywords

Sistema d'E/S; Sistema de E/S; I/O System; Tolerancia a Fallos; Fault Tolerance; HPC

Subjects

004 - Computer science and technology. Computing. Data processing

Knowledge Area

Tecnologies

Documents

blo1de1.pdf

4.624Mb

 

Rights

L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/

This item appears in the following Collection(s)