Démarrer/éteindre un supercalculateur du TOP500 en moins de 10 minutes sans casse (ou presque)...

Type:
pyconfr
Audience level:
Intermediate
Category:
présentation
Septembre 15th 4:30 après-midi – 5 après-midi

Description

Présentation du séquenceur, un produit open-source pour l'arrêt et le démarrage des supercalculateurs et des data-centers. Le séquenceur est conceptuellement un moteur d'exécution parallèle de commandes locales ou distantes, capable de gérér les dépendances entre actions. Il permet d'allumer/d'éteindre le Tera-100, l'un des plus gros supercalculateur du monde en moins de 10 minutes.

Abstract

Démarrer/arrêter un cluster en partie ou globalement un est réel challenge si on considère les différentes commandes relatives aux différents composants et à l'ordre qui doit être respecté.

Nous présenterons une solution appelée 'sequencer', un moteur d'exécution de commandes locales ou distantes parallèle capable de gérer les dépendances. L'une des utilisation du sequencer est l'arrêt et le démarrage automatisé d'un cluster ou d'une sous-partie (extensible simplement aux data-centers).

L'efficacité du sequencer a permis en 2010 l'allumage et l'extinction en moins de 10 minutes de l'un des supercalculateurs parmi les plus gros du monde : le Tera-100, constitué de plus de 4000 nœuds.