Accueil · Repères · Glossaire

Glossaire de l’infrastructure Linux

Définitions des termes et concepts utilisés dans l’exploitation continue d’infrastructure. Pensé pour clarifier les attentes, les rôles et les pratiques opérationnelles.

Objet

§ 0

Ce glossaire fournit un vocabulaire commun pour parler de systèmes, d’exploitation, supervision, sauvegardes, reprise d’activité et gestion d’infrastructure. Des définitions claires réduisent les malentendus et clarifient les attentes.

Infrastructure & supervision

§ 1

Systèmes critiques: Composants ou services dont la défaillance a un impact opérationnel ou métier significatif. Prioritaires pendant la reprise et la gestion des incidents.
Test de santé (health check): Vérification d’un hôte, d’un service ou d’un système pour valider sa disponibilité, ses performances et ses hypothèses opérationnelles.
Supervision: Observation continue de l’infrastructure, des services et de signaux applicatifs choisis pour détecter tôt les anomalies et préserver le contexte. Pensée pour la prévention, la clarté et la réponse informée, pas pour des alertes incessantes.
Journalisation centralisée: Agrégation des journaux de plusieurs systèmes en un seul endroit pour fournir des preuves durables, soutenir l’analyse et reconstruire le comportement des systèmes pendant un incident.
Métriques opérationnelles: Mesures et signaux clés collectés pour comprendre l’état et les tendances des systèmes, pour soutenir la décision et la réponse aux incidents, pas pour garantir une disponibilité.
Métriques temporelles: Mesures historiques de performance système (CPU, mémoire, disque, latence, etc.) dans le temps, utilisées pour détecter tendances, dégradations progressives ou comportements inhabituels.
Dérive des seuils: Désaccord progressif entre les seuils d’alerte ou les métriques et le comportement réel du système, qui peut réduire la pertinence de la supervision automatique sans relecture régulière.
Fausse urgence: Situations où alertes automatiques, tableaux de bord ou systèmes de supervision créent une alarme inutile, déclenchant des réponses improductives ou nuisibles. Traitée comme un mode de panne à minimiser.
Unix: Famille de systèmes d’exploitation partageant des principes de conception communs. Dans l’infrastructure moderne, Linux en est le membre le plus courant; les autres Unix apparaissent surtout dans des environnements hérités, réseau ou spécialisés.

Sauvegarde & restauration

§ 2

Sauvegarde: Copie de données ou d’état système destinée à permettre la restauration si l’original devient indisponible ou corrompu. Une sauvegarde n’a de valeur que si elle peut être restaurée dans des conditions réalistes.
Test de restauration: Validation des sauvegardes ou des procédures de reprise par des restaurations contrôlées, qui vérifient qu’elle fonctionne dans des conditions réalistes.
Stratégie de reprise: Approche documentée pour restaurer les systèmes après une panne, qui arbitre entre le temps de reprise, la perte de données, la complexité et le risque opérationnel. Inclut restaurations à partir de sauvegardes, activation de systèmes de secours et reprise partielle de service.
Politique de rétention: Règles définissant la durée de conservation des sauvegardes, qui équilibrent les besoins de reprise, le coût de stockage et la responsabilité opérationnelle long terme.
Infrastructure de secours: Systèmes secondaires ou alternatifs maintenus pour améliorer les scénarios de reprise. Exploités séparément de la production et activés délibérément lorsque nécessaire.
Plan de reprise d’activité (PRA): Ensemble documenté de procédures, d’arbres de décision et d’options de reprise utilisées lorsque les systèmes échouent au-delà de la gestion d’incident habituelle. Privilégie la clarté, le réalisme et la faisabilité opérationnelle plutôt que l’exhaustivité.
Sinistre (disaster): Événement qui dépasse les hypothèses de l’exploitation normale et de la gestion d’incident habituelle. Exemples: perte totale d’un environnement primaire, corruption sévère des données, erreur humaine à impact irréversible.
Bascule (failover): Bascule délibérée vers un système de secours ou une ressource de sauvegarde pour maintenir la continuité pendant une panne. Une méthode de reprise, pas une garantie.
Chemin de reprise: Séquence prédéfinie d’étapes, de décisions et d’options pour ramener un système en état opérationnel après une panne, en cohérence avec les priorités et les ressources disponibles.
Réseau maillé privé: Réseau dédié et isolé utilisé pour transporter le trafic de supervision et de sauvegarde entre plusieurs régions ou fournisseurs, qui assure redondance, contrôle opérationnel et réduction des points uniques de défaillance.

Responsabilité & sécurité

§ 3

Responsabilité opérationnelle: Responsabilité de maintenir, superviser, sauvegarder et restaurer une infrastructure dans la durée, avec une prise de décision claire, de la documentation et une gestion maîtrisée du risque. Dans le cadre d’une mission active, inclut le respect des NDA et des obligations de confidentialité.
Hypothèses opérationnelles: Affirmations explicites sur l’état du système, les accès, les dépendances, l’intégrité des données et les services externes supposés disponibles et fiables en exploitation et en reprise. Quand les hypothèses ne tiennent plus, les chemins de reprise peuvent changer ou disparaître.
Gestion des incidents: Processus délibéré et réversible de diagnostic, d’atténuation et de résolution des problèmes opérationnels. Privilégie des décisions calmes, prises par des humains, plutôt que des réponses automatisées ou précipitées.
Gestion des changements: Processus délibéré et documenté de déploiement des mises à jour, modifications de configuration et migrations, qui privilégie la réversibilité, la réduction du risque et la prévisibilité.
Atténuation des rançongiciels: Mesures, dont les sauvegardes isolées et les stratégies de reprise, pensées pour réduire l’impact opérationnel d’un incident de rançongiciel, en sachant qu’aucun système ne peut totalement garantir la protection.
Informations confidentielles: Toute donnée client, configuration, procédure opérationnelle, identifiant ou documentation système non publiquement disponible. Le partage hors mission ou hors NDA est interdit.
NDA (accord de confidentialité): Accord contractuel ou entente formelle qui restreint la divulgation d’informations sensibles relatives aux systèmes, à l’exploitation et aux données client. Le respect des NDA fait partie d’une pratique opérationnelle responsable.

Pour aller plus loin

§ 4

Pour une lecture plus légère sur l’exploitation, le chaos et la reprise, voir Infrastructure calme et Incidents étranges.

Comprendre ces termes facilite la collaboration, la réponse aux incidents et la clarté opérationnelle.

Exploitation opérationnelle →