La gestion d’incident implique de travailler directement sur des systèmes en
production dans des conditions incertaines, où comprendre l’état actuel compte plus
que le choix des outils.
La saturation de ressources s’analyse avec les utilitaires système standards, qui
permettent d’évaluer en temps réel la pression CPU, mémoire et I/O. Les pannes
disque, dont les systèmes de fichiers pleins et la croissance inattendue, sont investiguées par
inspection directe de l’usage des systèmes de fichiers et de l’activité des processus.
Les soucis réseau et les coupures de services sont examinés au niveau socket et
paquet, plutôt que déduits indirectement par des systèmes externes. Les journaux sont
lus dans leur forme originale pour reconstruire les chronologies, valider les hypothèses
et comprendre le comportement réel du système.
Les outils incluent top, vmstat, lsof,
tcpdump et journalctl, mais l’accent est mis sur
l’interprétation, pas sur l’outillage. Les actions sont prises délibérément, sur
preuves et non sur hypothèse.