Principes d’architecture pour des systèmes qui survivent à la réalité
La plupart des infrastructures ne tombent pas parce qu’elles sont complexes. Elles
tombent parce qu’elles font semblant que le monde est plus simple qu’il ne l’est.
Dernière relecture: mars 2026
Pourquoi ces principes existent§ 1
Les systèmes qui durent partagent des traits, quelle que soit leur taille ou leur
outillage. Ils reconnaissent le temps, les humains, la panne et l’ennui.
Ces principes ne sont pas un idéal. C’est ce qui reste après des années d’incidents,
de reprises, d’audits, de migrations, de mardis tranquilles, et d’astreintes le soir du 31.
Si quelque chose ici paraît prudent, c’est volontaire. La philosophie Unix,
faite de petits outils composables qui font une chose et la font bien, se prolonge
dans l’exploitation de la même manière. L’infrastructure gagne la confiance
lentement.
Règlesdouze principes§ 2
Règle 01
Le contrôle est toujours partiel
Quel que soit votre niveau, la fiabilité dépend des fournisseurs amont, des chaînes d’approvisionnement matériel, des réseaux que vous ne possédez pas, du comportement client, des contraintes budgétaires et de la vitesse de changement hors de votre contrôle. Un SLA convertit un contrôle partiel en responsabilité totale.
Règle 02
La propriété est unique
Tout système a un seul responsable quand il casse. Les comités ne résolvent pas les pannes. Une propriété claire réduit l’hésitation, raccourcit les incidents et rend les arbitrages explicites. La propriété unique échange du débit contre de la responsabilité. Sous panne, la responsabilité gagne.
Règle 03
La panne a des frontières
Les pannes s’arrêtent quelque part, exprès. La panne est inévitable; sa propagation est optionnelle.
Les systèmes bien conçus définissent leurs frontières dès le départ pour que les pannes restent locales plutôt qu'en cascade.
Les services voisins continuent à fonctionner, les opérateurs gardent l’accès, et la reprise reste possible.
Règle 04
L’échelle ne supprime pas la panne
Même les gros fournisseurs subissent des pannes. La taille réduit certains risques, mais la visibilité augmente la pression. Ce qui compte, c’est comment la panne est communiquée, contenue, et résolue.
Règle 05
La supervision dit la vérité
Si les tableaux de bord mentent, les décisions le feront aussi. La supervision existe pour réduire les disputes, pas pour rassurer. La panne partielle doit être visible, même quand c’est gênant.
Règle 06
La reprise se conçoit
L’espoir n’est pas une stratégie de reprise. Sauvegardes, restaurations et procédures font partie de la conception du système,
pas quelque chose qu'on ajoute après coup.
Règle 07
Les systèmes dérivent par défaut
La stabilité demande une correction continue. Les accès s’accumulent. Les hypothèses vieillissent. La doc se détériore. La dérive est normale; l’ignorer ne l’est pas.
Règle 08
La doc reflète la réalité
Si ce n’est pas écrit, c’est du folklore. La doc doit décrire ce qui existe réellement, pas ce qui était prévu, imaginé ou promis.
Règle 09
Les accès créent du risque
Les identifiants vieillissent mal. L’accès doit être délibéré, revu et révocable. Les clés oubliées sont une cause fréquente de désastres silencieux.
Règle 10
Le trafic est séparé
Les chemins de contrôle sont volontairement simples.
Le trafic d’administration ne concurrence pas le trafic de production. Quand ça casse, les opérateurs doivent toujours pouvoir entrer.
Règle 11
Le silence est un signal
Une donnée absente dit quand même quelque chose. Le silence peut signifier la stabilité ou une visibilité cassée.
Les systèmes doivent distinguer les deux.
Règle 12
La retenue se cumule
Le bon dimensionnement est la règle par défaut. Les systèmes plus petits consomment moins de tout: moins d’énergie, moins d’attention, moins de surface exposée aux problèmes. La marge de capacité est intentionnelle, pas une assurance contre une pensée floue. Une consommation énergétique plus basse, moins d’alertes, moins de migrations: tout vient de la même discipline.
Ce que cette page ne fait pas§ 3
Ces principes ne prescrivent ni fournisseurs, ni plateformes, ni topologies. Ils
survivent aux changements d’outillage. Transformer des principes en systèmes concrets
demande des contraintes, des arbitrages et de la responsabilité. Ce travail commence
en amont.
Certains des exemples les plus clairs d’infrastructure calme
apparaissent dans les environnements fermés, où la panne n’est pas une option.
Vaisseaux spatiaux, sous-marins, stations de recherche isolées, habitats souterrains
et autres environnements scellés doivent fonctionner longtemps sans intervention
constante. Leurs systèmes sont conçus autour de la stabilité, de la supervision,
de la redondance et d’une responsabilité claire.
L’air et l'eau sont recyclés. L’électricité reste stable. Les pannes
sont anticipées avant de se produire.
Ces environnements révèlent une vérité importante: la meilleure infrastructure
est rarement visible. Elle maintient simplement les conditions qui permettent à tout
le reste de fonctionner.
L’infrastructure numérique tire bénéfice de la même philosophie. Les systèmes
doivent fonctionner discrètement en arrière-plan et soutenir sans se faire remarquer.
Un chemin séparé pour le contrôle§ 5
Les chemins d'administration sont conçus indépendamment du trafic de production.
Quand la production se dégrade, les opérateurs doivent toujours
conserver au moins un accès partiel et de la visibilité.
C’est une contrainte de conception, pas une préférence.
Un réseau de contrôle dédié relie les composants d’infrastructure, réduisant
l’exposition et les frictions opérationnelles, tout en restant prévisible et utilisable
même dégradé.
Serveurs & VMs
Serveurs et machines virtuelles gérés.
Supervision
Systèmes de supervision et observabilité.
Cibles de sauvegarde
Cibles de sauvegarde et de réplication.
Accès admin
Points d’accès administrateur.
Ce réseau de gestion privé n’est ni une frontière de sécurité, ni un produit, ni
un substitut aux contrôles applicatifs. Son but est volontairement banal:
une connectivité stable, simple et prévisible, qui continue à fonctionner pendant
que les systèmes évoluent.
Discutons de votre infrastructure§ 6
Transformer des principes en architecture concrète demande de comprendre les
contraintes, la tolérance au risque et la responsabilité opérationnelle. Ce travail
relève de la conception d’infrastructure.