Douze principes d’architecture Linux

Pourquoi ces principes existent

§ 1

Les systèmes qui durent partagent des traits, quelle que soit leur taille ou leur outillage. Ils reconnaissent le temps, les humains, la panne et l’ennui.

Ces principes ne sont pas un idéal. C’est ce qui reste après des années d’incidents, de reprises, d’audits, de migrations, de mardis tranquilles, et d’astreintes le soir du 31.

Si quelque chose ici paraît prudent, c’est volontaire. La philosophie Unix, faite de petits outils composables qui font une chose et la font bien, se prolonge dans l’exploitation de la même manière. L’infrastructure gagne la confiance lentement.

Règles

douze principes

§ 2

Règle 01

Le contrôle est toujours partiel

Quel que soit votre niveau, la fiabilité dépend des fournisseurs amont, des chaînes d’approvisionnement matériel, des réseaux que vous ne possédez pas, du comportement client, des contraintes budgétaires et de la vitesse de changement hors de votre contrôle. Un SLA convertit un contrôle partiel en responsabilité totale.

Règle 02

La propriété est unique

Tout système a un seul responsable quand il casse. Les comités ne résolvent pas les pannes. Une propriété claire réduit l’hésitation, raccourcit les incidents et rend les arbitrages explicites. La propriété unique échange du débit contre de la responsabilité. Sous panne, la responsabilité gagne.

Règle 03

La panne a des frontières

Les pannes s’arrêtent quelque part, exprès. La panne est inévitable; sa propagation est optionnelle. Les systèmes bien conçus définissent leurs frontières dès le départ pour que les pannes restent locales plutôt qu'en cascade. Les services voisins continuent à fonctionner, les opérateurs gardent l’accès, et la reprise reste possible.

Règle 04

L’échelle ne supprime pas la panne

Même les gros fournisseurs subissent des pannes. La taille réduit certains risques, mais la visibilité augmente la pression. Ce qui compte, c’est comment la panne est communiquée, contenue, et résolue.

Règle 05

La supervision dit la vérité

Si les tableaux de bord mentent, les décisions le feront aussi. La supervision existe pour réduire les disputes, pas pour rassurer. La panne partielle doit être visible, même quand c’est gênant.

Règle 06

La reprise se conçoit

L’espoir n’est pas une stratégie de reprise. Sauvegardes, restaurations et procédures font partie de la conception du système, pas quelque chose qu'on ajoute après coup.

Règle 07

Les systèmes dérivent par défaut

La stabilité demande une correction continue. Les accès s’accumulent. Les hypothèses vieillissent. La doc se détériore. La dérive est normale; l’ignorer ne l’est pas.

Règle 08

La doc reflète la réalité

Si ce n’est pas écrit, c’est du folklore. La doc doit décrire ce qui existe réellement, pas ce qui était prévu, imaginé ou promis.

Règle 09

Les accès créent du risque

Les identifiants vieillissent mal. L’accès doit être délibéré, revu et révocable. Les clés oubliées sont une cause fréquente de désastres silencieux.

Règle 10

Le trafic est séparé

Les chemins de contrôle sont volontairement simples. Le trafic d’administration ne concurrence pas le trafic de production. Quand ça casse, les opérateurs doivent toujours pouvoir entrer.

Règle 11

Le silence est un signal

Une donnée absente dit quand même quelque chose. Le silence peut signifier la stabilité ou une visibilité cassée. Les systèmes doivent distinguer les deux.

Règle 12

La retenue se cumule

Le bon dimensionnement est la règle par défaut. Les systèmes plus petits consomment moins de tout: moins d’énergie, moins d’attention, moins de surface exposée aux problèmes. La marge de capacité est intentionnelle, pas une assurance contre une pensée floue. Une consommation énergétique plus basse, moins d’alertes, moins de migrations: tout vient de la même discipline.

Ce que cette page ne fait pas

§ 3

Ces principes ne prescrivent ni fournisseurs, ni plateformes, ni topologies. Ils survivent aux changements d’outillage. Transformer des principes en systèmes concrets demande des contraintes, des arbitrages et de la responsabilité. Ce travail commence en amont.

Conception d’infrastructure

Leçons des systèmes fermés

§ 4

Certains des exemples les plus clairs d’infrastructure calme apparaissent dans les environnements fermés, où la panne n’est pas une option.

Vaisseaux spatiaux, sous-marins, stations de recherche isolées, habitats souterrains et autres environnements scellés doivent fonctionner longtemps sans intervention constante. Leurs systèmes sont conçus autour de la stabilité, de la supervision, de la redondance et d’une responsabilité claire.

L’air et l'eau sont recyclés. L’électricité reste stable. Les pannes sont anticipées avant de se produire.

Ces environnements révèlent une vérité importante: la meilleure infrastructure est rarement visible. Elle maintient simplement les conditions qui permettent à tout le reste de fonctionner.

L’infrastructure numérique tire bénéfice de la même philosophie. Les systèmes doivent fonctionner discrètement en arrière-plan et soutenir sans se faire remarquer.

Un chemin séparé pour le contrôle

§ 5

Les chemins d'administration sont conçus indépendamment du trafic de production.

Quand la production se dégrade, les opérateurs doivent toujours conserver au moins un accès partiel et de la visibilité. C’est une contrainte de conception, pas une préférence.

Un réseau de contrôle dédié relie les composants d’infrastructure, réduisant l’exposition et les frictions opérationnelles, tout en restant prévisible et utilisable même dégradé.

Serveurs & VMs

Serveurs et machines virtuelles gérés.

Supervision

Systèmes de supervision et observabilité.

Cibles de sauvegarde

Cibles de sauvegarde et de réplication.

Accès admin

Points d’accès administrateur.

Ce réseau de gestion privé n’est ni une frontière de sécurité, ni un produit, ni un substitut aux contrôles applicatifs. Son but est volontairement banal: une connectivité stable, simple et prévisible, qui continue à fonctionner pendant que les systèmes évoluent.

Discutons de votre infrastructure

§ 6

Transformer des principes en architecture concrète demande de comprendre les contraintes, la tolérance au risque et la responsabilité opérationnelle. Ce travail relève de la conception d’infrastructure.

Discutons de votre infrastructure →

Douze principes d’architecture Linux pour des systèmes qui survivent à la réalité