Ce module est un rappel rapide pour les participants ayant besoin d'une remise àniveau sur les concepts de base.
1.Rappel Cloud et architectures distribuées (15 min)
- Cloud : IaaS, PaaS, SaaS, élasticité, haute disponibilité
- Observabilité : comprendre ses systèmes
- Défis des systèmes distribués (latence, pannes partielles, cohérence)
2.Rappel DevOps (10 min)
- Mouvance DevOps et piliers CALMS
- Dora metrics
- CI/CD et Infrastructure as Code (concepts clés)
3. Quiz de validation rapide (5 min)
- Vérifier la compréhension des concepts essentiels avant d'entrer dans le SRE
I. Introduction au Site Reliability Engineering (1h)
1.Pourquoi le SRE ?
- La complexité croissante des systèmes distribués
- Le coût réel des incidents (financier, réputationnel, humain)
- Aligner rapidité de développement et fiabilité opérationnelle
2. Histoire et origines
- Naissance du SRE chez Google
- Les 7 principes fondamentaux de Google SRE
3. SRE vs DevOps vs Ops traditionnel
- Positionnement et complémentarité
- Le SRE comme implémentation concrète du DevOps
II. Mesurer la fiabilité : SLI, SLO et Error Budget (1h45)
1.Les Service Level Indicators (SLI)
- Qu'est-ce qu'un bon SLI ?
- Indicateurs centrés utilisateur vs techniques
- Exemples : latence, disponibilité, débit, qualité de réponse
2. Les Service Level Objectives (SLO)
- Définir des objectifs mesurables de fiabilité
- Choisir le bon niveau de fiabilité (99% vs 99.9% vs 99.99%)
- Éviter le perfectionnisme : le coût de la sur-fiabilité
3. Intégrer la sécurité dans la fiabilité (DevSecOps)
- La sécurité comme composante de la fiabilité
- SLI de sécurité : temps de détection, temps de remédiation
- SLO de confidentialité et conformité (RGPD, authentification)
4. L'Error Budget : arbitrer en toute transparence
- Calcul et utilisation de l'Error Budget
- Gouvernance : quand innover, quand stabiliser
- La “Error Budget Policy” comme contrat Dev/Ops/Sec
5. 🛠️Atelier pratique (35 min)
- Définir des SLIs pour un parcours utilisateur (exemple : e-commerce)
- Ajouter un SLI de sécurité (ex : taux d'authentifications échouées)
- Calculer le SLO cible et l'Error Budget associé
- Simuler une décision : déployer une feature ou stabiliser ?
III. Les responsabilités clés du SRE (1h)
1.Automatisation et ingénierie
- Écrire du code pour éliminer les tâches manuelles
- Infrastructure as Code, CI/CD et déploiements automatisés
2. Monitoring, observabilité et alertes
- Les 4 signaux dorés (latence, trafic, erreurs, saturation)
- Créer des alertes actionnables (éviter le bruit)
3. Gestion des incidents et post-mortem blameless
- Rôles clés : Incident Commander, Ops Lead, Communication Lead
- Culture d'apprentissage sans reproche
- Structure d'un post-mortem efficace
4. 🛠️Jeu de rôle (20 min)
- Simulation d'une gestion d'incident avec répartition des rôles
- Rédaction collaborative d'un post-mortem (template simplifié)
IV. Réduire le toil et renforcer la fiabilité par la résilience (1h15)
1.Qu'est-ce que le “toil” ?
- Les 5 caractéristiques du toil selon Google
- Budget de temps : 50% ingénierie, max 50% toil
- Stratégies de réduction par l'automatisation
2. Conception de systèmes résilients (25 min)
-Principes : fail-fast, graceful degradation, isolation
-Patterns d'architecture pour la fiabilité
- Circuit Breaker : protéger contre les défaillances en cascade
- Retry avec backoff : gérer les erreurs transitoires
- Timeout : éviter les attentes infinies
- Fallback : réponse dégradée plutôt qu'erreur
- Bulkhead : isoler les ressources critiques
-Chaos Engineering : introduction
3. 🛠️Atelier pratique (25 min)
-Partie 1 (12 min) : Audit de toil
- Classifier des tâches (Toil vs Engineering)
- Proposer un plan d'automatisation
-Partie 2 (13 min) :
- Analyser une architectureIdentifier les points de défaillance
- Proposer des patterns de résilience (circuit breaker, retry, fallback)
V. Le SRE comme culture, rôle et gouvernance (1h30)
1.Culture SRE : collaboration Dev/Ops/Sec
- Partage de responsabilité (shared ownership)
- Blameless culture et communication data-driven
- Transparence et confiance entre équipes
2. Positionner le SRE dans la DSI
- Modèles organisationnels (embedded, platform, consulting)
- Créer un langage commun entre Dev, Ops, Sécurité et Métier
- Le SRE comme catalyseur de transformation
3. Gouvernance et reporting pour les managers (25 min)
- Définir et suivre les KPIs SRE : MTTR, MTBF, MTTA disponibilité, Error Bud‐get burn rate
- Reporting stakeholders : traduire métriques techniques en impact business
- Communication des incidents et post-mortems au management
- Justifier les arbitrages : coût de la fiabilité vs coût de l'incident
- Aligner les objectifs SRE avec les OKRs métier
- Créer un dashboard exécutif de fiabilité
4. Amélioration continue et impact business
- Observer le service avec les yeux de l'utilisateur
- Prioriser ce qui a de l'impact client et métier
5. Construire une roadmap SRE
- Par où commencer ? Quick wins vs transformation longue
- Mesurer le succès d'une démarche SRE
6. 🛠️Étude de cas (25 min)
- Analyse d'une panne réelle (Google, Spotify, AWS)
- Identifier manquements et bonnes pratiques appliquées
- Proposer une Error Budget Policy adaptée
- Préparer un pitch de 3 minutes pour présenter les enseignements au COMEX
VI. Conclusion et synthèse (30 min)
1.Récapitulatif des concepts clés
2. Ressources pour aller plus loin
- Livres : “Site Reliability Engineering” (Google)
- Communautés et certifications (SRE Foundation)
3. Questions/Réponses
4. Plan d'action personnel : premiers pas SRE dans votre organisation