Formations

Rechercher une formation

Retour

Domaines

Types

Formations

Découvrez nos formations pratiques et actualisées pour maîtriser les outils et technologies clés de votre domaine.

Les nouveautés

Sur-mesure

Des parcours conçus sur mesure, adaptés à vos besoins spécifiques et aux enjeux de votre équipe ou entreprise.

Retour

Domaines

Agilité

Architecture de services

Cloud

Craftsmanship

Data

Développement front-end

Infrastructure & devops

Intelligence artificielle

Langages de programmation

Numérique responsable & accessibilité

Observabilité

Product management

Sécurité

Retour

Types

Officielles

Exclusive Zenika

Formations

Domaines

Agilité

Architecture de services

Cloud

Craftsmanship

Data

Développement front-end

Infrastructure & devops

Intelligence artificielle

Langages de programmation

Numérique responsable & accessibilité

Observabilité

Product management

Sécurité

Types

Officielles

Exclusive Zenika

Formations

Découvrez nos formations pratiques et actualisées pour maîtriser les outils et technologies clés de votre domaine.

Les nouveautés

Sur-mesure

Des parcours conçus sur mesure, adaptés à vos besoins spécifiques et aux enjeux de votre équipe ou entreprise.

Parcours

Ateliers & conférences

Zenika Training

Rechercher une formation

Accueil

Formations

Les fondamentaux du SRE

Architecture de services

Les fondamentaux du SRE

À propos de la formation

Ratio théorie / pratique : 50 théorie / 50 % pratique

Le Site Reliability Engineering (SRE) est une approche développée par Google pour gérer la fiabilité des systèmes à grande échelle.

Dans un contexte où la complexité des architectures distribuées ne cesse de croître, le coût des incidents devient critique et la nécessité d’aligner rapidité de développement et fiabilité opérationnelle est essentielle.

Cette formation d’une journée s’adresse aux professionnels de l’IT qui souhaitent comprendre comment le SRE transforme la gestion des opérations en créant un langage com‐mun entre développement, opérations, sécurité et métier.

Un module de rappels rapides(30 min) est prévu en début de journée pour les participants ayant besoin de rafraîchir leurs connaissances sur le Cloud, les architectures distribuées et DevOps.

À travers un équilibre entre théorie et ateliers pratiques, les participants découvriront :

Les concepts fondamentaux du SRE : SLI, SLO et Error Budget
L’intégration de la sécurité dans la fiabilité (DevSecOps)
La conception de systèmes résilients et les patternsd’architecture (circuit breaker, retry, fallback)
L’automatisation du “toil” (labeur opérationnel) et la gestion des incidents
La gouvernance SRE et le reporting aux stakeholders(pour managers)

Les participants repartiront avec une compréhension concrète de la posture SRE, et des outils pour arbitrer en toute transparence entre innovation et stabilisation, tout en améliorant l’expérience utilisateur, en réduisant les risques récurrents, et en justifiant les décisions auprès du management.

Dernière mise à jour le 16/06/2026

Informations pratiques

Présentiel ou distanciel

50 théorie / 50 % pratique

Sur devis

Vos objectifs pédagogiques

À l'issue de cette formation, les participants seront capables de :

Comprendre le rôle du SRE et sa différence avec les approches DevOps et Ops traditionnelles
Expliquer comment le SRE garantit la fiabilité, la performance et la disponibilitétout en permettant la vitesse de développement
Définir des SLIs (Service Level Indicators) pertinents pour mesurer la fiabilité d'un service utilisateur, incluant des indicateurs de sécurité
Calculer des SLOs (Service Level Objectives) et l'Error Budget associé pour arbitrer entre innovation et stabilisation.
Intégrer la sécurité dans les objectifs de fiabilité (DevSecOps) et définir des SLI/SLO de sécurité.
Identifier le “toil” (labeur opérationnel) dans les workflows quotidiens et proposer des stratégies d'automatisation.
Concevoir des architectures résilientes en appliquant des patterns de fiabilité (circuitbreaker, retry, fallback, bulkhead).
Appliquer les bonnes pratiques de gestion d'incidents et de post-mortem sans reproche (blameless).
Analyser l'impact du SRE sur l'expérience utilisateur et les priorités métier.
Évaluer comment positionner le SRE dans une organisation DSI pour créer un rôle transverse efficace.
Concevoir une Error Budget Policy pour gouverner les décisions entre équipes Dev,Ops et Sec.
Communiquer les métriques SRE aux stakeholders et justifier les arbitrages de fiabilité en termes business (pour managers).
Construire un dashboard de gouvernance et un plan de reporting adapté aumanagement.

Publics visés

Managers IT et responsables d'applications cherchant à améliorer la fiabilité de leursservices, Product Owners et Product Managers souhaitant mieux arbitrer entre vélocité et stabilité, Architectes (entreprise, solution, technique) désirant intégrer la fiabilité dès la conception, Leads techniques et Dev leads voulant comprendre les pratiques SRE pour leurs équipes, Équipes SRE, Production, Exploitation et Observabilité cherchant à structurer leurs pratiques, Développeurs, QA et Recette souhaitant partager la responsabilité de la fiabilité avec les Ops

Pré-requis

Compréhension de base du cycle de vie du développement logiciel (SDLC)
Connaissance des concepts fondamentaux du Cloud et de l'observabilitérecommandée
Familiarité avec les principes DevOps (Culture, Automation, Measurement, Sharing)recommandée
Expérience en développement, opérations, architecture ou management IT
Aucune maîtrise d'un langage de programmation spécifique ou d'outils techniques(Terraform, Kubernetes) n'est requise

Note : Pour les participants ayant besoin d'un rappel sur les fondamentaux Cloud, architectures distribuées ou DevOps, un module de mise à niveau rapide (30 min) est prévu en début de journée (Module 0).

Tout savoir sur cette formation

Le programme

Ce module est un rappel rapide pour les participants ayant besoin d'une remise àniveau sur les concepts de base.

1.Rappel Cloud et architectures distribuées (15 min)

Cloud : IaaS, PaaS, SaaS, élasticité, haute disponibilité
Observabilité : comprendre ses systèmes
Défis des systèmes distribués (latence, pannes partielles, cohérence)

2.Rappel DevOps (10 min)

Mouvance DevOps et piliers CALMS
Dora metrics
CI/CD et Infrastructure as Code (concepts clés)

3. Quiz de validation rapide (5 min)

Vérifier la compréhension des concepts essentiels avant d'entrer dans le SRE

I. Introduction au Site Reliability Engineering (1h)

1.Pourquoi le SRE ?

La complexité croissante des systèmes distribués
Le coût réel des incidents (financier, réputationnel, humain)
Aligner rapidité de développement et fiabilité opérationnelle

2. Histoire et origines

Naissance du SRE chez Google
Les 7 principes fondamentaux de Google SRE

3. SRE vs DevOps vs Ops traditionnel

Positionnement et complémentarité
Le SRE comme implémentation concrète du DevOps

II. Mesurer la fiabilité : SLI, SLO et Error Budget (1h45)

1.Les Service Level Indicators (SLI)

Qu'est-ce qu'un bon SLI ?
Indicateurs centrés utilisateur vs techniques
Exemples : latence, disponibilité, débit, qualité de réponse

2. Les Service Level Objectives (SLO)

Définir des objectifs mesurables de fiabilité
Choisir le bon niveau de fiabilité (99% vs 99.9% vs 99.99%)
Éviter le perfectionnisme : le coût de la sur-fiabilité

3. Intégrer la sécurité dans la fiabilité (DevSecOps)

La sécurité comme composante de la fiabilité
SLI de sécurité : temps de détection, temps de remédiation
SLO de confidentialité et conformité (RGPD, authentification)

4. L'Error Budget : arbitrer en toute transparence

Calcul et utilisation de l'Error Budget
Gouvernance : quand innover, quand stabiliser
La “Error Budget Policy” comme contrat Dev/Ops/Sec

5. 🛠️Atelier pratique (35 min)

Définir des SLIs pour un parcours utilisateur (exemple : e-commerce)
Ajouter un SLI de sécurité (ex : taux d'authentifications échouées)
Calculer le SLO cible et l'Error Budget associé
Simuler une décision : déployer une feature ou stabiliser ?

III. Les responsabilités clés du SRE (1h)

1.Automatisation et ingénierie

Écrire du code pour éliminer les tâches manuelles
Infrastructure as Code, CI/CD et déploiements automatisés

2. Monitoring, observabilité et alertes

Les 4 signaux dorés (latence, trafic, erreurs, saturation)
Créer des alertes actionnables (éviter le bruit)

3. Gestion des incidents et post-mortem blameless

Rôles clés : Incident Commander, Ops Lead, Communication Lead
Culture d'apprentissage sans reproche
Structure d'un post-mortem efficace

4. 🛠️Jeu de rôle (20 min)

Simulation d'une gestion d'incident avec répartition des rôles
Rédaction collaborative d'un post-mortem (template simplifié)

IV. Réduire le toil et renforcer la fiabilité par la résilience (1h15)

1.Qu'est-ce que le “toil” ?

Les 5 caractéristiques du toil selon Google
Budget de temps : 50% ingénierie, max 50% toil
Stratégies de réduction par l'automatisation

2. Conception de systèmes résilients (25 min)

-Principes : fail-fast, graceful degradation, isolation

-Patterns d'architecture pour la fiabilité

Circuit Breaker : protéger contre les défaillances en cascade
Retry avec backoff : gérer les erreurs transitoires
Timeout : éviter les attentes infinies
Fallback : réponse dégradée plutôt qu'erreur
Bulkhead : isoler les ressources critiques

-Chaos Engineering : introduction

3. 🛠️Atelier pratique (25 min)

-Partie 1 (12 min) : Audit de toil

Classifier des tâches (Toil vs Engineering)
Proposer un plan d'automatisation

-Partie 2 (13 min) :

Analyser une architectureIdentifier les points de défaillance
Proposer des patterns de résilience (circuit breaker, retry, fallback)

V. Le SRE comme culture, rôle et gouvernance (1h30)

1.Culture SRE : collaboration Dev/Ops/Sec

Partage de responsabilité (shared ownership)
Blameless culture et communication data-driven
Transparence et confiance entre équipes

2. Positionner le SRE dans la DSI

Modèles organisationnels (embedded, platform, consulting)
Créer un langage commun entre Dev, Ops, Sécurité et Métier
Le SRE comme catalyseur de transformation

3. Gouvernance et reporting pour les managers (25 min)

Définir et suivre les KPIs SRE : MTTR, MTBF, MTTA disponibilité, Error Bud‐get burn rate
Reporting stakeholders : traduire métriques techniques en impact business
Communication des incidents et post-mortems au management
Justifier les arbitrages : coût de la fiabilité vs coût de l'incident
Aligner les objectifs SRE avec les OKRs métier
Créer un dashboard exécutif de fiabilité

4. Amélioration continue et impact business

Observer le service avec les yeux de l'utilisateur
Prioriser ce qui a de l'impact client et métier

5. Construire une roadmap SRE

Par où commencer ? Quick wins vs transformation longue
Mesurer le succès d'une démarche SRE

6. 🛠️Étude de cas (25 min)

Analyse d'une panne réelle (Google, Spotify, AWS)
Identifier manquements et bonnes pratiques appliquées
Proposer une Error Budget Policy adaptée
Préparer un pitch de 3 minutes pour présenter les enseignements au COMEX

VI. Conclusion et synthèse (30 min)

1.Récapitulatif des concepts clés

2. Ressources pour aller plus loin

Livres : “Site Reliability Engineering” (Google)
Communautés et certifications (SRE Foundation)

3. Questions/Réponses

4. Plan d'action personnel : premiers pas SRE dans votre organisation

Modalités pédagogiques et évaluation des acquis

En amont de la formation, les stagiaires reçoivent un questionnaire permettant de mesurer leurs attentes, leurs compétences et leur niveau à l'entrée de la formation. Ce questionnaire est conçu pour recueillir des informations précieuses sur le parcours professionnel des participants, leurs motivations personnelles ainsi que les compétences spécifiques qu'ils souhaitent développer. Cela permet aux formateurs d'adapter le contenu de la formation en fonction des besoins identifiés.

Tout au long de la formation, la progression et l'atteinte des objectifs pédagogiques des stagiaires sont évaluées, au travers de :

travaux pratiques, qui incluent des exercices concrets permettant d'appliquer les connaissances théoriques acquises dans un contexte réel.
échanges entre pairs, favorisant une dynamique collaborative où les stagiaires peuvent partager leurs expériences et apprendre les uns des autres.
mises en situation concrètes, simulant des scénarios professionnels afin d'évaluer la capacité des stagiaires à réagir et à s'adapter face à diverses situations.

Durant la dernière heure de la formation, un questionnaire d'évaluation ainsi qu'un questionnaire à chaud de fin de formation seront soumis à chaque stagiaire pour s'assurer de la bonne acquisition des compétences tout au long de la formation et de l'adéquation de ces acquis avec les attentes des stagiaires (émis en amont de la formation). Ce processus d'évaluation permet également aux formateurs d'obtenir un retour constructif sur le déroulement du programme et d'identifier les points à améliorer pour les prochaines sessions.

Dans le cas d'une formation officielle éditeur, n'hésitez pas à nous consulter afin que nous vous fassions part des modalités d'évaluation des acquis. Nous sommes également disponibles pour discuter des certifications possibles qui pourraient être délivrées à l'issue de cette formation, garantissant ainsi une reconnaissance officielle des compétences acquises par les participants.

Contact assistance technique et pédagogique : en cas de problème, n'hésitez pas à nous contacter à l'adresse mail : training@zenika.com (3 personnes sont derrière cette adresse mail et vous répondront dans les plus brefs délais)

Les ressources pédagogiques

Les informations sur l'accessibilité

Vos formateurs dédiés

Jules Agostini

Glenn Feunteun

Valentin MARIETTE

Cette formation vous intéresse ? Inscrivez-vous à la prochaine session !

Vous avez deux options : validez votre inscription en réglant dès maintenant ou effectuez une demande de préinscription auprès de notre équipe commerciale.

Vous ne trouvez pas de session ou de formation qui vous convienne ?

Planifions ensemble une session sur-mesure, inter ou intra entreprise qui correspond à vos besoins.

Découvrez nos autres formations dans le même domaine

Architecture de services

Développement d'applications Cloud Ready avec Quarkus

(4.9 / 5)

Le nouveau framework de développement de Microservice en Java

28 sept.

1 800.00

Architecture de services

Kong Gateway pour les administrateurs

Maintenir, opérer et superviser cette plateforme complète d'API Management.

Sur devis

Architecture de services

Kong Gateway les fondations

(4.3 / 5)

Les bases nécessaires à la maîtrise de la solution d'API management Kong Gateway.

850.00

Architecture de services

Kong Gateway pour les développeurs

Concevoir, tester et automatiser vos APIs avec Kong Gateway

05 oct.

1 490.00

Accueil

Formations

Les fondamentaux du SRE

Architecture de services

Les fondamentaux du SRE

À propos de la formation

Ratio théorie / pratique : 50 théorie / 50 % pratique

Le Site Reliability Engineering (SRE) est une approche développée par Google pour gérer la fiabilité des systèmes à grande échelle.

Un module de rappels rapides(30 min) est prévu en début de journée pour les participants ayant besoin de rafraîchir leurs connaissances sur le Cloud, les architectures distribuées et DevOps.

À travers un équilibre entre théorie et ateliers pratiques, les participants découvriront :

Les concepts fondamentaux du SRE : SLI, SLO et Error Budget
L’intégration de la sécurité dans la fiabilité (DevSecOps)
La conception de systèmes résilients et les patternsd’architecture (circuit breaker, retry, fallback)
L’automatisation du “toil” (labeur opérationnel) et la gestion des incidents
La gouvernance SRE et le reporting aux stakeholders(pour managers)

Dernière mise à jour le 16/06/2026

Informations pratiques

Présentiel ou distanciel

50 théorie / 50 % pratique

Sur devis

Vos objectifs pédagogiques

À l'issue de cette formation, les participants seront capables de :

Comprendre le rôle du SRE et sa différence avec les approches DevOps et Ops traditionnelles
Expliquer comment le SRE garantit la fiabilité, la performance et la disponibilitétout en permettant la vitesse de développement
Définir des SLIs (Service Level Indicators) pertinents pour mesurer la fiabilité d'un service utilisateur, incluant des indicateurs de sécurité
Calculer des SLOs (Service Level Objectives) et l'Error Budget associé pour arbitrer entre innovation et stabilisation.
Intégrer la sécurité dans les objectifs de fiabilité (DevSecOps) et définir des SLI/SLO de sécurité.
Identifier le “toil” (labeur opérationnel) dans les workflows quotidiens et proposer des stratégies d'automatisation.
Concevoir des architectures résilientes en appliquant des patterns de fiabilité (circuitbreaker, retry, fallback, bulkhead).
Appliquer les bonnes pratiques de gestion d'incidents et de post-mortem sans reproche (blameless).
Analyser l'impact du SRE sur l'expérience utilisateur et les priorités métier.
Évaluer comment positionner le SRE dans une organisation DSI pour créer un rôle transverse efficace.
Concevoir une Error Budget Policy pour gouverner les décisions entre équipes Dev,Ops et Sec.
Communiquer les métriques SRE aux stakeholders et justifier les arbitrages de fiabilité en termes business (pour managers).
Construire un dashboard de gouvernance et un plan de reporting adapté aumanagement.

Publics visés

Pré-requis

Compréhension de base du cycle de vie du développement logiciel (SDLC)
Connaissance des concepts fondamentaux du Cloud et de l'observabilitérecommandée
Familiarité avec les principes DevOps (Culture, Automation, Measurement, Sharing)recommandée
Expérience en développement, opérations, architecture ou management IT
Aucune maîtrise d'un langage de programmation spécifique ou d'outils techniques(Terraform, Kubernetes) n'est requise

Tout savoir sur cette formation

Le programme

Ce module est un rappel rapide pour les participants ayant besoin d'une remise àniveau sur les concepts de base.

1.Rappel Cloud et architectures distribuées (15 min)

Cloud : IaaS, PaaS, SaaS, élasticité, haute disponibilité
Observabilité : comprendre ses systèmes
Défis des systèmes distribués (latence, pannes partielles, cohérence)

2.Rappel DevOps (10 min)

Mouvance DevOps et piliers CALMS
Dora metrics
CI/CD et Infrastructure as Code (concepts clés)

3. Quiz de validation rapide (5 min)

Vérifier la compréhension des concepts essentiels avant d'entrer dans le SRE

I. Introduction au Site Reliability Engineering (1h)

1.Pourquoi le SRE ?

La complexité croissante des systèmes distribués
Le coût réel des incidents (financier, réputationnel, humain)
Aligner rapidité de développement et fiabilité opérationnelle

2. Histoire et origines

Naissance du SRE chez Google
Les 7 principes fondamentaux de Google SRE

3. SRE vs DevOps vs Ops traditionnel

Positionnement et complémentarité
Le SRE comme implémentation concrète du DevOps

II. Mesurer la fiabilité : SLI, SLO et Error Budget (1h45)

1.Les Service Level Indicators (SLI)

Qu'est-ce qu'un bon SLI ?
Indicateurs centrés utilisateur vs techniques
Exemples : latence, disponibilité, débit, qualité de réponse

2. Les Service Level Objectives (SLO)

Définir des objectifs mesurables de fiabilité
Choisir le bon niveau de fiabilité (99% vs 99.9% vs 99.99%)
Éviter le perfectionnisme : le coût de la sur-fiabilité

3. Intégrer la sécurité dans la fiabilité (DevSecOps)

La sécurité comme composante de la fiabilité
SLI de sécurité : temps de détection, temps de remédiation
SLO de confidentialité et conformité (RGPD, authentification)

4. L'Error Budget : arbitrer en toute transparence

Calcul et utilisation de l'Error Budget
Gouvernance : quand innover, quand stabiliser
La “Error Budget Policy” comme contrat Dev/Ops/Sec

5. 🛠️Atelier pratique (35 min)

Définir des SLIs pour un parcours utilisateur (exemple : e-commerce)
Ajouter un SLI de sécurité (ex : taux d'authentifications échouées)
Calculer le SLO cible et l'Error Budget associé
Simuler une décision : déployer une feature ou stabiliser ?

III. Les responsabilités clés du SRE (1h)

1.Automatisation et ingénierie

Écrire du code pour éliminer les tâches manuelles
Infrastructure as Code, CI/CD et déploiements automatisés

2. Monitoring, observabilité et alertes

Les 4 signaux dorés (latence, trafic, erreurs, saturation)
Créer des alertes actionnables (éviter le bruit)

3. Gestion des incidents et post-mortem blameless

Rôles clés : Incident Commander, Ops Lead, Communication Lead
Culture d'apprentissage sans reproche
Structure d'un post-mortem efficace

4. 🛠️Jeu de rôle (20 min)

Simulation d'une gestion d'incident avec répartition des rôles
Rédaction collaborative d'un post-mortem (template simplifié)

IV. Réduire le toil et renforcer la fiabilité par la résilience (1h15)

1.Qu'est-ce que le “toil” ?

Les 5 caractéristiques du toil selon Google
Budget de temps : 50% ingénierie, max 50% toil
Stratégies de réduction par l'automatisation

2. Conception de systèmes résilients (25 min)

-Principes : fail-fast, graceful degradation, isolation

-Patterns d'architecture pour la fiabilité

Circuit Breaker : protéger contre les défaillances en cascade
Retry avec backoff : gérer les erreurs transitoires
Timeout : éviter les attentes infinies
Fallback : réponse dégradée plutôt qu'erreur
Bulkhead : isoler les ressources critiques

-Chaos Engineering : introduction

3. 🛠️Atelier pratique (25 min)

-Partie 1 (12 min) : Audit de toil

Classifier des tâches (Toil vs Engineering)
Proposer un plan d'automatisation

-Partie 2 (13 min) :

Analyser une architectureIdentifier les points de défaillance
Proposer des patterns de résilience (circuit breaker, retry, fallback)

V. Le SRE comme culture, rôle et gouvernance (1h30)

1.Culture SRE : collaboration Dev/Ops/Sec

Partage de responsabilité (shared ownership)
Blameless culture et communication data-driven
Transparence et confiance entre équipes

2. Positionner le SRE dans la DSI

Modèles organisationnels (embedded, platform, consulting)
Créer un langage commun entre Dev, Ops, Sécurité et Métier
Le SRE comme catalyseur de transformation

3. Gouvernance et reporting pour les managers (25 min)

Définir et suivre les KPIs SRE : MTTR, MTBF, MTTA disponibilité, Error Bud‐get burn rate
Reporting stakeholders : traduire métriques techniques en impact business
Communication des incidents et post-mortems au management
Justifier les arbitrages : coût de la fiabilité vs coût de l'incident
Aligner les objectifs SRE avec les OKRs métier
Créer un dashboard exécutif de fiabilité

4. Amélioration continue et impact business

Observer le service avec les yeux de l'utilisateur
Prioriser ce qui a de l'impact client et métier

5. Construire une roadmap SRE

Par où commencer ? Quick wins vs transformation longue
Mesurer le succès d'une démarche SRE

6. 🛠️Étude de cas (25 min)

Analyse d'une panne réelle (Google, Spotify, AWS)
Identifier manquements et bonnes pratiques appliquées
Proposer une Error Budget Policy adaptée
Préparer un pitch de 3 minutes pour présenter les enseignements au COMEX

VI. Conclusion et synthèse (30 min)

1.Récapitulatif des concepts clés

2. Ressources pour aller plus loin

Livres : “Site Reliability Engineering” (Google)
Communautés et certifications (SRE Foundation)

3. Questions/Réponses

4. Plan d'action personnel : premiers pas SRE dans votre organisation

Modalités pédagogiques et évaluation des acquis

Tout au long de la formation, la progression et l'atteinte des objectifs pédagogiques des stagiaires sont évaluées, au travers de :

travaux pratiques, qui incluent des exercices concrets permettant d'appliquer les connaissances théoriques acquises dans un contexte réel.
échanges entre pairs, favorisant une dynamique collaborative où les stagiaires peuvent partager leurs expériences et apprendre les uns des autres.
mises en situation concrètes, simulant des scénarios professionnels afin d'évaluer la capacité des stagiaires à réagir et à s'adapter face à diverses situations.

Les ressources pédagogiques

Les informations sur l'accessibilité

Vos formateurs dédiés

Jules Agostini

Glenn Feunteun

Valentin MARIETTE

Cette formation vous intéresse ? Inscrivez-vous à la prochaine session !

Vous avez deux options : validez votre inscription en réglant dès maintenant ou effectuez une demande de préinscription auprès de notre équipe commerciale.