Introduction aux outils Google Cloud Monitoring
- Comprendre le rôle et les possibilités des outils de Google Cloud centrés sur l'exploitation : Logging, Monitoring, Error Reporting et Service Monitoring
- Comprendre le rôle et les possibilités des outils de Google Cloud centrés sur les performances applicatives : Debugger, Trace et Profiler
Pour éviter de décevoir les clients
- Créer la base de la surveillance à partir des quatre signaux clés : latence, trafic, erreurs et saturation
- Définir des mesures système critiques avec des indicateurs de niveau de service (SLI, Service Level Indicator)
- Évaluer la satisfaction des clients et leur éviter de mauvaises surprises grâce aux SLO (objectifs de niveau de service) et aux SLA (contrats de niveau de service )
- Favoriser la cohésion entre les équipes de développement et d'exploitation avec des marges d'erreur basées sur les SLO
Surveillance des systèmes critiques
- Choisir les bonnes pratiques en matière de surveillance des architectures de projet
- Différencier les rôles Cloud IAM pour la surveillance
- Utiliser les tableaux de bord par défaut de manière appropriée
- Créer des tableaux de bord personnalisés pour afficher la consommation des ressources et la charge d'application
- Définir des tests de disponibilité pour évaluer la réactivité et la latence
Règles d'alerte
- Élaborer des stratégies d'alerte
- Définir des règles d'alerte
- Ajouter des canaux de notification
- Identifier les différents types d'alertes et leurs utilisations courantes
- Créer et générer des alertes sur des groupes de ressources
- Gérer des règles d'alerte de manière automatisée
Journalisation et analyse avancées
- Identifier et choisir parmi les approches d'ajout de tags aux ressources
- Définir des récepteurs de journaux (filtres d'inclusion) et des filtres d'exclusion
- Créer des métriques basées sur les journaux
- Exporter des journaux vers BigQuery
Utiliser les journaux d'audit
- Utiliser les journaux d'audit de l'activité d'administration, de l'accès aux données et des événements système
- Suivre qui a fait quoi et quand
Configurer les services de Google Cloud pour l'observabilité
- Intégrer les agents Logging et Monitoring à des images et des VM Compute Engine
- Activer et utiliser Kubernetes Monitoring
- Étendre et clarifier Kubernetes Monitoring avec Prometheus
- Exposer des métriques personnalisées par le biais de code, et à l'aide d'OpenCensus
Surveiller les VPC Google Cloud
- Collecter et analyser les journaux de flux VPC, des règles de pare-feu et Cloud NAT
- Activer la mise en miroir de paquets
- Décrire les capacités du Network Intelligence Center
Gérer les incidents
- Gérer les incidents de manière systématique
- Définir les rôles de gestion des incidents et les canaux de communication
- Atténuer l'impact des incidents
- Trouver l'origine des problèmes
- Résoudre l'incident
- Documenter l'incident dans un processus post-mortem
Examiner les problèmes de performances des applications
- Utiliser Error Reporting pour identifier et comprendre les erreurs liées à vos applications
- Déboguer le code de production afin de corriger les défauts du code
- Tracer la latence à travers des couches d'interaction avec le service afin d'éliminer les goulots d'étranglement qui affectent les performances ;
- Profiler et identifier les fonctions gourmandes en ressources dans une application.
Optimiser les coûts de la surveillance
- Analyser les coûts d'utilisation des ressources pour les composants liés à la surveillance au sein de Google Cloud
- Implémenter des bonnes pratiques de contrôle des coûts de surveillance au sein de Google Cloud.
Dernière mise à jour : le 04/05/2024 à 13:05