Formation Cassandra : DataStax Enterprise Analytics avec Apache Spark

Découvrez Spark, le moteur open-source d’analytique de données de DataStax Enterprise

Formation officielle
Formation officielle

Durée 2 jours
DS320

Contactez nous pour planifier
la prochaine session.

Description

Apprendre comment résoudre de façon efficace et performante des problématiques analytiques avec Apache Spark, Apache Cassandra et DataStax Enterprise. Les API Spark, le connecteur Spark-Cassandra, SparkSQL, Spark Streaming et l’optimisation des performances seront étudiés lors de cette formation.

Pré-requis : 

  • Avoir suivi la formation Apache Cassandra™: Concepts fondamentaux ou expérience équivalente.
  • Être à l'aise avec la ligne de commande Linux et avoir une première expérience dans le développement logiciel.

Public : 

  • Développeurs, administrateurs de bases de données et architectes qui souhaitent utiliser DataStax Enterprise dans un but analytique.

Pédagogie : 

40% théorie 60% pratique

Programme

Analytique avec Cassandra et Spark : introduction

  • Démarrer et configurer DSE Cassandra et Spark
  • Présentation de Cassandra et de Spark

Resilient Distributed Dataset (RDD)

  • Présentation des principales fonctionnalités du connecteur Spark- Cassandra
  • Opérations de bases sur les RDD
  • Utilisation des variables partagées
  • Plan d’exécution, évaluation à postériori (lazy evaluation) et persistance

Introduction aux Pair RDD

  • Utilisation des fonctions d’agrégation, de groupe et de tri
  • Utilisation des jointures, intersections, unions et différences
  • Comprendre et contrôler le partitionnement

Développer et exécuter des applications Sparks standalone

  • Utiliser Spark pour la transformation de données
  • Utiliser Spark pour l’analytique et l’analyse de données

Modèles de données et architecture pour l’utilisation de Spark Streaming

  • Développer et exécuter une application Spark streaming standalone
  • Présentations des transformations Spark Streaming
  • Performance, scalabilité et tolérance à la panne de Spark Streaming

Introduction à Spark SQL

  • Utilisation du cache et des UDF
  • Développer et exécuter une application Spark SQL standalone
  • Cas d’usage de Spark SQL