• Formation
  • Réf. 12852
Télécharger le programme

Formation : Spark, développer des applications pour le big data

  • 3 jours (21 heures)
  • Présentiel ou à distance

Cette formation propose une immersion technique dans l’univers d’Apache Spark. Elle couvre les fondements de son architecture distribuée, les concepts clés comme les RDD, les
DataFrames et Spark SQL, ainsi que les modules avancés tels que Spark Streaming, GraphX et Spark ML. Les participants apprendront à concevoir des applications performantes pour le traitement massif de données, à optimiser les performances et à maîtriser les outils de déploiement et de supervision.

...

Formation : Spark, développer des applications pour le big data

Objectifs

  • Comprendre l’architecture, le fonctionnement et les enjeux d’Apache Spark dans le traitement distribué de données massives
  • Savoir développer, configurer et optimiser des applications Spark en utilisant RDD, DataFrames, Spark SQL et Spark Streaming
  • Être capable d’intégrer Spark dans un environnement Big Data et d’appliquer des techniques d’optimisation, de déploiement et de supervision des traitements

Pré-requis

  • Maîtrise de Java ou Python (programmation fonctionnelle souhaitée)
  • Connaissances de base en bases de données
  • Notions en statistiques

Cibles

  • Développeurs Big Data
  • Data Scientists
  • Architectes de données
  • Chefs de projet techniques

Les plus

  • Déclinable en format individuel, intra-entreprise et sur-mesure

Modalités pédagogiques

  • Alternance d’exposés, de travaux pratiques et de séquences interactives

Suivi et évaluation des acquis

  • Évaluation des acquis en amont via un questionnaire d’auto-positionnement et en aval via un questionnaire d’évaluation rempli par le formateur sur la base des mises en situation réalisées en formation
  • L’évaluation des acquis se fait également tout au long de la session au travers des multiples exercices à réaliser
  • Distanciel : contenu et durée identiques + pédagogie adaptée + assistance technique 5j/7 (disponible par mail : [email protected])
  • Un support de cours est remis à chaque stagiaire

Indicateurs de résultats

  • Indicateurs de résultat et taux de réussite prochainement disponibles

Introduction à Scala

  • Syntaxe de base, types, structures de contrôle
  • Utilisation de l’interpréteur Scala
  • Collections et fonctions de haut niveau
  • Programmation fonctionnelle : fonctions anonymes, objets, traits

Fondamentaux de Spark

  • Présentation générale et cas d’usage
  • Comparaison Spark vs Hadoop
  • Architecture distribuée et composants de l’écosystème Spark
  • Modes de déploiement

RDD et architecture de calcul

  • Concepts de RDD, partitions, transformations paresseuses
  • Création et manipulation des RDD
  • Mécanismes de persistance et de cache

Traitement structuré avec DataFrames et Spark SQL

  • Création et manipulation de DataFrames et Datasets
  • Lecture de données JSON, CSV, Parquet
  • Requêtes SQL avec Spark
  • Optimisations internes : Catalyst et Tungsten
  • Comparaison RDD vs DataFrame vs Dataset

Développement d’applications Spark

  • Structure d’une application Spark
  • SparkContext et SparkSession
  • Gestion du cycle de vie d’une application
  • Intégration avec les gestionnaires de cluster
  • Journalisation et débogage

Traitement en temps réel avec Spark Streaming

  • Concepts de streaming structuré
  • DStreams et transformations (stateless, stateful, fenêtrées)
  • Programmation d’applications de streaming

Optimisation des performances

  • Analyse via l’interface utilisateur Spark
  • Comprendre les dépendances et le partitionnement
  • Réduction des mouvements de données
  • Utilisation efficace du cache, des variables de diffusion et accumulateurs

GraphX

  • Modélisation de graphes avec Spark
  • API GraphX et GraphFrames
  • Cas d’usage : calcul de chemins, centralité, etc.

Spark MLlib

  • Représentation des données pour le machine learning
  • Algorithmes de clustering (K-Means), classification, recommandation
  • Pipelines de traitement avec Spark ML

Conclusion

Formateurs

Maher HENI

Maher H.

Formateur expert en Big Data, analyse et visualisation des données

Docteur ingénieur en Technologies de l'Information et de la Communication (TIC), Maher HENI est spécialisé en Big Data, analyse et visualisation des données depuis 2014. Il a conduit de nombreux projets au sein d’organisations variées,...

En savoir plus

Ce produit a été mis à jour le 13/10/2025

Formation du catalogue Comundi pour votre entreprise dans vos locaux, chez nous ou à distance.

Demander un devis

À réception de votre demande, la validation et la mise en œuvre de votre projet sur une formation sera possible sous 48h.

Formation sur mesure adaptée aux spécificités de votre entreprise et de vos équipes.

Nos experts vous accompagnent dans votre projet.

Demander un devis

À réception de votre demande, la validation et la mise en œuvre de votre projet sur une formation sera possible sous 48h.

x
Chargement

Merci de patienter ...