Formation
Réf. 12852

Formation : Spark, développer des applications pour le big data

3 jours (21 heures)
Présentiel ou à distance

Cette formation propose une immersion technique dans l’univers d’Apache Spark. Elle couvre les fondements de son architecture distribuée, les concepts clés comme les RDD, les
DataFrames et Spark SQL, ainsi que les modules avancés tels que Spark Streaming, GraphX et Spark ML. Les participants apprendront à concevoir des applications performantes pour le traitement massif de données, à optimiser les performances et à maîtriser les outils de déploiement et de supervision.

...

Objectifs

Comprendre l’architecture, le fonctionnement et les enjeux d’Apache Spark dans le traitement distribué de données massives
Savoir développer, configurer et optimiser des applications Spark en utilisant RDD, DataFrames, Spark SQL et Spark Streaming
Être capable d’intégrer Spark dans un environnement Big Data et d’appliquer des techniques d’optimisation, de déploiement et de supervision des traitements

Pré-requis

Maîtrise de Java ou Python (programmation fonctionnelle souhaitée)
Connaissances de base en bases de données
Notions en statistiques

Cibles

Développeurs Big Data
Data Scientists
Architectes de données
Chefs de projet techniques

Les plus

Déclinable en format individuel, intra-entreprise et sur-mesure

Modalités pédagogiques

Alternance d’exposés, de travaux pratiques et de séquences interactives

Suivi et évaluation des acquis

Évaluation des acquis en amont via un questionnaire d’auto-positionnement et en aval via un questionnaire d’évaluation rempli par le formateur sur la base des mises en situation réalisées en formation
Distanciel : contenu et durée identiques + pédagogie adaptée + assistance technique 5j/7 (disponible par mail : [email protected])
Un support de cours est remis à chaque stagiaire avant, pendant ou après la formation, en format dématérialisé ou papier

Indicateurs de résultats

Indicateurs de résultat et taux de réussite prochainement disponibles

Programme de la formation "Formation : Spark, développer des applications pour le big data"

Introduction à Scala

Syntaxe de base, types, structures de contrôle
Utilisation de l’interpréteur Scala
Collections et fonctions de haut niveau
Programmation fonctionnelle : fonctions anonymes, objets, traits

Fondamentaux de Spark

Présentation générale et cas d’usage
Comparaison Spark vs Hadoop
Architecture distribuée et composants de l’écosystème Spark
Modes de déploiement

RDD et architecture de calcul

Concepts de RDD, partitions, transformations paresseuses
Création et manipulation des RDD
Mécanismes de persistance et de cache

Traitement structuré avec DataFrames et Spark SQL

Création et manipulation de DataFrames et Datasets
Lecture de données JSON, CSV, Parquet
Requêtes SQL avec Spark
Optimisations internes : Catalyst et Tungsten
Comparaison RDD vs DataFrame vs Dataset

Développement d’applications Spark

Structure d’une application Spark
SparkContext et SparkSession
Gestion du cycle de vie d’une application
Intégration avec les gestionnaires de cluster
Journalisation et débogage

Traitement en temps réel avec Spark Streaming

Concepts de streaming structuré
DStreams et transformations (stateless, stateful, fenêtrées)
Programmation d’applications de streaming

Optimisation des performances

Analyse via l’interface utilisateur Spark
Comprendre les dépendances et le partitionnement
Réduction des mouvements de données
Utilisation efficace du cache, des variables de diffusion et accumulateurs

GraphX

Modélisation de graphes avec Spark
API GraphX et GraphFrames
Cas d’usage : calcul de chemins, centralité, etc.

Spark MLlib

Représentation des données pour le machine learning
Algorithmes de clustering (K-Means), classification, recommandation
Pipelines de traitement avec Spark ML

Conclusion

Formateurs

Maher H.

Formateur expert en Big Data, analyse et visualisation des données

Docteur ingénieur en Technologies de l'Information et de la Communication (TIC), Maher HENI est spécialisé en Big Data, analyse et visualisation des données depuis 2014. Il a conduit de nombreux projets au sein d’organisations variées,...

Mis à jour le 23/02/2026

Intra
Sur-mesure

Formation du catalogue Comundi pour votre entreprise dans vos locaux, chez nous ou à distance.

Demander un devis

À réception de votre demande, la validation et la mise en œuvre de votre projet sur une formation sera possible sous 48h.

Formation sur mesure adaptée aux spécificités de votre entreprise et de vos équipes.

Nos experts vous accompagnent dans votre projet.

Demander un devis

À réception de votre demande, la validation et la mise en œuvre de votre projet sur une formation sera possible sous 48h.

Merci de patienter ...

Pour aller plus loin et compléter votre parcours

Formation

Réf. 12850

Digital learning +

Formation : Big Data - Architecture et technologies

2 Jours

0€ HT

Formation

Réf. 12851

Nouveauté
Digital learning +

Formation : Piloter un projet Big Data

2 Jours

1450€ HT

Formation

Réf. 12853

Formation : Big data, analyse, data visualisation et data storytelling

3 Jours

0€ HT

Formation

Réf. 12854

Formation : Mathématiques et statistiques pour l'IA

5 Jours

0€ HT

Formation

Réf. 12856

Formation : Python pour la data science

3 Jours

0€ HT

Comment financer sa formation ?

Financer votre formation "Formation : Spark, développer des applications pour le big data" est plus simple que vous ne le pensez.
CPF, prise en charge par l'employeur, dispositifs OPCO ou aides dédiées aux demandeurs d'emploi : plusieurs solutions existent pour vous permettre de monter en compétences sans freiner votre projet.

Formation : Spark, développer des applications pour le big data

Objectifs

Pré-requis

Cibles

Modalités pédagogiques

Suivi et évaluation des acquis

Programme de la formation "Formation : Spark, développer des applications pour le big data"

Introduction à Scala

Fondamentaux de Spark

RDD et architecture de calcul

Traitement structuré avec DataFrames et Spark SQL

Développement d’applications Spark

Traitement en temps réel avec Spark Streaming

Optimisation des performances

GraphX

Spark MLlib

Conclusion

Formateurs

Pour aller plus loin et compléter votre parcours

Sur le même thème...

Comment financer sa formation ?