🤖 Big Data / ML / AI

Unifiez vos traitements Batch et Streaming avec Apache Beam

intermediate

conference

Alexandre Touret Tours, France
WORLDLINE

Il était une fois, dans le vaste monde du Big Data, plusieurs frameworks et environnements d’exécution. On les utilisaient pour concevoir, coder et exécuter des tâches ETL, streaming et batch. Il était très compliqué pour les développeurs et les architectes de choisir la bonne solution correspondant à chaque cas d’utilisation. Elle devait être évolutive et pouvoir s’adapter efficacement à la production. Il y avait Apache SPARK SQL, Apache Flink pour le streaming en temps réel, Hadoop Map reduce pour les utilisations en batch, etc. C’était donc très compliqué et un peu éprouvant de choisir et de déployer en production le bon outil pour chaque use case.

Pour aider les concepteurs, développeurs et architectes Google a créé Dataflow et a donné son SDK à l’Apache Software Foundation en 2016.

Apache Beam était donc né.

Vous aurez compris en lisant ce “conte de fées” que je ferai une présentation du FRAMEWORK Apache Beam. Tout d’abord, je présenterai ses fonctionnalités principales et ses atouts, que ça soit dans l’API ou dans le choix de l’environnement d’exécution.

Ensuite, je présenterai les différentes notions. J’aborderai les pipelines et les transformations avec des exemples. J’illustrerai ces notions avec une démonstration en live.

Enfin, je ferai un retour d’expérience ou je présenterai les avantages et inconvénients.