🤖 Big Data / ML / AI

Unifiez vos traitements Batch et Streaming avec Apache Beam

intermediate
conference

Il Ă©tait une fois, dans le vaste monde du Big Data, plusieurs frameworks et environnements d’exĂ©cution. On les utilisaient pour concevoir, coder et exĂ©cuter des tâches ETL, streaming et batch. Il Ă©tait très compliquĂ© pour les dĂ©veloppeurs et les architectes de choisir la bonne solution correspondant Ă  chaque cas d’utilisation. Elle devait ĂŞtre Ă©volutive et pouvoir s’adapter efficacement Ă  la production. Il y avait Apache SPARK SQL, Apache Flink pour le streaming en temps rĂ©el, Hadoop Map reduce pour les utilisations en batch, etc. C’Ă©tait donc très compliquĂ© et un peu Ă©prouvant de choisir et de dĂ©ployer en production le bon outil pour chaque use case.

Pour aider les concepteurs, dĂ©veloppeurs et architectes Google a crĂ©Ă© Dataflow et a donnĂ© son SDK Ă  l’Apache Software Foundation en 2016.

Apache Beam était donc né.

Vous aurez compris en lisant ce “conte de fĂ©es” que je ferai une prĂ©sentation du FRAMEWORK Apache Beam. Tout d’abord, je prĂ©senterai ses fonctionnalitĂ©s principales et ses atouts, que ça soit dans l’API ou dans le choix de l’environnement d’exĂ©cution.

Ensuite, je prĂ©senterai les diffĂ©rentes notions. J’aborderai les pipelines et les transformations avec des exemples. J’illustrerai ces notions avec une dĂ©monstration en live.

Enfin, je ferai un retour d’expĂ©rience ou je prĂ©senterai les avantages et inconvĂ©nients.