Il Ă©tait une fois, dans le vaste monde du Big Data, plusieurs frameworks et environnements d’exĂ©cution. On les utilisaient pour concevoir, coder et exĂ©cuter des tâches ETL, streaming et batch. Il Ă©tait très compliquĂ© pour les dĂ©veloppeurs et les architectes de choisir la bonne solution correspondant Ă chaque cas d’utilisation. Elle devait ĂŞtre Ă©volutive et pouvoir s’adapter efficacement Ă la production. Il y avait Apache SPARK SQL, Apache Flink pour le streaming en temps rĂ©el, Hadoop Map reduce pour les utilisations en batch, etc. C’Ă©tait donc très compliquĂ© et un peu Ă©prouvant de choisir et de dĂ©ployer en production le bon outil pour chaque use case.
Pour aider les concepteurs, dĂ©veloppeurs et architectes Google a créé Dataflow et a donnĂ© son SDK Ă l’Apache Software Foundation en 2016.
Apache Beam était donc né.
Vous aurez compris en lisant ce “conte de fĂ©es” que je ferai une prĂ©sentation du FRAMEWORK Apache Beam. Tout d’abord, je prĂ©senterai ses fonctionnalitĂ©s principales et ses atouts, que ça soit dans l’API ou dans le choix de l’environnement d’exĂ©cution.
Ensuite, je prĂ©senterai les diffĂ©rentes notions. J’aborderai les pipelines et les transformations avec des exemples. J’illustrerai ces notions avec une dĂ©monstration en live.
Enfin, je ferai un retour d’expĂ©rience ou je prĂ©senterai les avantages et inconvĂ©nients.