🤖 Big Data / ML / AI

Change Data Capture in production

advanced
conference

OVH, 18 ans d’existence, est aujourd’hui le 1er cloud provider europĂ©en. Pour suivre et piloter son business, OVH a mis en place un datalake interne. L’idĂ©e Ă©tant de centraliser l’ensemble des donnĂ©es issues de plusieurs milliers de tables localisĂ©es dans ses diffĂ©rents datacentres pour ensuite gĂ©nĂ©rer les KPIs utiles au business. Le point essentiel est que ces donnĂ©es doivent ĂŞtre mises Ă  jour continuellement. Cette prĂ©sentation dĂ©crit le pipeline actuellement en production et les diffĂ©rentes itĂ©rations. Depuis la collecte des donnĂ©es via les “binary logs” au niveau des bases de donnĂ©es, jusqu’Ă  l’écriture en continu (streaming) dans Apache Hive sur un cluster Hadoop KerberisĂ© basĂ© sur Openstack. Pour cela nous nous sommes aidĂ©s de Apache Flink, solution de streaming devenue incontournable. Nous expliquerons comment nous avons gĂ©rĂ© la conversion de schĂ©ma et le cycle de vie des messages au sein du pipeline grâce Ă  ce framework (Watermarks, State, Window aggregation, …).