Le data lakehouse, votre plateforme d’avenir

mai 31, 2021

L’un des éléments clés pour faire de l’entreprise une organisation performante orientée données est de configurer une plateforme de données moderne capable de gérer des flux de données en provenance de diverses sources et de traduire ces informations brutes en idées exploitables. Cette plateforme est bâtie, d’habitude autour d’un warehouse ou d’un data lake, par exemple comme data hub ou BI platform. Les organisations devaient alors choisir l’option qui répondrait le mieux à leur contexte. Le nouveau paradigme du data lakehouse leur offre désormais la possibilité de combiner les fonctionnalités des deux. En quoi cela est-il important ?

Examinons maintenant de plus près les composants d’une plateforme (de gestion) de données. Ses caractéristiques varient en fonction d’une organisation à l’autre, mais de manière générale, on peut distinguer 6 couches : 

  1. Sources de données : sources d’information internes ou externes qui ne font pas partie de la plateforme de données.
  2. Couche ingestion : les données brutes sont ingérées et « débloquées » sur la plateforme de données de trois façons. Cela peut se faire de trois manières : par lots (pull), par streaming (push) ou par réplication.
  3. Couche de données brutes : une copie des données brutes est alors stockée dans un data lake ou un data warehouse.
  4. Centralisation des données traitées : Dans le data warehouse ou le data lake, les données sont traitées et préparées pour être utilisées ultérieurement. Un data warehouse renferme en général des données structurées (principalement à des fins de reporting) ; un data lake, par contre, s’adapte mieux aux données non structurées et aux big data (p. ex. à des fins de data science).
  5. Serve & consume : couche où les données traitées sont analysées, rapportées et/ou diffusées.

Le meilleur des deux mondes ensemble

Représentez-vous un entrepôt contenant des composants bien rangés en lignes et en piles bien ordonnées. Imaginez maintenant un lac, plein à ras bord d’eau, de poissons et d’autres objets, tous pêle-mêles, sans aucun ordre apparent. Trouver et atteindre un objet spécifique stocké dans un entrepôt est relativement simple ; identifier et récupérer un contenu spécifique dans un lac nécessite en revanche des traitements différents.

À l’instar du nom qui leur sert de support, les data lakes et les data warehouses se distinguent assez nettement par la manière dont ils stockent et traitent ce qui les remplit : l’information.

  • Un data warehouse gère au mieux des quantités raisonnables de données structurées, utilisées principalement pour le reporting et la prestation de services.
  • Un data lakehouse est plus apte à traiter de grandes quantités de données brutes et non structurées qui sont principalement utilisées dans la data science, l’exploration par apprentissage automatique et des applications similaires.

Une approche « soit, soit » représente-t-elle un problème prioritaire ? Les entreprises modernes doivent être en mesure de traiter tous les types de données et de les utiliser dans tous les types de scénarios. Choisir entre un data lake ou un data warehouse équivaut, donc, presque toujours à choisir le moindre. De nombreuses organisations utilisent désormais l’un et l’autre en tandem, entraînant des niveaux de complexité accrus et la duplication des données.

Le data lakehouse fait, alors, son apparition : une architecture ouverte qui combine les meilleures fonctionnalités - vous vous en doutez - des data lakes et des data warehouses, avec à la clé une efficacité et une flexibilité supérieures. La tendance grandissante en faveur d’une conception ouverte et normalisée des systèmes permet aux data lakehouses de recourir à l’approche structurée d’un warehouse pour traiter la masse de données contenue dans un data lake.

Les principales composantes d’un data lakehouse sont les suivantes :

  • traitez différents types de données : structurées, non structurées et semi-structurées ;
  • profitez d’une data governance ;
  • simplifiez et appliquez la data quality à tous les niveaux ;
  • bénéficiez d’un support BI directement sur les données sources - les utilisateurs BI et les data scientists travaillent à partir du même référentiel ;
  • tirez parti d’une évolutivité accrue quant aux utilisateurs et à la taille des données ;
  • faites-vous accompagner dans la science des données, l’apprentissage automatique, le SQL et l’analytics - le tout en un seul endroit.

Déverrouiller l’innovation

En simplifiant l’infrastructure des données d’entreprise, en préservant la qualité des données et en multipliant les opportunités d’explorer la data science, le data lakehouse est la clé de l’innovation à venir pour bon nombre de sociétés. Les fournisseurs de logiciels partagent cet avis : les sociétés ayant des racines dans les data warehouse ou data lakes déploient beaucoup d’efforts pour concevoir leurs propres solutions hybrides data lakehouse. Inutile d’investir, pour autant, dans deux technologies différentes pour se doter d’un data lakehouse.

Nombreux sont les intervenants à revendiquer l’expression "data lakehouse". Or, garder l’historique à l’esprit au moment de prendre une décision est primordial. Disposer d’une large vision d’ensemble et trouver une solution qui respecte vos conditions et tienne compte de vos data quality et data governance constituent des critères essentiels. delaware allie une expertise de toutes les plateformes disponibles à une expérience métier dans de nombreux secteurs : nous sommes donc particulièrement bien placés pour vous aider à choisir la solution qui répond le mieux à vos besoins.

 

Si vous souhaitez également en savoir plus sur les Data & Analytics, téléchargez notre e-book.

 

Vous aimeriez savoir à quoi ressemblerait le data lakehouse de votre entreprise ? Contactez nos experts.

contactez-nous