Démarche de transition data d’une approche datawarehouse (DW) vers un datalake (DL)

Démarche de transition data d’une approche datawarehouse (DW) vers un datalake (DL)

La première question qui nous est venue en lisant ce thème était la suivante : pourquoi vouloir migrer les données du datawarehouse vers un Datalake ? Puis la raison nous paraît rapidement évidente : le volume et les types de données stockées augmentent en même temps que le nombre d’utilisateurs, de cas d’utilisation, etc. Les datawarehouses peuvent avoir du mal à suivre l’augmentation constante du volume d’informations sous différents formats.

Nous voyons de plus en plus de sociétés entamer la migration des DW et autres systèmes similaires vers des DataLakes généralement sur le cloud plus agiles et plus fonctionnels. En d’autres termes, les entreprises surmontent les problèmes liés à une infrastructure informatique insuffisante en migrant des solutions vers le cloud, et traitent les problèmes liés à la quantité croissante de données hétérogènes en enrichissant l’écosystème analytique avec des solutions DataLake.

Les DataLakes, qui peuvent stocker divers types de données brutes – structurées ou non – sont maintenant souvent basés dans le cloud. Les entreprises peuvent ainsi tirer parti de leur flexibilité en matière de services, de leur évolutivité accrue et de leurs meilleurs coefficients prix/valeur, sans être obligées de développer, d’organiser et de gérer elles-mêmes l’infrastructure. Cependant, les entreprises décident également de ne pas renoncer aux entrepôts de données et préfèrent créer une solution d’intégration de leur ancien système au nouveau.

Il est donc crucial de se rappeler qu’il n’est pas nécessaire de vous débarrasser de votre entrepôt de données, vous pouvez faire cohabiter les deux.

Néanmoins, nous allons vous proposer une approche de migration qui nous paraît être celle qui va permettre d’allier performance opérationnelle, maîtrise des coûts et valeur ajoutée métier.

1.     Diagnostiquer son écosystème Data

Diagnostiquez tout d’abord votre écosystème data et profitez-en pour créer la checklist des critères de migration. Il faut adopter une approche au cas par cas plutôt qu’une approche généraliste et globale.

2.     Mettre en place la virtualisation des données

Aujourd’hui, si vous avez de multiples sources de données et une approche de consolidation/unification par réplication, transfert et stockage physiques multiples, cela peut être à la fois long et coûteux. Comme mentionné précédemment, nous avons affaire à deux types de concepts, mais cela ne signifie pas qu’ils ne “marchent pas main dans la main”.

Si vous traitez des données comptables, des ventes, des stocks et des clients, nous vous recommandons vivement de continuer à travailler avec votre Datawarehouse afin d’obtenir les chiffres les plus précis.

Nous vous proposons donc de mettre en place la data virtualisation qui vous offrira une vision unifiée et globale de toutes ses données, en reliant et en intégrant les informations stockées dans diverses sources, afin de les mettre à la disposition, de manière transparente, des utilisateurs ou d’une application.

3.     Adopter une stratégie de migration « à petits pas »

La replatformisation n’est pas une stratégie inhabituelle dans les entreprises dont les bases de données sont déployées dans leurs locaux. De plus en plus d’entreprises déplacent leurs bases de données vers le cloud. De quoi doivent-elles se souvenir lorsqu’elles effectuent cette étape importante ?

Lors de la mise à niveau ou de la migration d’une base de données, il est évident que vous devez planifier et vous souvenir de la durée, des risques et des coûts, de l’interruption des activités et de la complexité de l’ensemble de l’entreprise. Ce ne sont pas seulement les données qui sont déplacées vers la nouvelle plateforme, mais aussi leur gestion et leurs utilisateurs. De nombreux projets de migration DW finissent par s’occuper de data marts incontrôlés ou simplifient le grand nombre de bases de données en les consolidant sur un nombre réduit de plateformes. Par conséquent, les lacs de données basés sur le cloud semblent être des candidats parfaits pour la consolidation des données, car il s’agit de plateformes disponibles dans le monde entier et qui peuvent être facilement centralisées.

L’approche idéale de la mise en œuvre est de commencer petit, de préférence avec un produit minimal viable (MVP). Commencez par un segment de travail à faible risque et à forte valeur ajoutée, en divisant les tâches en segments gérables, chacun ayant un objectif technique et apportant une valeur commerciale.

Si vous commencez par un projet volumineux, vous serez probablement rapidement dépassé par sa taille et sa complexité. Un plan de projet en plusieurs phases permettra de mieux faire face aux défis à venir.

Se concentrer sur un ensemble de données segmenté, facilement constructible et exigé par l’entreprise est souvent la meilleure façon de commencer votre processus de migration des données. Cela donnera aux autres le sens des priorités et la confiance nécessaire pour passer à des sous-ensembles de données plus complexes.

Au cours du processus de migration, vous risquez de tomber sur des échecs. Par conséquent, vous devez prévoir des contingences pour les étapes risquées et, de préférence, développer des tests et des scripts automatiques pour les systèmes afin d’augmenter la qualité et d’éviter les problèmes de migration. Pendant un certain temps, votre DW et votre DL fonctionneront simultanément, du moins certaines de leurs parties cruciales. La durée de ce processus dépend de la complexité et de la taille de vos bases de données, de vos groupes d’utilisateurs et de vos processus.

La migration ne signifie pas seulement le déplacement et la consolidation des éléments de votre système. Elle peut nécessiter un développement, surtout si vos bases de données comportent de nombreux processus non contrôlés. La stratégie “Lift-and-shift” est parfois possible, mais à d’autres moments, vous pouvez être contraint de développer des modèles de données et des interfaces pour maximiser les performances sur la plate-forme en nuage. L’absence de rétrocompatibilité peut obliger votre équipe à développer certains composants et routines spécifiques, comme les procédures stockées et les fonctions définies par l’utilisateur. En outre, la qualité des données et vos modèles précédents peuvent influencer votre nouvelle plate-forme ; les solutions de cloud computing ne sont pas une baguette magique, alors essayez de ne pas migrer vos anciens problèmes en même temps que votre ancienne plate-forme.

La migration des données ne requiert pas seulement des experts en architecture et en modélisation des données, il ne faut pas oublier les personnes chargées de la maintenance des données, comme les administrateurs de bases de données et les analystes système. En outre, la migration affectera de nombreux éléments et départements de votre entreprise – modélisation et analyse des données, reporting, tableaux de bord, métriques, BI, etc. Chacun de ces éléments peut être généré ou pris en charge par une branche d’activité différente. Utilisez-le à votre avantage et n’oubliez pas qu’une démarche de transition data est une démarche globale de transition de l’entreprise vers une approche data-centric.



Laisser un commentaire