eBook
À la recherche d’un catalogue de données ?
Les outils de catalogage de données font actuellement l’objet d’un grand engouement, avec un nombre croissant de solutions proposées par des fournisseurs toujours plus nombreux. Mais qu’est-ce qu’exactement un catalogue de données ? Et comment vous assurer de ne pas vous perdre dans le processus de sélection du catalogue qui répond à vos besoins ?
Restez sur la bonne voie. Voici un guide pour bien commencer.
Lisez cet ebook pour découvrir ce qu’est un catalogue à la base, son fonctionnement et les défis qu’il peut aider à résoudre ; apprenez également à éviter les problèmes habituels pour choisir un catalogue adapté à vos besoins.
Qu’est-ce que c’est ? Comment cela fonctionne-t-il ?
En quelques mots, un catalogue de données est un référentiel qui montre les actifs de données (c’est-à-dire les rapports, les bases de données, les sites Web qui contiennent ces données) que vous possédez et leur emplacement.
Comment fonctionne un catalogue de données et comment aide-t-il les organisations à maîtriser leurs données et, surtout, à les utiliser pour prendre des décisions et créer de la valeur ? Le graphique ci-dessous illustre la manière dont une solution de catalogue de données peut contribuer aux résultats de l’entreprise.

Comment un catalogue de données optimal fonctionne-t-il ?
Voici les cinq étapes qui montrent comment un catalogue de données peut permettre d’atteindre l’objectif : « Je veux satisfaire mon client ».
Gouvernance et gestion des données
À tous les stades, les définitions de données doivent s’établir sur la base de règles et de normes afin de trouver les données disponibles dans toute l’entreprise, de savoir où elles se trouvent et de s’assurer qu’elles sont dignes de confiance. Trouver vos données ne constitue qu’une simple étape du processus. Ce n’est que lorsque vous pouvez les relier aux résultats de l’entreprise que vous disposez d’une solution complète.
Ai-je besoin d’un catalogue de données ?
Avec l’augmentation considérable du volume de données, l’accès accru à de multiples sources de données et les nouvelles réglementations en matière de conformité, les organisations s’efforcent de « maîtriser » leurs données dans l’ensemble de l’entreprise. Pour cela, elles doivent pouvoir répondre aux questions suivantes :
- Quelles sont mes données ?
- Où se trouvent-elles ?
- Quelle est leur provenance ?
- Comment sont-elles utilisées ?
En conséquence, les solutions de catalogue de données ne sont plus seulement utiles, mais indispensables dans le cadre de la gouvernance des données. Dans le rapport de recherche Data Catalogs are the New Black in Data Management and Analytics Research, Gartner indique que la demande en catalogues de données monte en flèche, car les entreprises s’efforcent d’inventorier leurs ressources de données distribuées afin de faciliter la monétisation des données et de se conformer aux réglementations.
Comment savoir si vous avez besoin d’un catalogue de données ?
Si vous vous reconnaissez dans les affirmations suivantes, vous avez peut-être besoin d’une solution de catalogue de données (ou catalogue de données + gouvernance) :
« Il me faut de meilleures analyses ! »
De nombreuses organisations s’interrogent sur la manière d’accroître la valeur des analyses et d’avoir une meilleure visibilité sur leurs données. L’introduction de l’IoT, ou Internet des objets, et la transformation numérique ont entraîné une abondance de données. Les organisations doivent maintenant trouver les données disponibles et vérifier qu’elles sont adaptées à l’objectif visé afin de pouvoir les utiliser dans la prise de décision.
« J’ai investi dans la BI, mais les données de reporting sont-elles correctes ? »
Les investissements dans les logiciels de BI (veille économique) se sont multipliés. La localisation des bonnes données pour l’analyse et le reporting est un défi à relever en priorité lors de la mise en œuvre de la BI. Si certaines organisations sont en mesure de localiser leurs données, elles ne peuvent pas en identifier la source pour en confirmer la validité. D’autres encore obtiennent des résultats contradictoires entre deux rapports différents.
« Mon data lake s’est transformé en océan de données. »
Votre data lake semblait être la réponse à tous vos problèmes. Mais aujourd’hui, les différents acteurs de l’entreprise sont incapables d’accéder aux informations dont ils ont besoin à partir du data lake. Personne ne sait exactement quelles données existent ni comment y accéder.
« Comment préparer mon organisation à l’IA ? »
À mesure que l’IA se généralise, les organisations constatent qu’il est essentiel d’identifier les bonnes données pour informer l’algorithme. Cela s’applique aux données saisies ainsi qu’aux caractéristiques des données elles-mêmes, y compris le balisage des données, l’obtention des métadonnées et des données utilisateur appropriées, etc. La première étape de ce processus doit donc consister à découvrir et à cataloguer les données.
Dans tous ces cas, il existe un point commun. Les organisations doivent être en mesure de répondre à la question suivante : « Quelles sont nos données et où sont-elles ? » Elles doivent non seulement pouvoir « trouver » leurs données, mais ont également besoin de davantage d’intelligence des données pour comprendre leurs relations avec les métadonnées de l’entreprise et, surtout, les résultats commerciaux.
Alors que les organisations tendent à se précipiter vers les solutions les plus populaires, elles devraient tenir compte des conseils de Gartner, qui les invite à prendre le temps de rechercher la « bonne » solution et à s’assurer que ladite solution peut s’aligner sur les initiatives de l’organisation. Comme l’indique l’étude de Gartner : « Les projets de catalogue de données n’atteindront pas leur plein potentiel si les responsables des données et de l’analyse ne les associent pas à des besoins plus larges en matière de gestion des données. » Voir le problème n° 2
“Les solutions de catalogue de données ne sont plus seulement utiles, mais indispensables dans le cadre de la gouvernance des données.”
Quel est le calendrier de mise en œuvre type et comment éviter les problèmes ?
La mise en œuvre d’un catalogue de données demande en général quelques semaines ou quelques mois. Cependant, les entreprises peuvent parfois connaître des expériences plus pénibles et moins rapides. Si vous vous êtes montré prudent et avez sélectionné un catalogue de données basé sur le cloud, « sur le stack » et aligné sur votre système de données d’entreprise et vos stratégies de gestion des métadonnées, tout devrait aller pour le mieux. Toutefois, si vous avez opté pour un catalogue qui nécessite une personnalisation initiale, un matériel spécifique ou une équipe de développeurs spécialisés, vous risquez de vous retrouver face à un projet coûteux.
Problème n° 1 : Ne croyez pas les fournisseurs sur parole
Les fournisseurs veulent vendre leur solution. Ainsi, vous ne les entendrez certainement pas parler de points faibles ou de limitations. Mieux vaut donc ne pas succomber aux charmes du marketing pour faire votre choix. Lorsque vous choisissez un catalogue, consultez les sites d’évaluation populaires comme Gartner Peer Insights, discutez avec des analystes et assurez-vous de demander des références sur la mise en œuvre.
Problème n° 2 : Ne pensez pas à court terme
Selon Gartner, les entreprises doivent « éviter les catalogues de données incapables de dépasser les exigences des cas d’utilisation tactiques et de se connecter à la gestion des métadonnées de l’entreprise et aux initiatives en matière de données ». Certaines entreprises choisissent des catalogues de données en fonction d’un seul cas d’utilisation tactique, comme l’inventaire des données dans leurs data lakes. Il est important de comprendre que le déploiement d’un catalogue pour un seul outil ou une seule utilisation améliorera l’utilisabilité, la confiance et la facilité de partage des données UNIQUEMENT pour cet outil spécifique. Il est donc nécessaire de disposer d’un catalogue de données regroupant tous les catalogues de données de votre architecture. Assurez-vous d’avoir évalué des options qui couvrent plusieurs cas d’utilisation et peuvent répondre à vos besoins plus larges.
Problème n° 3 : Ne supposez pas que chaque catalogue est à la portée de tout le monde
Certains catalogues sont conçus pour des utilisateurs plus techniques qui utilisent le langage SQL. Ces catalogues offrent des fonctionnalités high-tech et fournissent une vue complète du lineage technique et de l’origine de chaque élément de données de l’écosystème. D’autres sont davantage conçus pour les utilisateurs métier qui ne se soucient pas du langage SQL ni du lineage technique, mais qui souhaitent accéder aux données importantes de l’initiative qui les intéresse de manière intuitive. Qui va utiliser votre catalogue et pour quelle raison ? Ne forcez pas vos utilisateurs métier à devenir des experts en codage informatique. Vous risqueriez de compromettre l’adoption du catalogue et d’impacter le retour sur investissement.
Comment choisir le meilleur data catalog possible ?
Il est essentiel de prendre le temps, dès le départ, d’identifier les fonctionnalités importantes pour votre organisation. Vous constaterez peut-être que les besoins varient d’un groupe à l’autre. En produisant cet effort en amont de votre recherche, vous vous assurez de choisir la bonne solution. Les catalogues de données doivent au moins être capables de :
- Découvrir les données disponibles
- Identifier leur emplacement
- Indiquer si ces données sont fit for purpose, c’est à dire adaptées à votre objectif
Une fois que vous avez coché toutes ces cases, il reste d’autres points à prendre en compte pour s’assurer que votre catalogue peut apporter de la valeur à l’entreprise à l’avenir :
- Permettra-t-il une intégration en temps réel à vos sources de données afin qu’elles alimentent en permanence le catalogue des données qui vous importent le plus ?
- Est-il facile à utiliser pour les utilisateurs techniques et non techniques ?
- Peut-il effectuer des recherches dans toutes vos bases de données, sur site et dans le cloud ?
- Serez-vous en mesure de relier directement vos données aux objectifs et aux initiatives de l’organisation afin de voir et de mesurer la manière dont les données stimulent votre activité ?
- Quelles capacités augmentées ou d’IA/ML peuvent favoriser une plus grande efficacité opérationnelle et une meilleure intelligence des données ?