Qu’est-ce que la qualité des données ? Que signifie réellement la qualité des données ?
Si vous travaillez avec des données, vous avez probablement déjà entendu ce terme, mais qu’est-ce que la qualité des données ? Savez-vous ce que cela signifie réellement et ce que font les analystes au niveau de la qualité des données ? Si ce n’est pas le cas, cet article est fait pour vous.
Il ne s’agit peut-être pas d’un terme aussi populaire que celui du big data, mais il est souvent utilisé dans le monde des données. Les analystes de données aiment rappeler à tout le monde que la qualité est essentielle pour tirer de la valeur des données.
Mais ils ne prennent pas toujours le temps de le définir ou de fournir des exemples concrets des types de problèmes que les outils de qualité des données corrigent. Voyons donc ce qu’il en est.
Qu’est-ce que la qualité des données ? Une définition
La qualité des données peut être définie comme la capacité d’un jeu de données défini pour répondre à l’objectif.
En d’autres termes, si vos données sont de haute qualité, elles sont capables de fournir l’information que vous espérez en tirer.
Inversement, si vos données sont de mauvaise qualité, elles posent problème et ne pourront être utilisées pour atteindre les objectifs que vous vous êtes fixés.
Exemples de défis courants
Pour illustrer un plus la définition, examinons quelques exemples de défis du monde réel.
Imaginons que nous disposions d’un ensemble de données composé de noms et d’adresses. Ce type de données est susceptible de contenir des erreurs pour diverses raisons, qu’elles soient simples ou complexes.
Les causes les plus courantes en termes d’erreurs de données sont les noms et les adresses qui ont été saisis de manière incorrecte ou les informations d’adresse qui ont changé depuis qu’elles ont été collectées.
D’autres problèmes plus complexes peuvent exister dans le jeu des données. L’un d’entre eux concerne les saisies pouvant être ambiguës en raison d’informations incomplètes. Par exemple, une saisie peut être l’adresse d’un Monsieur Smith qui vit dans la ville de “Londres”, sans qu’aucun pays ne soit spécifié. C’est un problème car nous ne savons pas si la ville de Londres où réside Monsieur Smith est Londres en Angleterre, Londres en Ontario (Etats-Unis) ou l’une des dizaines d’autres villes du monde qui s’appellent Londres. À moins que vous n’utilisiez un outil de qualité des données pour corriger cette incertitude, vous aurez des difficultés à utiliser vos données pour joindre Monsieur Smith.
Un autre exemple de problème complexe est celui des adresses apparemment redondantes dans le jeu de données. Supposons que notre base de données contienne plusieurs fois des personnes nommées Monsieur Smith et résidant au 123 Main Street. Il peut s’agir d’un simple doublon : Les données relatives à Monsieur Smith ont peut-être été saisies plusieurs fois par erreur.
Une autre possibilité est qu’il y ait plusieurs Monsieur Smith, un père et un fils, peut-être – résidant à la même adresse. Ou peut-être avons-nous affaire à des saisies concernant des hommes sans aucun lien de parenté qui portent le même nom de famille et résident au 123 Main Street, mais dans des villes différentes. Sans correction, il y a trop d’incertitude dans un jeu de données comme celui-ci pour que l’on puisse s’appuyer sur ces données à des fins de marketing ou de relations avec la clientèle.
Lire notre ebook
4 Manières de Mesurer la Qualité de Vos Données
Voir à quoi ressemble l'évaluation de la qualité dans la pratique. Examiner quatre mesures clés que les organisations peuvent utiliser pour mesurer la qualité de leurs données.
Régler les problèmes
L’une des manières de corriger ces problèmes de qualité des données consiste à rechercher chacune des incohérences ou incertitudes et la corriger manuellement. Mais ceci prendrait énormément de temps. Ce n’est pas non plus pratique à grande échelle.
Une approche beaucoup plus rapide et économique consiste à utiliser des outils automatisés capables d’identifier, d’interpréter et de corriger les problèmes de données sans aucune intervention humaine. Dans le cas d’un jeu de données composé de noms et d’adresses, ils peuvent le faire en reliant les données avec d’autres jeux de données pour détecter les erreurs ou en utilisant l’analyse prédictive pour combler les écarts.
Une bataille sans fin
La qualité des données se définit par la capacité d’un jeu de données à remplir une tâche donnée, sa nature et ses caractéristiques précises varient d’un cas à l’autre. Ce qu’une organisation considère comme des données de haute qualité peut être considéré comme inutilisable aux yeux d’une autre organisation.
Il est important de comprendre comment la qualité évolue en fonction du contexte, car cela signifie que ce n’est pas quelque chose que l’on peut simplement obtenir et conserver. Vous pouvez avoir cette qualité aujourd’hui mais la perdre demain si vos objectifs changent et que vos données, dans leur état actuel, ne peuvent plus les atteindre.
Il faut donc considérer la qualité des données comme une bataille sans fin. C’est une chose sur laquelle vous devez constamment travailler et que vous devez améliorer pour vous assurer que vos données soient prêtes à répondre à toutes les tâches que vous leur confiez.
Utiliser Precisely pour faire confiance à vos données
Alors que les organisations extraient les données des silos traditionnels de l’entreprise et les centralisent dans des data lakes pour de performantes analyses, la gouvernance des données devient une priorité absolue, en particulier dans les secteurs hautement réglementés, tels que la banque, l’assurance, les services financiers et les soins de santé.
Precisely a associé la puissance d’un logiciel d’intégration de données haute performance pour accéder rapidement et efficacement aux données de n’importe quelle source et les charger dans le data lake, tout en utilisant des outils de qualité de données pour profiler ces données.
Quelle est la qualité de vos données ? Découvrez-en plus en lisant notre ebook : 4 manières de mesurer la qualité de vos données.