Dimensions de la qualité des données : Comment vous situez-vous ? (+ Scorecard téléchargeable)
Pratiquement tous les décideurs dans une organisation savent à quel point les données peuvent être précieuses pour stimuler l’innovation, augmenter le chiffre d’affaires, améliorer la satisfaction des clients ou citoyens, optimiser les processus et assurer la conformité. Selon une étude récente de 451 Research, près de 80 % des chefs d’entreprise affirment que les données deviennent de plus en plus importantes pour une prise de décision stratégique efficace. C’est pourquoi ils mettent en œuvre des outils et des processus pour aider les prises de décisions basées sur les données, améliorant ainsi les résultats et accélérant le rythme des affaires.
Naturellement, il y a une mise en garde importante. Les données ne peuvent apporter une valeur ajoutée métier que si elles présentent un niveau élevé d’intégrité. Cela commence par une bonne qualité des données, une richesse contextuelle, une intégration facilitée et des outils et processus solides de gouvernance des données. Cet article traite principalement de la qualité des données.
La qualité des données est souvent le point de départ pour les organisations qui cherchent à améliorer l’intégrité globale des données. Dans une étude récente du LeBow College of Business de l’université de Drexel, 70 % des personnes interrogées qui ont du mal à faire confiance à leurs données déclarent que la qualité des données est leur problème numéro un. Naturellement, il y a une mise en garde importante. Les données ne peuvent apporter une valeur ajoutée métier que si elles présentent un niveau élevé d’intégrité. Cela commence par une bonne qualité des données, une richesse contextuelle, une intégration facilitée et des outils et processus solides de gouvernance des données. Cet article traite principalement de la qualité des données.
La qualité des données est souvent le point de départ pour les organisations qui cherchent à améliorer l’intégrité globale des données. Dans une récente étude du LeBow College of Business de l’université de Drexel, 70 % des personnes interrogées qui ont du mal à faire confiance à leurs données déclarent que la qualité des données est leur problème numéro un.
Comment évaluer la qualité de vos données ? La qualité des données peut être mesurée selon six dimensions :
- l’exactitude
- l’exhaustivité
- la cohérence
- l’actualité
- la validité
- l’unicité
Six axes de la qualité des données en un clin d’oeil
Dimension |
Comment elle est mesurée |
---|---|
L’exactitude |
Dans quelle mesure une information reflète-t-elle la réalité ? |
L’exhaustivité |
L’information répond-elle aux attentes des utilisateurs quant à la couverture de la vérité ? |
La cohérence | Les informations stockées à un endroit correspondent-elles aux données pertinentes stockées ailleurs ? |
Actualité |
Les informations sont-elles disponibles au moment où les utilisateurs en ont besoin ? |
La validité |
Les informations existent-elles vraiment ? Se présentent-elles sous un format attendu ? Ce format est -il inutilisable ? Ces informations respectent-elles les règles de gestion spécifiques ? |
Unicité |
S’agit-il du seul cas où cette information apparaît dans les données ? |
L’exactitude
Le terme « exactitude » désigne le niveau pour lequel les informations reflètent correctement un événement, un lieu, une personne ou une autre entité. Par exemple, si l’adresse d’un client est correcte, mais que le code postal ne correspond pas, les données manquent d’exactitude. Ceci peut entraîner une multitude de problèmes.
Quelles mesures pouvez-vous prendre pour améliorer l’exactitude de vos données ? Demandez-vous si les informations correspondent à la réalité. Y a-t-il des données incorrectes (qui doivent être corrigées) ?
L’exhaustivité
Les données sont considérées comme « complètes » lorsqu’elles répondent aux attentes en matière d’exhaustivité. Supposons que vous demandiez au client d’indiquer son nom. Il se peut que le deuxième prénom soit facultatif, mais tant que vous avez le nom et le prénom, les données sont considérées comme complètes. Si, en revanche, vous disposez d’une base de données de clients potentiels qui se sont inscrits sur votre site web en utilisant un faux numéro de téléphone tel que le (111) 111-1111, il vous manque des informations importantes qui pourraient vous être utiles.
Vous pouvez prendre certaines mesures pour améliorer la qualité des données. Vous devez déterminer si toutes les informations requises sont disponibles et s’il manque des éléments.
La cohérence
Pour de nombreuses entreprises, les mêmes informations peuvent être stockées à des endroits différents. Si ces informations correspondent, elles sont considérées comme « cohérentes ». Par exemple, si vos systèmes d’information des ressources humaines indiquent qu’un employé ne travaille plus pour votre entreprise, alors que votre système de paie indique qu’il reçoit toujours un chèque, il y a une incohérence. De même, les informations relatives aux clients sont souvent incohérentes entre plusieurs systèmes, tels que les systèmes de gestion de la relation client (CRM) et les systèmes de gestion intégrés (ERP).
Pour résoudre les problèmes d’incohérence, examinez vos jeux de données pour voir s’ils sont identiques dans tous les cas. Y a-t-il des cas où les informations sont en contradiction avec elles-mêmes ? Une bonne stratégie d’intégration des données permettra de diminuer les incohérences entre plusieurs systèmes.
Read our eBook Il existe de nombreuses stratégies efficaces pour améliorer la qualité de vos données et intégrer les meilleures pratiques en matière de données dans l'ADN de votre entreprise. Voyez à quoi ressemble l'évaluation de la qualité des données dans la pratique. 4 Ways to Measure Data Quality
L’actualité
Vos informations sont-elles disponibles au moment où vous en avez besoin ? Cette dimension de la qualité des données est appelée « actualité » (timeliness). Supposons que vous ayez besoin d’informations financières tous les trimestres ; si les données sont prêtes au moment où elles sont censées l’être, elles sont disponibles en temps voulu. Dans d’autres cas, l’actualité peut être encore plus importante. Si vous utilisez l’analyse de données pour détecter des fraudes, par exemple, vous voudrez avoir accès à des données en temps réel (ou du moins très proches du temps réel).
On peut parler de données « opportunes » La dimension « qualité des données » de l’actualité est une attente de l’utilisateur. Si vos informations ne sont pas prêtes au moment où vous en avez besoin, elles ne répondent pas à cette dimension.
La validité
La validité est un aspect de la qualité des données qui fait référence aux informations qui ne sont pas conformes à une convention de représentation ou qui ne suivent pas les règles.. Un exemple courant est celui des anniversaires – de nombreux systèmes vous demandent d’entrer votre date d’anniversaire sous un format spécifique, et si vous ne le faites pas, l’information n’est pas valide. De même, les informations relatives à l’adresse doivent être conformes à un ensemble de règles, sous peine d’être invalides. Les codes postaux américains doivent au moins comporter une chaîne numérique à cinq chiffres, mais peuvent parfois inclure un appendix à quatre chiffres. Un code postal n’incluant que des 0 sera également invalide car ne faisant pas partie des codes postaux de référence. Chaque pays a ses propres règles régissant la validité ou non des codes postaux.
Enfin une règle peut valider ou invalider une correspondance code postal/ville.
Pour répondre à cet aspect de la qualité des données, vous devez confirmer que toutes vos informations respectent des valeurs de référence, un format spécifique ou des règles particulières.
L’unicité
Une information « unique » c’est une information qui n’apparaît qu’une seule fois au sein d’une base de données. La duplication des données est fréquente. « Daniel A. Robertson » et « Dan A. Robertson » peuvent très bien être la même personne.
Pour répondre à cet aspect de la qualité des données, vous devez examiner vos informations afin de vous assurer qu’aucune d’entre elles n’est en doublon. Les bases de données clients contiennent souvent des entrées en double. Les solutions de mise en correspondance des données et de résolution des entités détectent automatiquement les enregistrements doublons et appliquent une approche basée sur des règles pour identifier ou supprimer les enregistrements en double, ce qui améliore la qualité des données.
Comment vos données se situent-elles ?
Les données à haute intégrité sont riches en contexte, bien gouvernées et intégrées dans plusieurs systèmes, de sorte que votre organisation dispose d’une vue unique de la vérité. Bien entendu, les données présentant une intégrité de haut niveau doivent également être de haute qualité.
Couvrez-vous tous les aspects possibles de la qualité des données ?
Téléchargez ce scorecard gratuit pour évaluer vos initiatives en matière de qualité des données. Les solutions de gestion de la qualité des données peuvent vous aider à améliorer votre score et à vous assurer que vos données sont exactes, cohérentes et complètes, ce qui vous permettra de prendre des décisions métiers en toute confiance.
Pour en savoir plus, lisez notre ebook : 4 manières de mesurer la qualité des données