Quantité et qualité des données: les deux piliers des projets IA

Équilibrer Volume et Précision : Clés pour Libérer le Potentiel de l'IA
22 avril 2024 par
Quantité et qualité des données: les deux piliers des projets IA
Idealis Consulting, Xavier Tourenq

Je ne vous l’apprends pas : les données sont le carburant de l'intelligence artificielle. Sans données en quantité et qualité suffisantes, même les algorithmes les plus sophistiqués ne pourront pas délivrer de résultats pertinents. C'est encore plus vrai quand on cherche à construire des indicateurs prédictifs ou obtenir des informations prescriptives pour son entreprise.

La quantité de données

Il faut un volume conséquent de données pour entraîner des modèles d'IA performants. Comme l'indique une étude de Google¹, les modèles de Deep Learning continuent de s'améliorer à mesure qu'on leur fournit plus de données d'entraînement, sans plafonner. Chaque donnée supplémentaire compte, ce qui met en évidence l’importance de la collecte et la centralisation des données au sein de l’entreprise, même pour les PME (voir l’article précédent dans cette série: Le rôle crucial de l’infrastructure pour l’IA). Il est cependant primordial de privilégier la qualité des données par rapport à la quantité.

La qualité des données

De nombreuses études ont montré que des données incomplètes, erronées ou mal structurées induiront l'IA en erreur et qu’il y a une corrélation directe entre la qualité des données et le succès des projets IA. La qualité des données est donc encore plus importante que leur quantité : des ensembles de données de haute qualité et bien étiquetés peuvent conduire à des modèles d'IA performants, même avec un nombre réduit de points de données. À l'inverse, des données de faible qualité nécessitent des modèles d'IA plus sophistiqués pour donner un sens à des ensembles désorganisés.

Les entreprises FAANG (Facebook, Amazon, Apple, Netflix et Google) sont un exemple de mise en œuvre réussie de l'IA, en grande partie grâce au contrôle et à la confiance qu'elles accordent à des ensembles de données internes de grande qualité. Ces entreprises utilisent l'IA pour personnaliser l'expérience des utilisateurs et améliorer les stratégies commerciales, démontrant ainsi le pouvoir de transformation de l'IA lorsqu'elle est associée à des données de qualité.

Data Lifecycle

L'accent mis sur la qualité des données pour tout type d’entreprise se retrouve dans les observations d'Ataccama sur la relation entre la qualité des données et le succès de l'IA² et d'IBM Research, qui souligne l'importance de la préparation des données dans l'IA et la façon dont l'amélioration de la qualité des données conduit à des modèles plus précis et à une meilleure prise de décision³.

Une part importante du temps consacré aux projets d'IA est donc consacrée à la préparation des données et à la gestion de la qualité. Les entreprises reconnaissent de plus en plus la nécessité d'investir dans des mesures solides de qualité des données afin de garantir la fiabilité et la précision des systèmes d'IA.

Ces investissements peuvent paraître lourds et réservés aux grandes entreprises, ce qui n’est pas nécessairement le cas. Avec une gouvernance de données réfléchie et assistée par les bons outils, produire et conserver des données de qualité n’est pas un objectif hors d’atteinte pour les PME.

La gouvernance des données

Pour pouvoir faire bon usage des données de l’entreprise, il est crucial de mettre en place des bonnes pratiques de gouvernance des données :

  • Guider les utilisateurs lors de la saisie avec des glossaires et des règles de gestion
  • Automatiser les contrôles de cohérence et d'intégrité des données
  • Mettre en place des processus de revue et correction des données
  • Nommer des "data stewards" responsables de la qualité sur leur périmètre

Des outils de gouvernance des données permettent d'industrialiser ces bonnes pratiques. Ils détectent les anomalies en temps réel et les remontent aux data stewards pour action. Ils fournissent aussi une piste d'audit complète pour tracer les modifications.

Conclusion

La qualité des données n'est pas seulement une nécessité technique ; c'est un impératif pour un déploiement réussi de l'IA et un avantage stratégique évident pour les dirigeants qui peuvent ainsi avoir une plus grande confiance dans les résultats produits par l'IA. C’est en donnant la priorité à la qualité des données que le potentiel de l’IA peut être libéré et devenir un moteur d'innovation et d'efficacité et de productivité.

Prochaines étapes

Découvrez dans notre prochain article pourquoi les entreprises doivent dès maintenant se préparer à la révolution de l'IA, en particulier les PME. Et n'hésitez pas à évaluer votre maturité IA avec notre scorecard en ligne !

Nos experts peuvent vous accompagner dans votre démarche de mise en place d’une gouvernance des données efficace, appuyée par les bons outils.

Rejoignez la liste d'attente ci-dessous pour notre prochain événement sur l'intégration de l'IA.


[1] : Étude "Revisiting Unreasonable Effectiveness of Data in Deep Learning Era", Google, 2017 (https://arxiv.org/abs/1707.02968)

[2] : Ataccama on the importance of data quality in AI: https://www.ataccama.com/blog/why-data-quality-crucial-for-successful-ai-implementations.

[3] : Overview of the Data Quality for AI (DQAI) framework from https://research.ibm.com/projects/data-quality-in-ai


To find out more about the solution, visit our product page.