La souveraineté numérique grâce à des données fiables et adaptées à l’IA

Contexte

Dans un paysage de l’IA de plus en plus marqué par des modèles propriétaires de type « boîte noire », la souveraineté numérique devient une priorité stratégique pour la Suisse. Ce qui importe, ce n’est pas seulement le lieu de développement d’un modèle, mais aussi les données sur lesquelles il repose, la manière dont ces données sont gérées, et la question de savoir si leur utilisation est transparente et responsable sur les plans juridique, technique et social.

Apertus démontre que l’IA peut être conçue différemment : sous la forme d’un modèle ouvert développé en Suisse, fondé sur des données fiables et gérées de manière responsable. Cela nécessite des données prêtes pour l’IA, qui sont ensuite transformées en données fiables pour l’IA : des ensembles de données documentés, gérés, vérifiés sur le plan juridique et adaptés à un usage spécifique, pouvant être utilisés pour l’entraînement, le réglage fin ou l’évaluation de systèmes d’IA.

Problématique

Aujourd’hui, les grands modèles d’IA sont souvent entraînés à partir de données accessibles au public dont l’origine, les conditions de licence, la qualité et le profil de risque sont difficiles à évaluer pour le grand public. Il en résulte une méfiance, des risques de non-conformité, ainsi qu’un manque de reproductibilité, d’auditabilité et de pratiques responsables en matière d’IA.

Pour Apertus, le défi central ne consiste pas simplement à mettre davantage de données à disposition, mais à préparer systématiquement les données afin qu’elles soient :

  • documentées et faciles à trouver
  • évaluées sur le plan juridique et éthique
  • permanentes et versionnées pour assurer la traçabilité
  • adaptées à des fonctions spécifiques des modèles
  • capables de réduire la dette de conformité et la dette de confidentialité (telles que définies ci-dessous)

Cadrage du défi

Ce défi invite les équipes à développer des solutions démontrant comment un espace de données peut fonctionner comme une membrane réglementaire et technique entre des données provenant de sources diverses (par exemple, des données du Web, Common Crawl, ainsi que des acteurs de confiance fournissant des données dans des conditions définies ou restreintes) et des données d’entraînement fiables pour l’IA (dans ce prototype : les données d’entraînement pour Apertus).

Au cœur de ce processus se trouve un processus de raffinement en trois étapes :

Entrée / Accessible

Les données brutes sont ingérées, documentées et enrichies d’un minimum de métadonnées.

Traitement / Explorable

Les données sont évaluées sur les plans technique, juridique et qualitatif, puis nettoyées, organisées et évaluées en termes de risque.

Sortie / Adaptées à l’usage

Les ensembles de données organisés, versionnés et documentés sont mis à disposition en tant que Données fiables pour l’IA pour Apertus ou des systèmes d’IA comparables, à condition qu’ils respectent le seuil de qualité défini au sein du prototype.

Concepts clés

  • Souveraineté numérique
  • Données prêtes pour l’IA
  • Données fiables pour l’IA
  • Communs de données et espaces de données
  • Gestion des données
  • IA et données responsables
  • Dette de conformité / dette de confidentialité
  • Transparence, reproductibilité et auditabilité

Résultats attendus

  • Un prototype fonctionnel, tant sur le plan technique que sociotechnique
  • Processus entrants pour la collecte de données et la description des métadonnées
  • Mécanismes de nettoyage automatisé des données, d’octroi de licences et de contrôles de conformité
  • Un cadre permettant de mesurer et de réduire la dette de conformité
  • Documentation des hypothèses, des décisions de gouvernance et des enseignements tirés
  • Un concept pour la mise à l’échelle et le déploiement en conditions réelles

Remarque : nous sommes conscients que les résultats que nous demandons pourraient rester principalement au stade de prototype.

Partenaires du défi

Swiss Data Alliance

Apertus