La souveraineté numérique grâce à des données fiables et adaptées à l’IA

Contexte

Dans un paysage de l’IA de plus en plus marqué par des modèles propriétaires de type « boîte noire », la souveraineté numérique devient une priorité stratégique pour la Suisse. Ce qui importe, ce n’est pas seulement le lieu de développement d’un modèle, mais aussi les données sur lesquelles il repose, la manière dont ces données sont gérées, et la question de savoir si leur utilisation est transparente et responsable sur les plans juridique, technique et social.

Apertus démontre que l’IA peut être conçue différemment : sous la forme d’un modèle ouvert développé en Suisse, fondé sur des données fiables et gérées de manière responsable. Cela nécessite des données prêtes pour l’IA, qui sont ensuite transformées en données fiables pour l’IA : des ensembles de données documentés, gérés, vérifiés sur le plan juridique et adaptés à un usage spécifique, pouvant être utilisés pour l’entraînement, le réglage fin ou l’évaluation de systèmes d’IA.

Problématique

Aujourd’hui, les grands modèles d’IA sont souvent entraînés à partir de données accessibles au public dont l’origine, les conditions de licence, la qualité et le profil de risque sont difficiles à évaluer pour le grand public. Il en résulte une méfiance, des risques de non-conformité, ainsi qu’un manque de reproductibilité, d’auditabilité et de pratiques responsables en matière d’IA.

Pour Apertus, le défi central ne consiste pas simplement à mettre davantage de données à disposition, mais à préparer systématiquement les données afin qu’elles soient :

documentées et faciles à trouver
évaluées sur le plan juridique et éthique
permanentes et versionnées pour assurer la traçabilité
adaptées à des fonctions spécifiques des modèles
capables de réduire la dette de conformité et la dette de confidentialité (telles que définies ci-dessous)

Cadrage du défi

Ce défi invite les équipes à développer des solutions démontrant comment un espace de données peut fonctionner comme une membrane réglementaire et technique entre des données provenant de sources diverses (par exemple, des données du Web, Common Crawl, ainsi que des acteurs de confiance fournissant des données dans des conditions définies ou restreintes) et des données d’entraînement fiables pour l’IA (dans ce prototype : les données d’entraînement pour Apertus).

Au cœur de ce processus se trouve un processus de raffinement en trois étapes :

Entrée / Accessible

Les données brutes sont ingérées, documentées et enrichies d’un minimum de métadonnées.

Traitement / Explorable

Les données sont évaluées sur les plans technique, juridique et qualitatif, puis nettoyées, organisées et évaluées en termes de risque.

Sortie / Adaptées à l’usage

Les ensembles de données organisés, versionnés et documentés sont mis à disposition en tant que Données fiables pour l’IA pour Apertus ou des systèmes d’IA comparables, à condition qu’ils respectent le seuil de qualité défini au sein du prototype.

Concepts clés

Souveraineté numérique
Données prêtes pour l’IA
Données fiables pour l’IA
Communs de données et espaces de données
Gestion des données
IA et données responsables
Dette de conformité / dette de confidentialité
Transparence, reproductibilité et auditabilité

Résultats attendus

Un prototype fonctionnel, tant sur le plan technique que sociotechnique
Processus entrants pour la collecte de données et la description des métadonnées
Mécanismes de nettoyage automatisé des données, d’octroi de licences et de contrôles de conformité
Un cadre permettant de mesurer et de réduire la dette de conformité
Documentation des hypothèses, des décisions de gouvernance et des enseignements tirés
Un concept pour la mise à l’échelle et le déploiement en conditions réelles

Remarque : nous sommes conscients que les résultats que nous demandons pourraient rester principalement au stade de prototype.

Partenaires du défi

Swiss Data Alliance

Apertus