Digitale Souveränität durch KI-taugliche und vertrauenswürdige Daten für die KI

Kontext

In einer KI-Landschaft, die zunehmend von proprietären Black-Box-Modellen geprägt ist, wird die digitale Souveränität für die Schweiz zu einer strategischen Priorität. Dabei kommt es nicht nur darauf an, wo ein Modell entwickelt wird, sondern auch darauf, auf welchen Daten es basiert, wie diese Daten kuratiert werden und ob ihre Nutzung rechtlich, technisch und gesellschaftlich transparent und nachvollziehbar ist.

Apertus zeigt, dass KI auch anders aufgebaut werden kann: als offenes, in der Schweiz entwickeltes Modell, das auf vertrauenswürdigen und verantwortungsbewusst kuratierten Daten basiert. Dies erfordert KI-taugliche Daten, die zu vertrauenswürdigen Daten für KI weiterentwickelt werden: dokumentierte, kuratierte, rechtlich geprüfte und zweckgebundene Datensätze, die zum Trainieren, Feinabstimmen oder Bewerten von KI-Systemen verwendet werden können.

Problemstellung

Heute werden grosse KI-Modelle oft mit öffentlich zugänglichen Daten trainiert, deren Herkunft, Lizenzbedingungen, Qualität und Risikoprofil für die Öffentlichkeit schwer einzuschätzen sind. Dies führt zu Misstrauen, Compliance-Risiken sowie einem Mangel an Reproduzierbarkeit, Überprüfbarkeit und verantwortungsvollen KI-Praktiken.

Für Apertus besteht die zentrale Herausforderung nicht einfach darin, mehr Daten zur Verfügung zu stellen, sondern Daten systematisch so aufzubereiten, dass sie:

  • dokumentiert und auffindbar sind
  • rechtlich und ethisch geprüft sind
  • dauerhaft und versioniert sind, um die Rückverfolgbarkeit zu gewährleisten
  • für spezifische Modellfunktionen geeignet sind
  • in der Lage sind, Compliance-Schulden und Datenschutzschulden (wie unten definiert) zu reduzieren

Rahmen der Herausforderung

Diese Herausforderung lädt Teams dazu ein, Lösungen zu entwickeln, die aufzeigen, wie ein Datenraum als regulatorische und technische Membran zwischen Daten aus verschiedenen Quellen (z. B. Webdaten, Common Crawl sowie vertrauenswürdige Akteure, die Daten unter definierten oder eingeschränkten Bedingungen bereitstellen) und vertrauenswürdigen Trainingsdaten für KI (in diesem Prototyp: Trainingsdaten für Apertus) fungieren kann.

Im Kern steht ein dreistufiger Verfeinerungsprozess:

Eingabe / Zugänglich

Rohdaten werden erfasst, dokumentiert und mit einem Minimum an Metadaten angereichert.

Verarbeitung / Erkundbar

Die Daten werden technisch, rechtlich und qualitativ geprüft, bereinigt, kuratiert und hinsichtlich ihrer Risiken bewertet.

Ausgabe / Zweckgemäss

Kuratierte, versionierte und dokumentierte Datensätze werden als Vertrauenswürdige Daten für KI für Apertus oder vergleichbare KI-Systeme zur Verfügung gestellt, sofern sie die im Prototyp definierte Qualitätsschwelle erfüllen.

Schlüsselkonzepte

  • Digitale Souveränität
  • KI-fähige Daten
  • Vertrauenswürdige Daten für KI
  • Daten-Commons und Datenräume
  • Datenverwaltung
  • Verantwortungsvolle KI und Daten
  • Compliance-Schulden / Datenschutzschulden
  • Transparenz, Reproduzierbarkeit und Überprüfbarkeit

Erwartete Ergebnisse

  • Ein funktionsfähiger technischer und soziotechnischer Prototyp
  • Inbound-Prozesse für die Datenerfassung und Metadatenbeschreibung
  • Mechanismen zur automatisierten Datenbereinigung, Lizenzierung und Compliance-Prüfung
  • Ein Rahmenwerk zur Messung und Reduktion von Compliance-Schulden
  • Dokumentation von Annahmen, Governance-Entscheidungen und Erkenntnissen
  • Ein Konzept für die Skalierung und den Einsatz in der Praxis

Hinweis: Wir sind uns bewusst, dass die von uns geforderten Ergebnisse möglicherweise überwiegend im Prototypenstadium verbleiben.

Challenge-Partner

Swiss Data Alliance

Apertus