Digitale Souveränität durch KI-taugliche und vertrauenswürdige Daten für die KI

Kontext

In einer KI-Landschaft, die zunehmend von proprietären Black-Box-Modellen geprägt ist, wird die digitale Souveränität für die Schweiz zu einer strategischen Priorität. Dabei kommt es nicht nur darauf an, wo ein Modell entwickelt wird, sondern auch darauf, auf welchen Daten es basiert, wie diese Daten kuratiert werden und ob ihre Nutzung rechtlich, technisch und gesellschaftlich transparent und nachvollziehbar ist.

Apertus zeigt, dass KI auch anders aufgebaut werden kann: als offenes, in der Schweiz entwickeltes Modell, das auf vertrauenswürdigen und verantwortungsbewusst kuratierten Daten basiert. Dies erfordert KI-taugliche Daten, die zu vertrauenswürdigen Daten für KI weiterentwickelt werden: dokumentierte, kuratierte, rechtlich geprüfte und zweckgebundene Datensätze, die zum Trainieren, Feinabstimmen oder Bewerten von KI-Systemen verwendet werden können.

Problemstellung

Heute werden grosse KI-Modelle oft mit öffentlich zugänglichen Daten trainiert, deren Herkunft, Lizenzbedingungen, Qualität und Risikoprofil für die Öffentlichkeit schwer einzuschätzen sind. Dies führt zu Misstrauen, Compliance-Risiken sowie einem Mangel an Reproduzierbarkeit, Überprüfbarkeit und verantwortungsvollen KI-Praktiken.

Für Apertus besteht die zentrale Herausforderung nicht einfach darin, mehr Daten zur Verfügung zu stellen, sondern Daten systematisch so aufzubereiten, dass sie:

dokumentiert und auffindbar sind
rechtlich und ethisch geprüft sind
dauerhaft und versioniert sind, um die Rückverfolgbarkeit zu gewährleisten
für spezifische Modellfunktionen geeignet sind
in der Lage sind, Compliance-Schulden und Datenschutzschulden (wie unten definiert) zu reduzieren

Rahmen der Herausforderung

Diese Herausforderung lädt Teams dazu ein, Lösungen zu entwickeln, die aufzeigen, wie ein Datenraum als regulatorische und technische Membran zwischen Daten aus verschiedenen Quellen (z. B. Webdaten, Common Crawl sowie vertrauenswürdige Akteure, die Daten unter definierten oder eingeschränkten Bedingungen bereitstellen) und vertrauenswürdigen Trainingsdaten für KI (in diesem Prototyp: Trainingsdaten für Apertus) fungieren kann.

Im Kern steht ein dreistufiger Verfeinerungsprozess:

Eingabe / Zugänglich

Rohdaten werden erfasst, dokumentiert und mit einem Minimum an Metadaten angereichert.

Verarbeitung / Erkundbar

Die Daten werden technisch, rechtlich und qualitativ geprüft, bereinigt, kuratiert und hinsichtlich ihrer Risiken bewertet.

Ausgabe / Zweckgemäss

Kuratierte, versionierte und dokumentierte Datensätze werden als Vertrauenswürdige Daten für KI für Apertus oder vergleichbare KI-Systeme zur Verfügung gestellt, sofern sie die im Prototyp definierte Qualitätsschwelle erfüllen.

Schlüsselkonzepte

Digitale Souveränität
KI-fähige Daten
Vertrauenswürdige Daten für KI
Daten-Commons und Datenräume
Datenverwaltung
Verantwortungsvolle KI und Daten
Compliance-Schulden / Datenschutzschulden
Transparenz, Reproduzierbarkeit und Überprüfbarkeit

Erwartete Ergebnisse

Ein funktionsfähiger technischer und soziotechnischer Prototyp
Inbound-Prozesse für die Datenerfassung und Metadatenbeschreibung
Mechanismen zur automatisierten Datenbereinigung, Lizenzierung und Compliance-Prüfung
Ein Rahmenwerk zur Messung und Reduktion von Compliance-Schulden
Dokumentation von Annahmen, Governance-Entscheidungen und Erkenntnissen
Ein Konzept für die Skalierung und den Einsatz in der Praxis

Hinweis: Wir sind uns bewusst, dass die von uns geforderten Ergebnisse möglicherweise überwiegend im Prototypenstadium verbleiben.

Challenge-Partner

Swiss Data Alliance

Apertus