eHealth: KI-Verordnung, EU-Gesundheitsdatenraum und Co. aus rechtlicher Sicht

Wie KI-Verordnung, der europäische Gesundheitsdatenraum und das Gesundheitsdatennutzungsgesetz zusammenhängen, erklärt Rechtsanwalt Philipp Müller-Peltzer.

In Pocket speichern vorlesen Druckansicht 10 Kommentare lesen
Arzt schaut auf einem Tablet auf Gesundheitsdaten

(Bild: greenbutterfly/Shutterstock.com)

Lesezeit: 14 Min.
Inhaltsverzeichnis

(Bild: Schürmann Rosenthal Dreyer Rechtsanwälte / Robert Recker)

Die KI-Verordnung befindet sich gerade in den letzten Zügen und könnte noch dieses Jahr, wahrscheinlich aber eher 2024 in Kraft treten, anschließend folgt eine dreijährige Umsetzungsfrist für die Nutzer und Hersteller der KI-Anwendungen. Die KI-Verordnung soll auch den Einsatz von KI im Gesundheitswesen regeln. Was weitere Gesetze wie der europäische Gesundheitsdatenraum (European Health Data Space, EHDS) und das Gesundheitsdatennutzungsgesetz (GDNG) damit zu tun haben, klären wir im Gespräch mit Philipp Müller-Peltzer.

Dies ist der zweite Teil einer dreiteiligen Interview-Serie, hier finden sie den ersten Teil.

eHealth: Rechtliche Sicht zur KI-Verordnung,Gesundheitsdatenraum und Co.

(Bild: 

Vasin Lee/Shutterstock.com

)

Der zunehmende Einsatz von Künstlicher Intelligenz in der Medizin ist nicht neu, aufgrund der sich rasant entwickelnden generativen Sprachmodelle und der für die EU kommenden EU-Verordnung und weiteren Gesetzen erfährt das Thema jedoch eine neue Relevanz.

Was sollen EHDS und KI-Verordnung künftig regeln?

Die "European Health Data Space"-Verordnung wird im Wesentlichen den Zugang zu medizinischen Daten auf europäischer Ebene sicherstellen. Das hat inhaltlich wiederum sehr viel mit dem Thema KI zu tun und steht auch so im Entwurf der KI-Verordnung in der Begründung. Diese Datenmengen müssen eine hohe Qualität zu spezifischen Gesundheitsfragen haben und sind die Voraussetzung, um KI-Systeme zu trainieren.

Die Daten sind hier das Vehikel, beziehungsweise nicht alle Daten, sondern die hochqualitativen Daten. Die Daten sollen nicht in der Hand weniger Anwender oder weniger Hersteller bleiben, die sich dann beispielsweise schon Fortschritte oder Vorteile verschaffen konnten, weil sie schon einige Zeit das Feedback aus ihren Anwendungen bekommen.

Gesundheitsdaten sollen möglichst einer breiten Anzahl von Entwicklern, von Unternehmen, von Anwenderinnen zur Verfügung gestellt werden. Das ist umstritten und auch nicht ganz einfach, weil es bestimmte Prämissen festlegt, die technisch und faktisch gar nicht so ganz einfach zu erfüllen sind.

So werden bestimmte Einrichtungen etwa in großem Umfang verpflichtet, Daten in anonymisierter Form zur Verfügung zu stellen. Die Anonymisierung von Daten, insbesondere von sehr feingranularen Datensätzen mit sehr vielen einzelnen Datenpunkten, ist alles andere als trivial. Dazu gibt es noch keine Rechtsklarheit. Das Recht setzt voraus, dass derjenige, der die Daten liefern und zur Verfügung stellen muss, auch die Anonymisierung regelt. In diesem Zusammenspiel mit der EHDS-Verordnung und dem Ziel, diese Daten dann allen zur Verfügung zu stellen, ergeben sich dann auch weitere Spannungsverhältnisse.

Wie spielen Gesundheitsdatennutzungsgesetz und EHDS zusammen?

Mit dem im August 2023 vom Bundesgesundheitsministerium vorgelegten "Entwurf eines Gesetzes zur verbesserten Nutzung von Gesundheitsdaten" ist eine bessere Zugänglichmachung von Daten für die Forschung intendiert. Durch das Gesetz soll das Spannungsverhältnis zwischen der Vertraulichkeit ärztlicher Heilbehandlungen und den Anforderungen an eine moderne Gesundheitsforschung datenschutzkonform gelöst werden.

Der EHDS soll europaweit den Zugang und die Übermittlung personenbezogener elektronischer Gesundheitsdaten innerhalb der Gesundheitsversorgung verbessern. Mit dem Gesundheitsdatennutzungsgesetz (GDNG) möchte der deutsche Gesetzgeber erste Schritte zur Anbindung an den EHDS tätigen. Hierzu gehört etwa die Einrichtung von Datenzugangsstellen, die auch der EHDS vorsieht.

Welche Schnittmengen gibt es zwischen dem EHDS und der KI-Verordnung?

Die große Schnittmenge ist der diskriminierungsfreie Zugang zu Daten und insofern auch die Sicherstellung entsprechend geeigneter Daten für die KI-Modellierung. Anonymisierte Gesundheitsdaten sollen aus dem EHDS heruntergeladen werden können, um damit KI-Systeme im Gesundheitsbereich zu trainieren. Durch den EHDS können hoffentlich datenschutzrechtliche Probleme der KI-Anbieter in Bezug auf das Training und die Weiterentwicklung von KI-Anwendungen im Gesundheitsbereich gelöst werden.

Also Echte-Welt-Daten?

Genau, im Grunde genommen ein Sandboxing, in dem dann Daten verwendet werden können. Die Reallabore (Regulatory Sandboxes) könnten dann Anwendern und Herstellern synthetische Daten zur Verfügung stellen. Ziel soll ein innovationsfreundliches Umfeld für KI-Anwendungen sein. Aber letztlich geht es ja vor allem immer darum, ob Daten von Menschen verarbeitet werden. Es gibt da auch noch unterschiedliche Aspekte wie die Zugänglichkeit der Daten auch in Hinblick auf Open Data. Welche Daten müssen nicht geheim gehalten werden, sondern sollen allen zur Verfügung gestellt werden? Der Staat soll die Daten nicht nur für sich beanspruchen, sondern der Allgemeinheit zur Verfügung stellen, so denn die Rechte Dritter dadurch nicht tangiert werden.

Können generative KIs bedenkenlos mit synthetischen Daten trainiert werden?

Das Training einer KI ist üblicherweise auf große Mengen Daten angewiesen. Zumeist werden hierfür auch personenbezogene Daten benötigt. Das widerspricht auf den ersten Blick verschiedenen datenschutzrechtlichen Grundsätzen, wie etwa dem Grundsatz der Datenminimierung, der besagt, dass die Verarbeitung personenbezogener Daten auf ein Minimum reduziert werden sollte. In der Praxis wird dieses Spannungsverhältnis pragmatisch durch den Einsatz sogenannten Privacy Enhancing Technologies (PET) gelöst. Hierunter versteht man Konzepte, die die Nutzung von Daten unter Beachtung der Privatsphäre ermöglichen. Probate PET-Tools können sowohl anonymisierte als auch synthetische Daten sein. Beide Begriffe müssen aber sauber differenziert werden.

Der Umfang der genutzten personenbezogenen Trainingsdaten für eine KI lässt sich reduzieren, indem nicht relevante Daten mit erheblichem Aufwand anonymisiert werden. Hierdurch wird i.d.R. auch nicht die Qualität der KI-Systeme beeinträchtigt. Daten sind eindeutig anonym, wenn unabhängig vom Aufwand weder das für die Datenverarbeitung verantwortliche Unternehmen noch ein Dritter die Daten einer einzelnen Person zuordnen kann ("absolut anonyme Daten"). In der Praxis ist aber eine absolute Anonymisierung schwierig zu realisieren und nach Maßgabe der DSGVO auch nicht erforderlich, um dem Kriterium der Anonymisierung zu entsprechen. Es genügt, wenn der Personenbezug so aufgehoben wird, dass eine Re-Identifizierung praktisch nicht in Betracht kommt, da der hierfür notwendige Arbeits- und Kostenaufwand unverhältnismäßig hoch wäre.

Es kann aber auch auf synthetische Trainingsdaten zurückgegriffen werden, die über Drittanbieter zugekauft werden können. Bislang sind jedoch synthetische Daten für den Medizinsektor noch nicht umfassend vorhanden und die Verfahren nicht flächendeckend für alle Anwendungsfelder hinreichend ausgereift. Synthetische Daten werden erstellt, indem reale Daten durch einen KI-Algorithmus laufen, der sie in einer ähnlichen, aber nicht identischen Form neu konzipiert. Je näher die synthetischen Daten an den ursprünglichen Daten liegen, desto besser sind sie einsetzbar. Bei der Synthetisierung können aber auch entscheidende Parameter unbemerkt verloren gehen. Patientendaten bestehen aus vielen einzelnen Variablen, wie z.B. der Anzahl der einzunehmenden Medikamente, Raucher oder Nichtraucher, Herzschrittmacher etc. Wird die kumulative Zusammensetzung der einzelnen Patienten-Variablen der Originaldaten inkorrekt in den synthetischen Daten wiedergegeben, entstehen verfälschte Datensets, die wiederum zu einem unpräzisen KI-Output führen.

Deshalb ist es bislang technisch schwierig, repräsentative, synthetische Datensätze zu erzeugen. In der Praxis entsprechen die synthetischen Datensets häufig leider noch nicht hinreichend den Originaldaten.