Im Jahr 2017 berichtete eine Gruppe von Wissenschaftlern der Universität Stanford im Fachmagazin Nature, dass sie ein sog. Convolutional Neural Network (CNN) mit einem Datensatz von 129.450 klinischen Bildern trainiert hatten (Esteva et al. 2017). Die Aufgabe bestand zum einen darin, bösartige Karzinome von gutartigen Geschwüren zu unterscheiden; zum anderen mussten maligne Melanome von gutartigen Nävi unterschieden werden. Laut der Studie erreichte das CNN ebenso gute Ergebnisse wie 21 von der Hautärztekammer zertifizierte Dermatologen. Trotz dieses beeindruckenden Erfolgs stellt sich mit Blick auf derartige Deep-Learning-Algorithmen ein grundlegendes Problem: Sie sind epistemisch opak und ähneln damit Orakle-Sprüchen.
Nehmen wir an, es sei ein Diagnosesystem entwickelt worden, dass anhand der Analyse von Gehirnscans das Auftreten einer schweren neurodegenerativen Erkrankung voraussagen kann. Nehmen wir weiter an, es gebe ein Medikament, dass zwar erhebliche Nebenwirkungen hat, bei frühzeitiger Einnahme den Ausbruch der Krankheit aber verhindern oder zumindest lange herauszögern kann. Dann könnte es zu folgender Situation kommen: Im Rahmen einer Routineuntersuchung, die auch ein MRT des Gehirns beinhaltet, signalisiert das Diagnosetool, dass bei dem Patienten die neurodegenerative Erkrankung in den kommenden Jahren ausbrechen wird. Der Arzt empfiehlt dem Patienten daher, jenes Medikament regelmäßig einzunehmen, weist allerdings auf die erheblichen Nebenwirkungen hin. Der Patient wird sich überlegen, ob er das Mittel tatsächlich einnehmen will oder nicht. Eine naheliegende Frage an den Neurologen lautet: Woher wissen Sie, dass ich – obwohl ich derzeit noch gänzlich symptomfrei bin – in Zukunft erkranken werde? Der Neurologe wird antworten: Wir haben dieses neue Diagnosesystem, das mit Methoden der künstlichen Intelligenz operiert, und es hat die Diagnose gestellt. Der Patient wird vielleicht weiter fragen: Aber woher weiß dieses Diagnosetool, dass ich erkranken werden? Der Neurologe wird antworten: Es hat sich in Tests als sehr zuverlässig erwiesen; in 95 von 100 Fällen hat es Patienten anhand von älteren Hirnscans identifizieren können, die später tatsächlich erkrankt sind. An dieser Stelle könnte der Patient vielleicht einwenden, dass dies sicher ein Grund sei, der Diagnose des Systems zu vertrauen, aber kein Grund dafür, dass er die Krankheit entwickle. Der Neurologe müsste zugestehen, dass die kausalen Ursachen der Erkrankung bislang – wie bei so vielen anderen Krankheiten – weitgehend unklar seien. Der Patient könnte weiter kritisch sein und fragen, was denn in seinem Fall dafürspreche, dass er die Krankheit entwickeln werde – abgesehen davon, dass das Diagnosetool einen entsprechenden Befund ausgeworfen habe. Auf die letzte Frage des Patienten kann der Neurologe keine Antwort geben. Dies deutet auf ein grundlegendes Problem in der Verwendung von Deep-Learning-Algorithmen hin.
Der Trainingsprozess solcher Systeme führt dazu, dass sie „epistemisch opak“ werden, d. h. es lässt sich nicht mehr im Detail rekonstruieren, wie ein System zu einer Diagnose gelangt ist. Dies widerspricht in fundamentaler Weise dem menschlichen Bedürfnis, Sachverhalte zu verstehen – insbesondere solche, die uns selbst in existentieller Weise betreffen. Hier ist es wichtig, zwischen „für wahr halten“ einerseits und „verstehen“ andererseits zu unterscheiden. Natürlich gibt es einen guten Grund, die Diagnose eines solchen Systems für wahr zu halten – nämlich die hohe Zuverlässigkeit des Systems in der Vergangenheit. Dass man die Diagnose für korrekt hält, bedeutet aber nicht, dass man sie auch versteht. Dem Ansatz von Christoph Kelp (2015) zufolge beinhaltet das Verständnis eines Sachverhalts S nicht nur, dass man eine Reihe von wahren Propositionen pi kennt, die für S sprechen, sondern darüber hinaus auch, wie diese Propositionen pi logisch zusammenhängen. Verständnis ist demnach „well-connected knowledge“. Die epistemische Opakheit von Deep-Learning-Algorithmen verhindert aber gerade, dass man ihre Ergebnisse mit anderen Wissensbeständen logisch verknüpfen kann. Sie nehmen daher den Charakter von Orakel-Sprüchen an, die sich nicht weiter befragen und nur sehr bedingt mit bestehendem Wissen verknüpfen lassen. Zwar sind die Diagnose – anders als klassische Orakel-Sprüche – selbst nicht enigmatisch. Durch ihre mangelnde Befragbarkeit erhalten sie aber doch etwas Unzugängliches, das sie dem rationalen Diskurs entzieht.
Besonders deutlich wird dies, wenn es jenseits der Diagnose eines KI-Systems Anhaltspunkte gibt, die gegen den zukünftigen Ausbruch einer Erkrankung sprechen. Dabei handelt es sich um eine wohlvertraute Situation: Es liegen auf den ersten Blick widerstreitende Evidenzen vor. Auch im Falle einer klassisch gestellten Diagnose kommt dies gelegentlich vor. Das übliche Vorgehen in einem solchen Fall besteht darin, eine Deutung zu finden, die alle vorliegenden Erkenntnisse kohärent vereinigt. Um es etwas konkreter zu machen, nehmen wir an, ein Arzt diagnostiziert anhand vorliegender Symptome (Fieber und Halsschmerzen) einen bakteriellen Infekt. Mithilfe eines Schnelltests lässt sich indes kein bakterieller Erreger nachweisen. Etwas stimmt also nicht. Es könnte bspw. sein, dass es sich um einen viralen Erreger handelt, auf den der Schnelltest nicht anspricht, der aber zu ähnlichen Symptomen führt. Oder es könnte ein Umstand vorliegen, der zu einem negativen Testbefund führt, obwohl der Erreger präsent ist. Eine Überprüfung zielt mithin gerade darauf ab, die logischen Zusammenhänge genauer zu klären, die zwischen einer Reihe von Propositionen pi bestehen, die teilweise für und teilweise gegen das Vorliegen eines bakteriellen Infekts sprechen. Dies geht freilich nur, wenn die einzelnen Aussagen einer Überprüfung zugänglich sind. Dazu gehört im Beispiel u. a. das Ergebnis des Schnelltests. Details über den Test muss der behandelnde Arzt nicht unbedingt selbst kennen. Er muss sich aber zumindest darauf verlassen können, dass der Hersteller verlässliche Angaben dazu machen kann, unter welchen Bedingungen der Test zu falschen Ergebnissen führt. Am Ende der Überprüfung kommt der Arzt – womöglich vorläufig – zu einer Diagnose, die alle Tatsachen kohärent verbindet, und gründet darauf seine Behandlungsempfehlung. Genau dies ist bei Deep-Learning-Algorithmen nicht möglich, da die Genese ihres Outputs epistemisch unzugänglich bleibt.
Das soeben beschriebene Problem wird seit einiger Zeit unter dem Begriff „black box“ diskutiert. Ich denke, der Begriff „Orakel-Syndrom“ verdeutlicht besser, dass diese Systeme durch eine eigentümliche Ambivalenz charakterisiert sind: Einerseits liefern sie uns informative Prognosen, andererseits widersetzen sie sich der diskursiven Rückfrage – geradeso wie ein Orakel. In rationalen Diskursen sollten Orakel freilich keinen Platz haben – selbst wenn sie wiederholt richtigliegen. Solange wir nicht verstehen können, was für und was gegen eine Voraussage spricht, reichen sie schlicht nicht an unsere heutigen epistemischen Standards heran.
Das bedeutet nicht, dass wir auf den Einsatz von Deep-Learning-Techniken insgesamt verzichten sollten. Es bedeutet vielmehr, dass wir diese Systeme zukünftig so einrichten müssen, dass sie möglichst epistemisch transparent sind. Bedenkt man, dass KI-Systeme mittlerweile nicht nur in der Medizin, sondern auch in zahlreichen anderen Lebensbereichen zum Einsatz kommen, dann erkennt man die volle Tragweite dieser Herausforderung. Nur wenn KI-Systeme epistemisch transparent sind, können die Informationen, die sie liefern, in wissenschaftlicher und ethischer Hinsicht kritisch bewertet und verantwortungsvoll genutzt werden.
Zitierte Literatur
Esteva, A., Kuprel, B., Novoa, R. A., Ko, J., Swetter, S. M., Blau, H. M., & Thrun, S. (2017). Dermatologist-level classification of skin cancer with deep neural networks. Nature, 542, 115–118.
Kelp, C. (2015). Understanding phenomena. Synthese, 192, 3799–3816.
Ausführlicher wird das Thema in folgendem Beitrag behandelt:
Heinrichs, B., Eickhoff, S. B. (2019). Your evidence? Machine learning algorithms for medical diagnosis and prediction. Human Brain Mapping (online first). https://doi.org/10.1002/hbm.24886.