Schattenblick → INFOPOOL → NATURWISSENSCHAFTEN → REPORT


INTERVIEW/012: Die DPG stellt vor - das Mögliche auch nutzen ...    Prof. Dr. Dr. Claus Beisbart im Gespräch (SB)


Zeichen entstehen durch ihre Deutung

Frühjahrstagung der Sektion Materie und Kosmos (SMuK) der Deutschen Physikalischen Gesellschaft vom 13. - 17. März 2017 an der Universität Bremen

Prof. Beisbart über die computerunterstützte Auswertung großer Datenmengen, die Notwendigkeit zu interpretieren und die Versuche des Menschen, vom Meßbaren zum Nicht-Meßbaren zu gelangen


Die von IT-Konzernen, Geheimdiensten und Wissenschaften erhobenen Daten nehmen oft so große Ausmaße an, daß die Mengen nur noch mit Hilfe von Computern ausgewertet werden können. Mit Fragen, was diese sogenannten Big Data und die entsprechenden Analyseverfahren des Data-Mining für den Erkenntnisgewinn vorrangig in der Naturwissenschaft bedeuten, ist Prof. Dr. Dr. Claus Beisbart befaßt. Der promovierte Physiker und Philosoph forscht seit 2012 als Extraordinarius mit Schwerpunkt Wissenschaftsphilosophie am Institut für Philosophie, Abteilung Theoretische Philosophie, an der Universität Bern in der Schweiz.

In seinem Vortrag auf der Frühjahrstagung der Deutschen Physikalischen Gesellschaft in Bremen warf er die Frage auf, ob sich von Big Data etwas Nützliches lernen läßt. Er knüpfte dabei an ein Problem an, welches Platon vor rund 2350 Jahren dem Menon in den Mund gelegt hatte. Dieser erörterte damals zusammen mit Sokrates, ob der Mensch etwas suchen kann, was er noch nicht kennt. Übertragen auf Big Data lautet die Frage: Kann die Wissenschaft mit Hilfe des Data-Mining wirklich zu neuer Erkenntnis gelangen? Denn um einen Erfolg bei der Datenauswertung vorweisen zu können, muß der Wissenschaftler ein Kriterium für den Erfolg nennen können. Zum Beispiel muß er wissen, was er sucht und was nicht. Aber das Motiv, in wissenschaftliches Neuland vorzustoßen, kann laut Prof. Beisbart hinter dem Wunsch zurücktreten, die mit Hilfe einer sich schnell entwickelnden Technologie akkumulierenden, riesigen Datenmengen überhaupt erst auswerten zu können.

In der Vorankündigung zu seinem Vortrag schreibt Prof. Beisbart, sein philosophisches Projekt sei zu erklären, wie Data-Mining neue Kenntnis entgegen der paradoxen Schlußfolgerung Menons produzieren könnte. Dazu stellte er eine Fallstudie aus der Astrophysik vor und analysierte repräsentative Methoden des Data-Minings. Zum Beispiel können die Daten über die Position der Sterne am nächtlichen Himmel daraufhin untersucht werden, welchen Abstand sie zueinander haben. Stehen Sterne dicht beieinander, kann man sie in Cluster zusammenfassen. Das wäre dann eine aus der Datenauswertung gewonnene, mögliche Erkenntnis. Oder Sterne finden sich weit weg von anderen Himmelskörpern. Das ließe sich über ein Ausschließungsverfahren beim Data-Mining herausfinden.

Auf die Datenerhebung im Kontext gesellschaftlicher Entwicklung eines bald in jeder Regung von maschineller Sensorik erfaßten Menschen ging Prof. Beisbart nicht ein, aber er war bereit, im Anschluß an seinen Vortrag dem Schattenblick entsprechende Fragen zu beantworten.


Beim Interview - Foto: © 2017 by Schattenblick

Prof. Dr. Dr. Claus Beisbart
Foto: © 2017 by Schattenblick

Schattenblick (SB): Seit einigen Jahren setzt die Kantonspolizei Zürich ein Computerprogramm zur Analyse lokaler Verbrechenshäufigkeit ein. Die Prognosesoftware soll analog zur Wettervorhersage die Wahrscheinlichkeit berechnen, wo und wann zum Beispiel Wohnungseinbrüche zu erwarten sind. Arbeiten solche musterbasierten Prognosetechniken mit Data-Mining?

Prof. Dr. Dr. Claus Beisbart (CB): Ja, in der Regel verwenden sie Data-Mining. Die Grundlage ist zunächst einmal eine große Datenbasis. Man hat viele Daten gewonnen und will dann Muster darin erkennen. Genau das leistet das Data-Mining. Man unterscheidet bei Data-Mining zwischen deskriptiven und prognostischen Methoden. Im ersten Fall charakterisiere ich den Datensatz: Was ist darin alles enthalten? Im zweiten Fall geht es hingegen darum, wie bei der Wettervorhersage Prognosen zu erstellen. Diese sind natürlich noch nicht in den Daten enthalten. Philosophisch gesprochen stehen wir vor dem folgenden Problem: Wir haben immer nur Daten für die Vergangenheit, die wir trotzdem in die Zukunft projizieren wollen. Das ist eine wichtige Aufgabe, die sich in vielen Wissenschaften stellt.

Um eine Prognose zu erstellen, sucht man nach Mustern in den vorhandenen Daten und extrapoliert diese dann in die Zukunft und manchmal sogar in neue Regionen. Wenn man meinetwegen Daten von einem Stadtteil in Zürich hat, kann man diese unter gewissen Voraussetzungen auf einen anderen Stadtteil übertragen. Zur Erkennung der vorhandenen Muster werden verschiedene Methoden des Data-Minings eingesetzt. Das sind zum Teil recht einfache Methoden, wenn man zum Beispiel nach Korrelationen zwischen mehreren Kenngrößen oder Variablen sucht, sagen wir etwa der Jahreszeit und der Häufigkeit von Verbrechen. Das ist vielleicht konzeptionell nicht besonders interessant, aber ja, es gehört zum Data-Mining dazu.

SB: Wir haben uns nach Ihrem Vortrag gefragt, ob man beim Data-Mining nach einem Muster oder ob man nach einem Einzelereignis sucht.

CB: Das kommt darauf an, wie Sie zwischen Mustern und Einzelereignissen unterscheiden. Der Begriff des Musters ist da nicht ganz eindeutig. Manchmal sucht man in den Daten nach mehrmals wiederkehrenden Strukturen. Ein Cluster, also eine Häufung, wäre so eine Struktur, die sich wiederholen kann. Viele Anhäufungen von Galaxien finden Sie zum Beispiel in einem großen Galaxienkatalog. Es gibt aber auch Muster, die einen ganzen Datensatz erfassen, zum Beispiel wenn zwei oder drei Variablen immer in einem bestimmten Verhältnis stehen. Das ist ja die Idee bei einer einfachen Korrelation. Im einfachsten Fall finden wir eine Gerade in den Daten, weil die eine Variable immer ein Vielfaches der anderen Variable ist. Eine solche Gerade wäre dann ein Muster, das sich durch die ganzen Daten hindurchzieht und daher nur einmal in den Daten zu finden ist.

Es gibt aber auch andere Data-Mining-Techniken wie die Identifikation von sogenannten "Outliers" oder das sogenannte Anomaly-Mining. Da versucht man Einzelereignisse zu finden, die sich signifikant von allen anderen unterscheiden. Insgesamt gilt also: Manchmal geht es um wiederholbare Muster, manchmal um ein Muster, das sich bloß einmal im Datensatz findet, und manchmal um besondere Einzelereignisse.

SB: Das CERN bei Genf hat im Sommer 2012 die mutmaßliche Entdeckung eines Higgs-Teilchens bekanntgegeben. Der eigentliche Nachweis fand in den Folgejahren anhand der Verrechnung der Meßdaten statt, die der Teilchenbeschleuniger LHC geliefert hatte. Hat aus Ihrer Sicht das Data-Mining damit bewiesen, daß ein Higgs-Teilchen zu einem bestimmten Zeitpunkt an einem bestimmten Ort gewesen ist?

CB: Man kann sich streiten, inwiefern es hier wirklich um typisches Data-Mining geht. Wir haben im Beispiel vom CERN riesige Datenmengen vorliegen, und so haben wir es mit Big Data im Sinne einer riesigen Datenmenge zu tun. Aber manchmal spricht man auch nur von Big Data, wenn die Daten nicht durch eine Theorie erklärt werden. Beim Versuch am CERN ist es nun so, daß man eine Theorie für die dort beobachtbaren Ereignisse hat, mit der man diese sehr, sehr gut analysieren kann. Das heißt, die Auswertungsmethoden sind sehr stark theoriebasiert. Das ist untypisch für viele andere Big-Data-Anwendungen. Doch waren in jedem Fall auch beim CERN Datenanalysetechniken entscheidend dafür, daß man das Higgs-Teilchen tatsächlich an einem bestimmten Ort und zu einem bestimmten Zeitpunkt nachweisen konnte.

SB: Sie sind vorhin schon ein bißchen darauf eingegangen, ich möchte da jedoch noch einmal nachfassen. Wenn man ein Muster erkennt, kann man davon auf ein Einzelereignis schließen? Und umgekehrt, wie kann man von einem Einzelereignis auf ein Muster schließen?

CB: Von einem Einzelereignis kann man fast nie auf ein Muster schließen, das mehrere Ereignisse umfaßt. Aber kann man von einem Muster auf ein Einzelereignis schließen? Es kommt darauf an, was das für ein Muster ist. Wenn es darin besteht, daß Sie eben eine Korrelation zwischen mehreren Variablen haben, und Sie haben meinetwegen für ein bestimmtes Ereignis nur eine Variable gemessen, dann können Sie eine andere erschließen. Das wäre ein Fall, bei dem man versucht, ein Muster zu extrapolieren, um etwas über ein Einzelereignis auszusagen. Allerdings liegen dann schon bestimmte Angaben über dieses Einzelereignis vor und man versucht nur, zusätzliche Angaben zu gewinnen. Das ist ein sehr typischer Fall. Die meisten Muster, die aus vielen Einzelereignissen bestehen, erlauben mir nicht zu sagen: Hier ist aber noch ein Einzelereignis und das muß so und so beschaffen sein.

SB: Man sagt auch, der Mensch mustert seine Umgebung. Könnte man sagen, daß das Data-Mining der Sinneswahrnehmung entspricht?

CB: Es entspricht der Verarbeitung von Sinneswahrnehmungen. Dazu müssen wir erstmal die Frage stellen: Was genau liefert eigentlich unsere Wahrnehmung? Das ist eine wichtige philosophische Frage. In der angelsächsischen Literatur sagt man gerne, unsere Sinne lieferten uns "sense data" - die Sinnesdaten. Kant spricht vom Mannigfaltigen des in der Wahrnehmung Gegebenen. Manchmal wird dieses Mannigfaltige als unorganisiert beschrieben. Aber wenn ich im Alltagsgespräch wiedergebe, was ich wahrnehme, dann gebe ich an, ich sehe einen Baum, ich sehe eine Brücke und so weiter. Darin ist schon eine gewisse Verarbeitung des Mannigfaltigen enthalten, und zwar mit Begriffen. Ich habe den Begriff des Baumes angewandt auf die vielfachen Eindrücke, die ich bekomme. Und man kann sagen, daß auch im Data-Mining versucht wird, eine Fülle von Mannigfaltigem zu strukturieren. In diesem Sinne würde ich Ihre Frage bejahen. Die Verarbeitung erfolgt dabei meist gleichsam von unten. Man verwendet keine komplizierten Theorien, sondern sucht zum Beispiel einfach, ob es Cluster oder etwas Ähnliches in den Daten gibt. In diesem Sinne stehen Ergebnisse von Data-Mining komplexen theoretischen Aussagen genauso gegenüber, wie das Wahrnehmungen tun.

SB: Die großen Informations- und Handelskonzerne etablieren zur Zeit in den Wohnzimmern der Welt Geräte, welche Informationen dazu sammeln, was die Bewohner sagen. Eine Puppe, welche Videoaufnahmen von Kinderzimmern anfertigt, wurde vor kurzem in Deutschland aus rechtlichen Gründen vom Markt genommen. Die Daten dieser Meßstationen werden mit Hilfe Künstlicher Intelligenz ausgewertet, deren Auswertung möglicherweise rechtlich relevante Folgen hat. Kann das Ergebnis einer Auswertung von Big Data verifiziert werden, ohne daß dafür erneut Big Data eingesetzt wird, was wiederum eine KI erfordern würde?

CB: Es kommt jetzt sehr stark darauf an, für was Sie sich interessieren, um welche Art von Informationen es geht. Beim Big Data gibt es auf der einen Seite einfach die Charakterisierung von Daten. Man möchte große Datensätze charakterisieren und fragt sich, was sie enthalten. Dazu brauchen Sie Big-Data-Techniken, die können Sie nicht ersetzen, weil die Datensätze einfach zu groß sind. Wenn Sie aber zum Beispiel auf der Basis von Big Data eine Vorhersage machen über eine Variable, die zufällig nicht in Ihrem Datensatz enthalten ist, dann können Sie im Prinzip später nachschauen, welchen Wert die Variable wirklich hat. Das gibt es schon. Gerade bei den rechtlich interessanten Fällen geht es nun meistens um Einzelereignisse.

Man will beispielsweise ein einzelnes Verbrechen aufklären. Wenn Sie da von Big Data einen Schluß auf Aspekte ziehen, die gar nicht in den Daten enthalten sind, dann kann man das manchmal schon mit anderen Methoden verifizieren. Eine Sache ist auf jeden Fall wichtig. Wenn solche Puppen oder andere Meßgeräte Aufnahmen machen, dann handelt es sich um riesigen Datensätze mit unheimlich vielen Informationen. Aber das meiste ist uninteressant. Es stellt sich die Aufgabe, das Interessante herauszufiltern. Nehmen Sie zum Beispiel eine Kamera, die in einem U-Bahnhof installiert ist. Die meisten Videobilder, die aufgenommen werden, sind für den Betreiber der U-Bahn uninteressant. Es wird erst interessant, wenn eine Videosequenz zeigt, wie ein Zug beschädigt wird. Big-Data-Algorithmen helfen nun, solche Sequenzen zu identifizieren. Wenn Sie die haben, dann können Sie sich die Bilder anschauen. Die entscheidenden Informationen liegen dann im Grunde genommen nur in der Videosequenz. Big Data filtert ihnen lediglich die richtigen Bilder raus; was Sie auf den Bildern sehen, ist Ihre Sache. Hier ist die Rolle von Data-Mining eher harmlos; denn es geht nur darum, die richtigen Teile der Datensätze zu finden, nicht aber darum, die Daten zu extrapolieren oder weiterzuverarbeiten.


Zwei Polizisten vor rund 30 Bildschirmen, die Straßenszenen zeigen - Foto: West Midlands Police, freigegeben als CC BY-SA 2.0 [https://creativecommons.org/licenses/by-sa/2.0/]

Von Big Data zu Big Brother? Hier beobachten noch Polizisten per Bildschirm die CCTV-überwachten Straßen von Birmingham. Mit den technischen Möglichkeiten könnten in Zukunft Computer eine Vorauswahl für auffälliges Verhalten treffen.
Contact Management Centre der Birmingham Central Police Station - West Midlands Police
Foto: West Midlands Police, freigegeben als CC BY-SA 2.0 [https://creativecommons.org/licenses/by-sa/2.0/]

SB: Manche KI-Auswertungen beziehen sich auf Verhalten von Menschen und Gesichtsausdrücke. In dem Fall ist es nicht so einfach, daß ich sage, damals hat er diesen Gesichtsausdruck gehabt, deswegen hat er das und das gedacht. Dann weist aber Big Data aufgrund der Algorithmen nach, die Person wollte einen Ladendiebstahl begehen.

CB: Gut, das ist jetzt aber ein gewagter Schluß. Der relevante Datensatz enthält zunächst die Bilder mit Gesichtsausdrücken. Vielleicht sind diese sogar mit Begriffen wie "freundlich", "lächelnd", "wütend" und so weiter kategorisiert. Dafür gibt es Algorithmen. Hiervon auf den Gemütszustand oder auch die Absichten einer Person zurückzuschließen, ist ein weiterer Schritt. Dazu bräuchten Sie Daten, welche eine eindeutige Verbindung zwischen Gesichtsausdrücken und Absichten herstellen. Aber es erscheint mir unwahrscheinlich, daß es solche Daten gibt.

Zunächst einmal gibt es in den Wissenschaften vom Menschen, z.B. in der Psychologie oder den Sozialwissenschaften, kaum eindeutige Verbindungen oder strikte Regelmässigkeiten. Sie finden überall Ausnahmen. In bestimmten Bereichen der Physik mag es anders sein, da gibt es Zusammenhänge, die ausnahmslos gelten. Aber in den Humanwissenschaften müssen Sie immer mit Ausnahmen rechnen, daher ist so ein Schluß problematisch. Man könnte vielleicht höchstens sagen, mit 80 Prozent Wahrscheinlichkeit hat jemand eine böse Absicht. Da muß man also sehr vorsichtig sein. Ein anderes Problem dürfte sein, daß es kaum Datensätze über Absichten gibt. Absichten kann man nicht einfach messen. Man kann Gehirnströme messen, aber von denen müssten Sie dann zu Absichten kommen.

SB: Es wird daran gearbeitet.

CB: Das mag sein. Aber letztlich ist es so, daß wir bestimmte Dinge messen können, andere nicht. Es gibt also zwei Bereiche, den des Meßbaren und den des Nicht-Meßbaren. Der zweite Bereich interessiert uns natürlich auch, aber wir können ihn allenfalls indirekt erschließen, indem wir aus dem Gemessenen Folgerungen für das Nicht-Meßbare ziehen. Es ist ein alter Traum des Menschen, daß er über das Meßbare hinausgeht und dann unsichtbare Strukturen identifiziert, die dem Meßbaren zugrundeliegen - zum Beispiel die Quarks. Die sehen wir ja auch nicht, die können wir auch nicht direkt messen. Wir müssen ihre Existenz also erschließen. In der Physik funktioniert das recht gut, aber ich meine, im Bereich des Menschlichen ist es sehr schwierig.

SB: Könnte man sagen, Big Data heißt "zu groß, als daß der Einzelne es nachvollziehen könnte"?

CB: Ja, Big Data sind für den Einzelnen in dieser großen Masse nicht mehr verarbeitbar, deshalb müssen wir Muster mit Computeralgorithmen finden. Hier geht es nicht einfach um einen quantitativen Unterschied, sondern um einen qualitativen. Tatsächlich sind Big Data für uns ohne Hilfsmittel nicht mehr verarbeitbar.

SB: In der Wortbedeutung von Data haben wir es mit etwas Gegebenem zu tun, und doch müssen Meßdaten wie zum Beispiel die Zeigerstellung eines Barometers interpretiert und dabei in Sprache aufgenommen werden. Ist vielleicht schon in der Interpretation die Problematik von Big Data angelegt?

CB: Teilweise ist das tatsächlich so, ja. In der Philosophie werden viele Diskussionen um den Datenbegriff geführt. Manchmal wird so getan, als seien die Daten einfach gegeben und wir könnten uns ohne Weiteres auf sie verlassen. Aber das ist zu einfach gedacht. Man spricht daher vom "Mythos des Gegebenen". Denn das, was wir Daten nennen, ist schon hochverarbeitet. Bei jeder Messung gibt es zum Beispiele eine Einheit - nehmen Sie die Sekunde als Zeiteinheit, das Grad Celsius für die Temperatur oder das Volt für elektrische Spannung. Diese Einheiten haben wir Menschen festgelegt. Damit beziehen wir etwas, das wir sehen, auf andere Dinge, die wir auch beobachtet haben. Hinter jeder Messung mit einem Meßapparat stecken Annahmen. Die Interpretation des Wahrgenommenen ist also tatsächlich ein interessantes Problem.

Aber man muß sagen, daß in vielen Bereichen von Datengewinnung die Interpretation nicht umstritten ist. Die meisten Meßgeräte, die man in der Physik oder Chemie einsetzt, funktionieren ganz gut, und wir meinen zu wissen, wie wir sie deuten können. Big Data umfassen meist viele Messungen, die im Einzelnen gut verstanden sind. In der Astronomie misst man z.B. die Leuchtkraft von Himmelskörpern in unterschiedlichen Energiebereichen oder -bändern, wie man auch sagt. Es gibt viele unterschiedliche Energiebänder, so daß wir pro Objekt mehrere Meßpunkte haben. Die einzelnen Meßpunkte haben hier eine Standardinterpretation, die nicht weiter umstritten ist.

Aber auf einem höheren Niveau stellt sich die Frage der Interpretation sehr wohl. Wenn ich zum Beispiel 15 Meßergebnisse für ein Himmelsobjekt habe, um was für ein Objekt handelt es sich dann? Ist das ein Quasar, eine Spiralgalaxie oder noch etwas anderes? Das muss erschlossen werden. Hier geht es nicht darum, den einzelnen Meßwert zu interpretieren, sondern darum, eine Interpretationsleistung zu erbringen, die mehrere Meßwerte zusammenführt. Dann haben Sie häufig in den Datensätzen viele Objekte, und Sie wollen ein Gesamtbild. Etwas zu interpretieren heißt ja, daß wir es uns verständlich machen. Das ist die Aufgabe. Die Daten enthalten riesige Mengen einzelner Meßpunkte. Aber diese Menge von Einzeldaten überfordert uns. Deshalb müssen wir eine Interpretationsleistung erbringen, die über die vielen einzelnen Meßpunkte hinausgeht und eben Muster identifiziert - Muster findet, die für uns interessant sind.

SB: Herzlichen Dank für das Gespräch.


Alte Sternenkarte, die unter anderem die Abbildung des Herkules zeigt, der einen Drachen würgt und eine Keule in der Hand hält - Foto: Navy Oceanography Portal des Naval Meteorology and Oceanography, freigegeben als public domain

Alexander Jamieson, Plate 8 aus dem Jahr 1822 - Das Sternbild des Herkules zählt zu den 48 Sternbildern, die bereits der griechische Astronom, Mathematiker und Philosoph Ptolemäus in den Nachthimmel hineingedeutet hat
Foto: Navy Oceanography Portal des Naval Meteorology and Oceanography, freigegeben als public domain

Bisher im Schattenblick unter INFOPOOL → NATURWISSENSCHAFTEN → REPORT zur DPG-Frühjahrstagung in Bremen erschienen:

BERICHT/004: Die DPG stellt vor - Verantwortung der Wissenschaft ... (SB)
INTERVIEW/009: Die DPG stellt vor - unzureichend treibt voran ...    Prof. Dr. Claus Lämmerzahl im Gespräch (SB)
INTERVIEW/010: Die DPG stellt vor - Schwingungen und Perspektiven ... Prof. Dr. Klaus Fredenhagen im Gespräch (SB)
INTERVIEW/011: Die DPG stellt vor - Fortschreitendes Verständnis (Teil 1) ...    Prof. Dr. Domenico Giulini im Gespräch (SB)
INTERVIEW/012: Die DPG stellt vor - das Mögliche auch nutzen ...    Prof. Dr. Dr. Claus Beisbart im Gespräch (SB)
INTERVIEW/013: Die DPG stellt vor - die Maßstäbe prüfen ...    Martina Gebbe im Gespräch (SB)

27. März 2017


Zur Tagesausgabe / Zum Seitenanfang