Schreckgespenst Algorithmen


©wladimir1804/fotolia.com

Das Ende der wissenschaftlichen Theorie? Eine Betrachtung

Bei besonders komplexen Systemen müssen wir uns bisweilen von der Idee lösen, durch schieres Nachdenken und die Anwendung von Theorien kausale Zusammenhänge entdecken zu können, und die Algorithmen alleine arbeiten lassen. Doch wenn theoretische Modelle weniger gut in der Lage sind, verlässliche Analyseraster bereitzustellen als dies lernfähige datengetriebene Algorithmen tun, was ist dann noch der Mehrwert von Theorie?

Algorithmen und Machine Learning sind in aller Munde. Eine weitverbreiteten Vorstellung ist, dass ein Algorithmus selbst lernt, welche Faktoren die verlässlichsten Prognosefaktoren sind und so aktueller und passender ist als herkömmliche Theorien bzw. Modelle mit ihren (oft literaturgestützten) Schlüsselvariablen. Vollziehen wir diese potenziell dramatische Entwicklung an einem Beispiel nach: Wir fragen uns, welche Faktoren eine treibende Kraft nicht-kommerzieller Raumfahrt sind (gemessen an der Anzahl nicht-kommerzieller Trägerraketen, die in den Raum gesendet werden). Sie fragen sich vermutlich, warum wir nun gerade diese abgefahrene Forschungsfrage betrachten? Der Grund ist, dass datengetriebene Algorithmen eine faszinierende Antwort auf diese Frage gefunden haben: die Anzahl der in den USA vergebenen Doktorate in Soziologie!

Sicher wären Sie mit literaturgestützter Theorie zu anderen Faktoren gekommen. Vielleicht zweifeln Sie sogar an dieser faszinierenden Einsicht. Falls Sie Zweifel haben, betrachten Sie Abbildung 1. Die Soziologiedoktorate erklären die Trägerraketenentwicklung in geradezu phantastischer Weise, sie machen tatsächlich alle Berge und Täler der Raumfahrtaktivität fast deckungsgleich mit!

Natürlich werden einige von Ihnen zu zweifeln beginnen: Handelt es sich hier tatsächlich um einen robusten Zusammenhang? Gute Machine-Learning-Algorithmen sind darauf trainiert, robuste Zusammenhänge zu finden – so auch hier. Nehmen wir an, wir verwenden in der obigen Grafik nur die Daten der Jahre 1997 bis 2003, um den Algorithmus den Zusammenhang zwischen Soziologiedoktoraten und Trägerraketen zu «lehren». Würde der Algorithmus dadurch eine gute Prognosekraft für die Jahre nach 2003 aufweisen? Die Antwort ist ganz offensichtlich: ja. Der Zusammenhang ist ordentlich robust über die Zeit hinweg. Somit hat der Algorithmus tatsächlich den Robustheitstest bestanden!

Was haben wir also gesehen? Vielleicht erklärt sich der dargestellte Zusammenhang damit, dass beide Variablen von der Konjunktur der US-Wirtschaft und damit der Größe des US-Staatshaushaltes beeinflusst sind. Theoriegestütztes Nachdenken (oder ganz einfach auch gesunder Menschenverstand) lässt uns schnell erkennen, dass wir es hier mit einer Korrelation von zwei Größen zu tun haben, die nicht auf einen Kausalzusammenhang zurückzuführen ist. Genau dies trifft im Moment auf einen sehr großen Teil des sogenannten Machine-Learning-Paradigmen zu. Maschinen lernen ganz einfach, mittels Algorithmen diverse «Muster» in Daten zu erkennen. Doch sie sind blind gegenüber dem Unterschied zwischen Kausalität und Korrelation. Theorie- und modellgestützte Datenanalyse hingegen zielt auf Kausalität ab − und hat somit den Algorithmen potenziell etwas Wichtiges voraus.

Betrachten wir nun zwei Themenbereiche, die der Welt des Managements etwas näherliegen als die Weltraumfahrt: Erstens, wie steht es mit dem Zusammenhang von Corporate Social Responsibility (CSR) und der Profitabilität einer Firma? Zweitens, wie verändert sich die Nachfrage nach den eigenen Produkten mit einer Preiserhöhung?

Es gibt glühende Befürworter von CRS, die gerne aufzeigen, dass Firmen, welche CRS-Programme implementieren, auch eine höhere Profitabilität ausweisen. Algorithmen hätten keine Mühe, dieses Muster mit einer passenden Stichprobe von Firmen nachzuvollziehen. Ist CSR also der Schüssel zur Profitabilität? Bevor Sie bei derartigen Fragen eine datenbasierte und Algorithmen-unterstützte Schlussfolgerung ziehen, sollten Sie noch einmal das theoretische Denken einschalten. Es gibt den Anstoß, eine Anzahl fast schon leicht nörglerischer Fragen zu stellen: Zeigen die Daten denn wirklich, dass CSR-Programme zu einer höheren Rentabilität führen? Oder ist die Korrelation von beiden Variablen mit der Hypothese vereinbar, dass es tendenziell eher erfolgreiche Firmen mit einer hohen Profitabilität sind, die CSR-Programme starten, weil sie es sich leisten können? Sind die Firmen, die wir in unserer Stichprobe betrachten, in Märkten tätig, in denen Konsumenten ganz besonders auf ethische Aspekte sensibilisiert sind? Und wie weit sind diese Erkenntnisse so auf Firmen in anderen Geschäftsfeldern übertragbar? Praktisch keiner der bestehenden Algorithmen des maschinellen Lernens gibt uns zuverlässige Hinweise zu den Antworten auf diese Fragen. Hier müssen Menschen ihren Kopf einschalten und «theoretisch» über diesen Fragen brüten. Ergo: Es wäre sinnvoll, neben den Algorithmen noch einmal selbst mit der theoretischen Brille auf die Daten zu schauen, um die zugrundeliegenden Kausalzusammenhänge zu identifizieren.

[…]

Weiterlesen >

 

ZOE Ausgabe 2/18
Bei diesem Text handelt es sich um einen Beitrag aus der aktuellen Ausgabe 2 der ZOE, woraus wir Ihnen hier exklusiv einen Auszug zur Verfügung stellen. Hier geht es zum vollständigen, kostenlosen Originalbeitrag.


Top