Kleines Analytics-ABC


©Saklakova/fotolia.com

Was sind Grundkonzepte, Elemente, Typen und Beispiele von modernen, auf großen Datenmengen beruhenden Analyseverfahren? Welche Relevanz haben diese Analytics-Ansätze für Transformationsvorhaben in Organisationen? Und welche Begriffe sollte man minimal kennen, um sich mit den Datenspezialisten im eigenen Betrieb einfacher austauschen zu können? Antworten auf diese Fragen finden Sie im folgenden Glossar.

Das kleine Analytics-ABC erklärt die dafür notwendigen (meist englischen) Begrifflichkeiten und (Anwendungs-)Kontexte kompakt, kritisch und konkret – inklusive Hinweisen zu nützlichen Hilfsmitteln, aber auch unter Erwähnung von Risiken und Grenzen von Analytics im Managementkontext.

Augmented Analytics

Bereits heute ist es mittels frei verfügbarer Software (wie etwa Rapid Miner) möglich, die rein statistische Datenanalyse mittels Künstlicher Intelligenz (so genanntem ➤ maschinellem Lernen oder ➤ neuronalen Netzen) zu ergänzen bzw. zu erweitern (deshalb das Adjektiv «augmented») und so besonders einflussreiche Zusammenhänge zu entdecken oder Handlungsoptionen vorzuschlagen. Diese mit KI erweiterte Datenanalyse kommt bereits im Personalwesen zum Einsatz, z. B. bei der Sichtung bzw. Rekrutierung von neuen Mitarbeitenden oder bei der Entdeckung von rechtlich relevantem Fehlverhalten. Die Gefahr von Augmented Analytics besteht jedoch darin, Verzerrungen aus alten Datensätzen (mittels derer die KI trainiert wurde) auf neue (z. B. Einstellungs-) Entscheidungen zu übertragen.
Business Intelligence

Dieser Begriff wird meist zur Beschreibung der interaktiven Geschäftsdatenanalyse verwendet. Einige Datenanalyse- und Datenvisualisierungswerkzeuge führen diese Bezeichnung auch in ihrem Namen, so etwa Microsofts Power BI (Business Intelligence) Lösung. Diese Software erlaubt es, durch Visualisierung große Datenbestände interaktiv zu untersuchen und so vom «Was?» (z. B. aktuellen Personal-Fluktuationsraten) zum «Warum?» (z. B. den eigentlichen Fluktuationsgründen) vorzustoßen. Ein Softwareprodukt wie Power BI unterstützt die
Benutzer dabei sogar proaktiv und situativ durch weitere Analysevorschläge. Weitere BI-Werkzeuge finden Sie unter ➤ IBM SPSS ➤ SAS und ➤ Tableau. Die Logik dahinter erklären die Hinweise ➤ OLAP und ➤ ELT.

Change Analytics

Change Analytics bezeichnet die Verwendung von systematischer Datenerhebung und -auswertung zur Verbesserung der organisationalen Transformation. Datengetriebenes Change Management sollte es ermöglichen, Widerstände rascher zu erkennen und Change-Botschaften zu personalisieren sowie zügigere Feedbackprozesse (z. B. via Waggl.com) und Lernschlaufen zu schaffen. Change Analytics sollte es insbesondere ermöglichen, rascher Klarheit über die eigene Zielerreichung zu erlangen und Abweichungen (und Gründe dafür) festzustellen. Durch die interaktive Nutzungsweise von Analyics-Anwendungen werden die Change-Betroffenen in die Lage versetzt, sich selbst ein Bild ihres Fortschritts zu machen. Natürlich ist die erhöhte Transparenz aber auch ein Risiko, denn digitale Vernetzungsmöglichkeiten schaffen auch die Möglichkeit einer Allianz der Gegner und Bremser. Einige Beratungsfirmen wie etwa EY oder die BCG sehen Change Analytics als eigenständige, jedoch noch nicht sehr ausgereifte, Disziplin an.

Dashboard

Ein Dashhoard ist eine interaktive grafische Zusammenstellung von Kennzahlen (und ihrem Verlauf), die einen Überblick über eine Situation, Fragestellung oder für eine bestimmte Rolle gibt. Ein Dashboard kann z. B. Umfragewerte gruppieren, die einen Eindruck über die momentane Situation im Bereich Mitarbeiterengagement oder Loyalität bzw. Zufriedenheit geben. Dashboards geben dabei an erster Stelle einen Überblick (das Was) und dann zusätzliche Details (das Wo, Wann und Warum) auf Knopfdruck. Dabei gilt es einige Regeln des Dashboard Designs zu berücksichtigen, so etwa konsistente Platzierungen, Markierungen, Bezeichnungen und Farbtöne. Typische Grafikformate in Dashboards sind Balkendiagramme, Kuchendiagramme, Liniendiagramme und Datenlandkaten (Landkarten ➤ Geospatial Analytics). Einige Organisationen haben bereits Change Dashboards im Einsatz, um die Entwicklung eines Transformationsvorhabens nachverfolgen zu können. Dabei werden beispielsweise Change-Input (z. B. Anzahl Arbeitsstunden), Prozess- (z. B. Zufriedenheit mit der Kommunikation) und Resultatewerte (z. B. Verbesserungswerte, Einsparungen, Wachstumszahlen) im Zeitverlauf visualisiert.

Data Science

Mit diesem Begriff wird die neue interdisziplinäre Wissenschaft bezeichnet, welche Statistik, Datenvisualisierung, Computerprogrammierung inklusive Künstliche Intelligenz und Datenbankengineering kombiniert, um komplexe Probleme zu lösen, Verhalten zu erklären oder Prognosen zu ermöglichen. Zahlreiche Universitäten und Firmen haben dazu eigene Data Science Fakultäten, Zentren oder Abteilungen gegründet.

ETL

ETL ist eine technische Abkürzung aus dem Datenbankkontext und steht für Extract, Transform, Load. Die Sequenz dieser drei Operationen beschreibt das typische Vorgehen, um sämtliche notwendigen Daten in einer einzigen Datenbank (oder einem sogenannten Data Warehouse) gemeinsam und adäquat analysieren zu können. Dazu müssen die Daten zuerst aus ihren ursprünglichen Quellen extrahiert werden. Sodann müssen sie in ein neues, auswertbares Format transformiert werden. Zuguterletzt kann dieser Datensatz dann in eine neue Datenbank geladen (und anschließend analysiert) werden.

Front-End

Mit Front-End wird die Schnittstelle einer Datenbank (oder irgendeiner Software) zum Benutzer bezeichnet, also all das, was man direkt selbst sieht, anklicken oder auf andere Art auswählen kann. Im Kontrast zu diesem frontalen «User Interface» beinhaltet das Back-End eines Programmes (Hintergrund)Funktionen, die nicht direkt für den Nutzer sichtbar sind.

Geospatial Analytics (auch: Geoanalytics)

Werden Daten geografisch, also anhand von interaktiv eingefärbten Landkarten, ausgewertet, so spricht man im Englischen von Geospatial Analytics. Auf diese Weise können wichtige Kenngrößen (z. B. Personalgrößen oder Verkaufszahlen) auf Länder- oder Regionalkarten visualisiert und so leichter interpretiert werden. Die Karten können dabei sowohl als Auswahlfilter wie auch als Resultatedarstellung verwendet werden.

Hadoop

Hierbei handelt es sich um ein relativ offenes Protokoll, um sehr große Datenbestände dezentral zu verwalten und zu analysieren (über verschiedene Computercluster hinweg).

IBM SPSS

Die SPSS Statistikplattform von IBM umfasst neben umfangreichen statistischen Auswertungsmöglichkeiten auch Machine Learning und Textanalysemodule. SPSS ist seit einiger Zeit eine Standardsoftware für die statistische Auswertung von Umfragen oder Experimenten.

Konfabulation

Mit Konfabulation bezeichnet man im Analytics-Kontext den (kontraproduktiven) Versuch, intuitionsbasierte oder politische Entscheidungen als datenbasierte Beschlüsse zu präsentieren, indem man beispielsweise irrelevante Evidenz oder hochgradig selektive Daten anführt, um eine vorgefasste Entscheidung zu unterstützen.

KPI

Mit KPI oder Key Performance Indicator wird eine Messgröße bezeichnet, die (z. B. in einem ➤ Dashboard) über einen bestimmten Zielerreichungsgrad Auskunft gibt. Beispiele hierfür finden Sie auch unter ➤ Metriken.

Legacy System

Dieser Begriff bezeichnet meist veraltete Software- oder Datenbanksysteme, die abgelöst oder in neue Systeme überführt werden sollten. Da sie zum Teil wertvolle alte Daten enthalten, braucht es das ➤ ETL Vorgehen, um sie in neue Systeme zu überführen.

Metadaten oder Metainformation

Metadaten bezeichnen Angaben über gespeicherte Daten, z. B. ihren Erhebungszeitpunkt, ihren Typus oder ihre Vertraulichkeit.

Machine Learning

Maschinelles Lernen ist eine (auf Statistik basierende) Form der Künstlichen Intelligenz, die Computerprogramme in die Lage versetzt, selbständig aus neuen Daten zu lernen und so ihren eigenen Programmcode anzupassen. Man kann drei Formen des maschinellen Lernens unterscheiden: Supervised Learning: Durch einen bestehenden alten (bereits komplett analysierten) Datensatz wird der Algorithmus darauf trainiert, bestimmte vordefinierte Muster zu erkennen. Das Programm kann dabei seinen Lernfortschritt mit den bereits bekannten Analyseresultaten vergleichen und davon lernen. Beispiel: automatisierte Klassifikation von Mitarbeitenden nach vorgegebenen bzw. bekannten (Leistungs-) Kriterien.

Unsupervised Learning: Der Algorithmus versucht in dieser Lernform selbst bestimmte Muster in Datensätzen zu erkennen, ohne dass diese ihm vorgegeben sind. Beispiel: Clustering von Mitarbeitenden, die das Unternehmen verlassen haben.

Reinforcement Learning: Ein Algorithmus, der sich anhand von Feedbacks (z. B. erwünschten oder unerwünschten Resultate) verbessert. Beispiel: Der Computer versucht anhand von Personaldaten vorauszusagen, ob sich ein Bewerber/eine Bewerberin für das Unternehmen entscheiden wird oder nicht und lernt danach von der effektiven Entscheidung des Bewerbers/der Bewerberin, um sein Modell weiter zu verbessern.

Metriken

Metriken sind im Analytics-Kontext aussagekräftige und regelmäßig (einfach) erhebbare Messgrößen. Beispiele für derartige Metriken im Change-Kontext sind z. B. der Prozentsatz der Change-Programme, die Ziel- und Termingerecht abschließen, die Anzahl Überstunden pro Mitarbeitendem, die durchschnittliche Verweildauer von Mitarbeitenden in einer Firma, die jährliche Fluktuationsrate, die durchschnittliche Absenzquote, die Zufriedenheitswerte der Belegschaft, aber auch finanzielle Messgrößen und Qualitätsmetriken (z. B. die Anzahl Kundenreklamationen pro Woche).

Neuronale Netze

Im Informatikkontext werden mit neuronalen Netzen Computerprogramme bezeichnet, die sich die Funktionsweise des menschlichen Hirns zu Nutze machen, um beispielsweise Daten (etwa Bilder) zuverlässig und rasch klassifizieren zu können. Ein Nachteil von Algorithmen dieser Art ist jedoch, dass man ihre Resultate nicht immer überprüfen bzw. nachvollziehen kann.

OLAP

Dieses einflussreiche Kürzel steht für «Online Analytical Processing» und stellt ein (oft hypothesengeleitetes) Verfahren dar, um multidimensionale (d. h. vielfach verknüpfte) Daten zu analysieren und zwar im Wesentlichen durch drei Operationen: Konsolidierung (d. h. Datenaggregierung), Drill-down (d. h. das vertiefte Eintauchen in Detaildaten), und «Slice and Dice», d. h. die Möglichkeit, sich Teilmengen der Daten aus unterschiedlichen Perspektiven anzeigen zu lassen. OLAP ist die Grundlagentechnologie für viele ➤ Business Intelligence Anwendungen, gerade im Controlling, Management, Personalwesen und in der Unternehmenssteuerung.

Python

Phython ist eine Programmiersprache, die gerade für aufwändige Datenanalysen hervorragend geeignet ist und daher in der Analytics-Gemeinde äußerst populär geworden ist – unter anderem auch, weil umfangreiche, kostenfreie Erweiterungen leicht erhältlich sind.

Predictive Analytics

Diese fortgeschrittene Stufe von Datenanalyse erlaubt es idealerweise Voraussagen zu treffen, z. B. welche Mitarbeitenden am ehesten absprunggefährdet sind oder welche Produkte wann am umsatzstärksten werden könnten.

Prescriptive Analytics

Diese höchste Stufe der Datenanalyse hat zum Ziel, Phänomene nicht nur zu beschreiben (descriptive analytics), zu verstehen (diagnostic analytics) oder vorherzusagen (predictive analytics), sondern richtige Vorgehensweisen, Handlungen oder Entscheidungen vorzugeben bzw. zu empfehlen. Dabei gilt es jedoch die zugrundeliegende Datenqualität zu berücksichtigen.

Query

Ein Query ist eine spezifisch gestellte Anfrage an eine Datenbank. Meist wird eine derartige Anfrage in Form eines Befehls (z. B. in der Structured Query Language SQL), durch die logische Verknüpfung von Suchbegriffen oder über ein ähnliches Beispieldokument (QBE-Query by Example) formuliert.

R

R ist der Name eines führenden, kostenfreien Softwareprogramms für die Programmierung von raffinierten Datenauswertungen und Visualisierungen. Zusammen mit ➤ Phyton gehört es zum grundlegenden Werkzeugkasten von Analytics-Profis.

SAS

Neben Microsoft Power BI und Tableau ist SAS ein dritter wichtiger Anbieter auf dem (Visual) Analytics-Markt, gerade auch im Deutschsprachigen Raum. Es bietet einige spezielle Analyseverfahren an, wie z. B. Entscheidungsbäume oder sogenannte Icicles, die jedoch auch in Tableau enthalten sind.

Sentiment Analyse

Durch Sentiment Analyse können Computer die (positive oder negative) Stimmung hinter einer oder vieler Nachrichten errechnen. Dies wird u. a. im Bereich Social Media Analytics verwendet, um zu bestimmen, ob z. B. auf Twitter eher positiv oder negativ über einen Trend, eine Organisation oder eine Person berichtet wird, die jedoch auch in Tableau enthalten sind.

Tableau

Tableau ist eine der führenden sogenannten Visual Analytics Programme. Es erlaubt es einem relativ einfach, aus Datenmaterial interaktive ➤ Dashboards oder interaktive Präsentationen zu erstellen.

Unstrukturierte Daten

Im Gegensatz zu fein säuberlich geordneten Zahlenreihen in Tabellen sind unstrukturierte Daten beispielsweise offene Textkommentare in Befragungen, Bildmaterialien oder auch PDF-Dokumente. Diese quantitativ zu analysieren ist wesentlich schwieriger, doch es gibt ausgeklügelte, sogenannte Text Mining (oder linguistische Text Analytics)-Verfahren, um dies zu tun (ein Beispiel ist ➤ Sentiment Analyse). Die einfachste Weise, auf einen Blick aus unstrukturierten Daten einen Einblick zu gewinnen, ist durch die Erstellung einer Word Cloud, bei der die häufig verwendeten Begriffe in einem Textcorpus entsprechend größer dargestellt werden (ein bekanntes, kostenfreies Werkzeug hierfür ist z. B. www.wordclouds.com).

Vs von Big Data

Die im Fokus von Big Data stehenden Daten kennzeichnen sich durch die sogenannten fünf Vs aus, d. h. sie sind idealerweise von hohem Erkenntniswert (Value), wahrheitsgetreu (Veracity), unterschiedlich (Variability) und rasch verfügbar (Velocity).

Visual Analytics

Mit Visual Analytics bezeichnet man generell die Kombination aus automatischen Datenanalyseverfahren mit interaktiven grafischen Darstellungen, um das Datenverständnis und die Entscheidungsfindung dadurch zu verbessern. Typische Visual Analytics-Formate sind interaktive Landkarten, ➤ Dashboards, aber auch Parallele Coordinates, Treemaps, Icicles oder Sankeydiagramme.

Web Analytics

Dieser Begriff bezeichnet die Datenauswertungsmethoden rund um die Internetnutzung. Verwandte Begriffe sind Clickstream-Analyse oder Webtracking. Ein oft genutztes Werkzeug hierfür ist Google Analytics. Metriken im Bereich Web Analytics sind z. B. die Anzahl Besucher einer Website (sowie deren geografische Herkunft) in einem Zeitabschnitt, deren durchschnittliche Verweildauer und ihre dortigen Click-Aktivitäten.

Zero Latency

Latency bezeichnet die Verzögerung, mit der Daten nach ihrer Erhebung für die eigentliche Analyse bereitgestellt werden können. In einigen Analytics-Kontexten ist es wichtig, das in Echtzeit, also mit zero latency, vornehmen zu können (so etwa im Finanzmarktbereich).
 

Autor: Prof. Dr. Martin J. Eppler
ZOE-Redakteur, Direktor des Instituts für Medien- und Kommunikationsmanagement (MCM) an der Universität St. Gallen.

ZOE Ausgabe 3/19
Bei diesem Text handelt es sich um einen Beitrag aus der aktuellen Ausgabe 3 der ZOE, den wir Ihnen hier und als PDF-Download exklusiv kostenlos zur Verfügung stellen.
Zum Inhaltsverzeichnis des Heftes
Zur Bestellung


Top