Data Mining, 2002 - 2011
6. Februar 2011Heute mal wieder eines der sehr gelegentlichen Updates (abgesehen von den etwas häufigeren neuen Fotos). Zum einen beachte man die etwas überarbeitete Blogroll rechts, wo ich besonders zwei Seiten von werten Freunden von mir empfehlen möchte: Not quite like Beethoven, ein Blog über alle Aspekte des Hörens und darüber, es zu verlieren, und Nomadenfloh, ein aktuelles Protokoll einer Weltreise.
Ich hingegen recycle alte Sachen. Habe angesichts aktueller Datenschutz- und Privacy-Debatten an einen alten Text gedacht, den ich vor mittlerweile - autsch - neun Jahren geschrieben und auf meine damalige Seite gestellt habe. Ist wohl immer noch aktuell. Daher hier noch einmal in der kaum editierten Originalfassung - auch die link targets gibt’s noch.
∗
Therapeuten wissen: Es gibt nichts, was es nicht gibt. So gibt es zum Beispiel den Data Mining Cup, einen Wettbewerb, in dem man einen monströsen Haufen Daten präsentiert bekommt und daraus, freilich per Computer, möglichst irgendwelche interessanten Zusammenhänge herausziehen soll. Etwa: wer im Supermarkt Cornflakes kauft, hat eine 63prozentige Wahrscheinlichkeit, anschließend von einem Manager auf einem Microscooter angefahren zu werden. Dieser Wettbewerb wird natürlich von der Industrie gesponsort - schließlich erhofft sie sich daraus Lösungen ihrer eigenen Marketing- und anderen Probleme, und in der Regel sind die zur Verfügung gestellten Datenmengen natürlich nicht extra generiert, sondern real - billiges Outsourcing von Arbeit und Werbung für die Firma zugleich, was will man mehr?
Dieses Jahr [edit: 2002!] geht es um folgendes: Ein großer deutscher Stromversorger hat in seinen Marktanalysen festgestellt, daß aufgrund der Deregulierung des Strommarktes innerhalb der nächsten zwei Jahre wahrscheinlich etwa zehn Prozent seiner Kunden zu einem anderen Versorger wechseln werden. Um diese Kunden zu halten und gleichzeitig möglichst wenig dafür auszugeben, würde dieser Stromversorger gerne den potentiellen Wechslern - und nur denen! - Rabatte einräumen. Was natürlich das Problem aufwirft, herauszufinden, wer denn diese zehn Prozent sind. Man muß sich also die Daten von Kunden, die bereits gewechselt haben, und solchen, die geblieben sind, ansehen und versuchen, einen Zusammenhang zwischen dem “Kundenprofil” und dem Wechselverhalten herzustellen. Und hiermit betreten wir das große weite und hochinteressante Feld von “machine learning”, kniffligen Algorithmen, neuronalen Netzwerken, Regression, Klassifikation und Mustererkennung, das in dem Institut, an dem ich mich zur Zeit aufhalte, sehr ausführlich beackert wird. Dieser Datensatz ist im Prinzip ein schönes klassisches Klassifikations- und Generalisierungsproblem: zeige einem Algorithmus eine Menge Daten (das “training set”) mit bekannten “Labels” für jeden Datenpunkt (etwa 1 für Wechsler, -1 für treue Kunden), trainiere ihn damit und hoffe darauf, daß er neue Datenpunkte - also in unserem Fall Kunden, die noch bei der Stange geblieben sind - einigermaßen korrekt klassifizieren wird, damit man seine Rabatte nicht an die Treudoofen, die auch bei überhöhten Strompreisen nicht wechseln, und die Gewieften, die sowieso wechseln werden, verschwendet.
So weit, so gut. Wenn man nun einen Blick auf die Daten dieses Stromversorgers wirft, so finden sich darin Zahlen, die man ohne weiteres erwartet hätte, etwa eine Kundennummer, der Stromverbrauch im letzten Abrechnungszeitraum und solche Dinge. (Namen oder Adressen sind in den veröffentlichten Daten freilich nicht dabei, aber die kann der Stromversorger natürlich leicht rekonstruieren.) Daneben aber sind für jeden Kunden eine Reihe ominöser Ganzzahlen gespeichert. Die stammen aus sehr interessanten sogenannten Mikrogeographie-Datenbanken kommerzieller Anbieter wie etwa Consodata, die im Laufe einiger Jahre alle möglichen Kundendaten verschiedener Firmen, insbesondere wohl auch von Versicherungen und Krankenkassen, zusammengeführt haben und damit ein Datennetz über ganz Deutschland ausgebreitet haben, das, wie man stolz verkündet, “so feinmaschig ist, wie es das Datenschutzgesetz erlaubt”. Das heißt: für jeden Straßenabschnitt mit gerade mal fünf oder mehr Haushalten (!) gibt es in diesen Datenbanken eine ganze Reihe von Indizes, die die Bewohner dieser “Zellen” charakterisieren. Darunter finden sich eher harmlos-doofe Meßwerte wie der “Geländewagen-Index”, der die Wahrscheinlichkeit angibt, daß ein Bewohner einer solchen Zelle einen Geländewagen besitzt. Kritischer wird es dagegen bei den “Psychonomics-Versicherungstypologien” oder den “Pharmatypologien”, die etwa die Häufigkeit des Auftretens eines bestimmten Krankenversicherungs-”Typen” in einer Zelle angeben. Davon gibt es eine regelrechte Systematik - meine persönlichen Favoriten sind der “Unkritische Wehleidige”, der “Eingeschränkte Kassenpatient” und der “Überforderte Unterstützungssucher”. Man mag es sich kaum vorstellen, aber diese Firmen haben tatsächlich die Menschheit in solche Kategorien eingeteilt, dermaßen menschenverachtende Bezeichnungen dafür gewählt und verdienen eine Menge Geld damit, solche Daten an andere Firmen wie unseren Stromversorger weiterzugeben, der nur seine eigenen Kundendaten den entsprechenden Zellen zuordnen muß und auf einen Schlag einen Haufen mehr Information über seine Kunden hat, die mit hoher Wahrscheinlichkeit ziemlich genau zutreffen (wie gesagt, bis auf etwa fünf Haushalte genau!). Consodata schreibt dazu in unbeholfenem, von Kommafehlern durchsetztem Marketingdeutsch:
“Selbst wenn Ihre eigene Database umfangreich und gut gepflegt ist, bekommen Sie durch MIKROTYP die qualifizierenden Ergänzungen, die eine Kundensegmentierung ermöglichen: Sie wissen vielleicht was der Kunde gekauft hat, oder wie alt er ist. Aber wissen Sie auch, in welchem Milieu er sich bezüglich des sozialen Status, der Bonitätsstruktur oder seiner Gesundheitstypologie befindet? MIKROTYP gibt Ihnen diesen Mehrwert.”
Mein Stromversorger kennt mich also nicht nur als Kunden 193583.221, der im letzten Monat eine Stromrechnung von achtzehn Euro fuffzich hatte, sondern auch als Unkritischen Wehleidigen, der sich bekanntermaßen von seinem Versicherungsvertreter jeden Schrott aufschwatzen läßt und seinem Hausarzt blind vertraut. Na, klingelt’s? Genau: So jemand wird wahrscheinlich seinen Stromversorger eher nicht wechseln. Sorry, kein Rabatt für Sie. Das wäre Ihr Preis gewesen…
Ich kann mich gar nicht genug aufregen. Wer von Euch kannte denn diese “Mikrotypen” oder wußte um diese engmaschigen Datenbanken? Big Brother watches you more than you thought. Das sind genau die Leute, die sich als allererste auf unsere Genomdaten stürzen werden, sobald es erst mal Pflicht wird, sie seiner Versicherung mitzuteilen - die sie dann, genau wie es mit den bisherigen Daten ja offenkundig schon längst geschehen ist, sofort in notdürftig anonymisierter Form an entsprechende Daten-”Provider” weitergeben wird, damit die daraus ein paar neue aussagekräftige Indizes erstellen können, meinetwegen den Depressionsindex oder den Altersschwachsinnsbeiwert. (Mit der möglichen Folge, daß etwa Bewohner einer Zelle mit einem hohen Frühablebensindex keine Lebensversicherung mehr werden abschließen können…?)
Für uns ergeben sich daraus vor allem zwei Folgerungen. Zum einen: Verhaltet Euch völlig irrsinnig und unberechenbar! Gebt grundsätzlich nur Zufallsdaten von Euch an! Kauft Dinge, die Ihr überhaupt nicht braucht! Wechselt Eure Dienstleister nach dem Zufallsprinzip! Lang lebe die Kommunikationsguerilla! Und zum zweiten: wenn es jemand unter Euch schafft, einen Algorithmus zu basteln, der die im Data Mining Cup gestellte Aufgabe perfekt löst, aber anschließend nur noch Unfug von sich gibt, der schicke ihn schleunigst an die Jury…

Diesen Post wollte ich eigentlich schon vor ungefähr eineinhalb Jahren machen. Ist dann aber im Dämmerschlaf dieses Blogs untergegangen. Mein Bedürfnis, mich mit öffentlichen Äußerungen hervorzutun, hat abgenommen… Und schließlich: wenn man sich Sorgen darum macht, wieviel Privates man auf Facebook von sich gibt, sollte man sich vielleicht mit langen prätentiösen Texten und mit Fotos von sich und allen Freunden samt Namen auf Seiten, die der ganzen Welt zugänglich sind, etwas zurückhalten. Ich kümmer mich mal drum. Aber jetzt, wo ich nach Frankreich, nach Grenoble, verzogen bin, kann ja vielleicht der ursprüngliche Zweck einer “Exil-Homepage” für die Lieben zuhaus’ wieder etwas in den Vordergrund treten. Dazu gibts ja in der