Im vorigen Blogeintrag SSAS Data Mining – Clustering wurde die prinzipielle Vorgangsweise mittels SQL Server Analysis Data Mining vorgestellt. Auf die Data Mining Ziele und Interpretation der Ergebnisse wurde jedoch nur sporadisch eingegangen. Deshalb wird dieses Mal der Fokus auf die Charakteristiken des Datensatzes, deren Aufbereitung, sowie die Evaluierung der Resultate gelegt.
Datensatz
Der zu analysierende Datensatz enthält Zuordnungen von Benutzern zu Gruppen.
Hier zu erwähnen ist, dass die Gruppenzuordnungen von zwei Systemen mit derselben Benutzerbasis zusammengeführt worden sind. Dementsprechend hoch ist die Anzahl an Gruppen, welche möglicherweise redundant vorhanden sind. Daher ist das Ziel mittels Data Mining zu analysieren, welche Gruppen zusammengeführt werden können. Die Datenstruktur ist jedoch für Data Mining ungeeignet, da die Relationen über mehrere Zeilen verteilt sind. Eine Transformation der Daten in folgende Form ist notwendig.
Für jeden Benutzer gibt es nur noch einen Eintrag, und jede Gruppe wird als Spalte dargestellt.
Methode
Auf den ersten Blick mag diese Aufgabenstellung als einfaches Clustering Szenario wirken. Betrachtet man die Situation genauer, ergibt sich ein anderes Bild. Bei den zur Verfügung stehenden Clustering Algorithmen wird jeder Eintrag zu genau einem Cluster zugeordnet. Dies ist in den meisten Fällen jedoch nicht ausreichend. Weiters problematisch, ist die hohe Anzahl an Dimensionen, die für k-Means und EM-Clustering ungeeignet sind. Beide Algorithmen basieren auf Distanzkennzahlen, welche bei zu vielen Attributen keine aussagekräftigen Ergebnisse mehr liefern können.
Abseits von Clustering Algorithmen, bietet das Association Rule Mining eine vielversprechende Alternative. Häufig gemeinsam vorkommende Attribute werden analysiert und Assoziationsregeln daraus erstellt.
Beispiel: Wenn ein Benutzer Gruppe 1 zugewiesen ist, ist dieser auch in Gruppe 5.
Diese Regel hat gewisse Qualitätsmerkmale:
- Probability (Confidence)
gibt an, mit welcher Wahrscheinlichkeit die Regel richtig ist - Support
gibt die Häufigkeit an mit welcher die Regel angewendet werden kann - Importance (Lift)
ergibt sich aus der Confidence und dem Support
Modellerzeugung
Als Startpunkt wird beim SSAS Projekt eine Datenquelle und eine dazugehörige View angelegt. Der Aufbau der Datenstruktur ist in der folgenden Abbildung zu sehen.
Über das Kontextmenü im Ordner Mining Structures wird nun das Data Mining Modell erstellt. Dazu wählen wir im ersten Schritt die Option relationale Datenbank aus.
Als Data Mining Methode wird Microsoft Association Rules verwendet.
Die zuvor angelegte View dient als Basis für das Data Mining Modell.
In diesem Dialog kann der Tabellentyp auf dem Standardtyp Case belassen und zum nächsten Schritt übergegangen werden.
Die UserId wird als Schlüssel festgelegt, alle restlichen Spalten sind sowohl Input als auch Predictable. Um nicht jede Spalte einzeln auswählen zu müssen können die Checkboxen im Spaltenkopf verwendet werden.
Im nächsten Schritt werden die Inhalts- und Datentypen überprüft. Für die Gruppen sollte Boolean als Datentyp festgelegt sein.
Ziel ist es die bisherige Gruppenzuordnung zu optimieren und nicht anhand der derzeitigen Struktur Benutzergruppen für neue Benutzer vorzuschlagen. Deshalb ist ein Testdatensatz nicht notwendig und der Prozentsatz kann auf 0 gesetzt werden.
Im abschließenden Schritt aktivieren wir noch den Drill Through.
Interpretation
Nach dem Verarbeiten des Modells können die Ergebnisse im Mining Model Viewer betrachtet werden.
Die wichtigsten Erkenntnisse, welche durch die 8 oberen Regeln gewonnen werden können sind, dass Gruppe AD1G3 und AD2G2 in allen Fällen gemeinsam auftreten. Die beiden Gruppen sind daher redundant und können auf eine Gruppe reduziert werden. Dasselbe gilt für AD1G1 und AD2G3.
Weitere potentielle Optimierungen sich anhand weiterer Regeln möglich, bedürfen jedoch zusätzlicher Kontext Information in Bezug auf den Verwendungszeck bestimmter Gruppen.