Buchvorstellung zum Programm Rapid Miner (Predictive Analysis & Data Mining)

Buchcover Predictive Analysis & Data Mining with Rapid Miner Wie ein Blick auf die Seite Über mich zeigt, beschäftige ich mich seit vielen Jahren mit den Themen Business Intelligence und Data Mining. Abgesehen vom klassischen Skriptsprachenansatz via Python und R gibt es leider nicht viel Open-Source-Software-Lösungen in diesem Themengebiet der Informatik. Eine rühmliche Ausnahme ist hier das Programm Rapid Miner, das - wenn auch mit eingeschränktem Umfang - als freie Community-Edition zur Verfügung steht. Um im spannenden Themenfeld des Data Science zu experimentieren, reicht die Community-Edition allerdings ersteinmal aus - die Einschränkungen stören hier nicht weiter.

[Update 03/2018: Leider kann man die neue Funktion Auto Model nur in der komerziellen Version verwenden. Schade, denn die ist wirklich ein grandioses Feature dieser Software.]

Auf der Suche nach ein wenig Dokumentation zu Rapid Miner bin ich auf das Buch Predictive Analysis and Data Mining mit Rapid Miner gestoßen, das von den Autoren Vijay Kotu und Bala Deshpande verfasst wurde und im Dezember 2014 im Morgan Kaufmann-Verlag erschienen ist.

Das Buch versteht sich in erster Linie als Werk, das in die spannenden Themenfelder Predictive Analysis und Data Mining einführen möchte. Vorwissen in Data Mining wird somit zwar nicht vorausgesetzt, aber natürlich ist zum vollumfänglichen Verständnis der theoretischen Grundlagen mathematisches Wissen notwendig. Deshalb sollte man sich diesem Buch nur mit entsprechenden Vorkenntnissen nähern - denn ansonsten wird man möglicherweise recht schnell abschreckt oder gar abgehängt.

Die verschiedenen Facetten des Data Mining (Klassikfikation, Clustering, Assoziationsanalyse, Textmining, ...) werden jeweils in eigenen Kapiteln ausführlich behandelt. Ein weiteres Kapitel beschäftigt sich zudem mit der Bewertung der Güte der von Rapid Miner erstellten Vorhersage-Modelle anhand von Konfusionsmatrizen oder den ROC- bzw. AUC-Werten. Für meinen Geschmack gelingt es den Autoren durch gute Erläuterungen und nachvollziehbare Beispiele ausgesprochen gut, die einzelnen Themenfelder zu vermitteln.

Alle Kapitel folgen dem gleichen Muster, dass zunächst die theoretischen bzw. mathematischen Grundlagen dargestellt und sodann deren Praxisumsetzung bzw. Anwendung in Rapid Miner erläutert werden. Angenehm finde ich, dass die Erläuterungen der mathematischen / theoretischen Hintergründe zunächst vollkommen losgelöst von RapidMiner erfolgen. Dies erlaubt es dem Leser, die Themen so zu erfassen, dass sie prinzipiell in jedem Data Mining Tool zur Anwendung kommen können. Rapid Miner dient hier also nur als Mittel zum Zweck. Mithin ist dieses Buch nicht in erster Linie als Handbuch für Rapid Miner gedacht, sondern als Einführung in die Welt des Data Mining. Allerdings lernt man durch die Beispiele zugleich auch die zahlreichen Facetten von Rapid Miner kennen und erlernt somit dieses Programm gewissermaßen "nebenbei". Zugleich kann man die neu erworbenen Kenntnisse aber z.B. auch in Python, R oder anderen grafischen Tools (z.B. SAS Enterprise Guide) umsetzen.

Mein persönliches Fazit nach der Lektüre dieses Buch fällt sehr positiv aus. Mir gefällt die Art des Erklärens, das durchaus anspruchsvolle Niveau der Darstellungen und die jeweiligen Erläuterungen zur Anwendung in Rapid Miner. Aber natürlich sind Empfehlungen immer eine höchst subjektive Sache, so dass ich diesen Eintrag auf meiner Homepage auch nicht als explizite Kaufempfehlung, sondern eher als Information über dieses Buch verstanden wissen möchte. Mir gefällt das Buch jedenfalls sehr gut, und ich habe den Kauf nicht bereut. Das möge aber jeder für sich entscheiden.

Wer noch ein wenig mehr Informationen über das Buch haben möchte: die Autoren haben ihm eine eigene Webseite gewidmet: http://www.learnpredictiveanalytics.com

Screenshot YouTube: Rapid Miner Channel Und noch ein Tip: Der Erfinder von Rapid Miner - Dr. Ingo Mierswa - hat vor einiger Zeit eine Serie kurzer YouTube-Videos zu Themen des Data Mining und natürlich zu Rapid Miner produziert. Die Serie heisst "5 Minutes with Ingo" und kann über die YouTube-Seite von Rapid Miner aufgerufen werden. Diese Videos sind eine prima Ergänzung zum Lerninhalt des Buches. Ich würde empfehlen, erst ein Video dieser Serie anzusehen und danach die entsprechende Mining-Technik im Buch nachzulesen.

Disclaimer

Alle Bilder auf meinem Webauftritt sind von mir selber angefertigt und urheberrechtlich geschützt. Gerne bin ich bereit, der Verwendung meiner Bilder in Ihren Projekten zuzustimmen, doch darüber sollten wir uns im Einzelfall zuvor jeweils austauschen. Sofern Sie Interesse an der Verwendung meiner Bilder haben, können Sie gerne Kontakt zu mir aufnehmen.

Datenschutz

Informationen zum Datenschutz habe ich auf einer eigenen Datenschutzseite zusammengefasst.

Kontaktinformationen

Dr. Norbert Heidenbluth
Monheimer Straße 8
D-40789 Monheim am Rhein

Email: info@norbert-heidenbluth.de

Credits

Für meine XXL-Galerien mache ich Verwendung vom Lens-Template von HTML5UP, das unter einer Creative-Commons-Lizenz veröffentlicht ist.