COOKIES
WIR BRAUCHEN IHRE ZUSTIMMUNG
Wir setzen auf unserer Website Cookies ein. Einige von ihnen sind erforderlich, während andere nicht erforderlich sind, uns jedoch helfen unser Onlineangebot zu verbessern und wirtschaftlich zu betreiben. Sie können in den Einsatz der nicht erforderlichen Cookies mit dem Klick auf die Schaltfläche "Alle Cookies akzeptieren" einwilligen oder per Klick auf "Nicht erforderliche Cookies ablehnen" sich anders entscheiden. Zudem können Sie über die Schaltfläche "Cookie-Einstellungen aufrufen" individuell dem Einsatz bestimmter Cookie-Kategorien zustimmen. Wenn Sie dem Einsatz nicht erforderlicher Cookies zustimmen, willigen Sie zugleich gem. Art. 49 Abs. 1 S. 1 lit. a DSGVO ein, dass Ihre Daten in den USA verarbeitet werden. Die USA werden vom Europäischen Gerichtshof als ein Land mit einem nach EU-Standards unzureichendem Datenschutzniveau eingeschätzt. Es besteht insbesondere das Risiko, dass Ihre Daten durch US-Behörden, zu Kontroll- und zu Überwachungszwecken, möglicherweise auch ohne Rechtsbehelfsmöglichkeiten, verarbeitet werden können. Wenn Sie auf "Nicht erforderliche Cookies ablehnen" klicken, findet die vorgehend beschriebene Übermittlung nicht statt.

Sie können die vorgenommenen Einstellungen über die Cookie-Policy jederzeit aufrufen und damit Cookies auch nachträglich jederzeit abwählen. Dort und in unserer Datenschutzerklärung finden Sie zudem weitere Hinweise zu den verwendeten Cookies.
Inhaltsverzeichnis

Das Wichtigste in Kürze

Dieser Blogartikel betrachtet die praktische Umsetzung von Forecasting-Techniken, indem verschiedene Tools vorgestellt werden: Python, KNIME und Dataiku. Python ist eine weit verbreitete Programmiersprache und bietet mit vorhandenen Bibliotheken eine solide Grundlage für datengetriebene Prognosen und maschinelles Lernen. KNIME und Dataiku bieten intuitive Benutzeroberflächen für visuelle Programmierung und Datenanalyse. KNIME ermöglicht auch ohne tiefgreifende Programmierkenntnisse komplexe Datenanalysen, während Dataiku sich durch erweiterte Kollaborationsfunktionen und Skalierbarkeit als Unternehmenslösung auszeichnet. Beide Plattformen bieten die Integration von Python, was die Erstellung spezialisierter, maßgeschneiderter Lösungen ermöglicht.

<div class="hzweiwrapper"><span class="circled-number">1</span><h2 class="c-blog_head" id="1. Einführung: verschiedene Tools im Business Forecasting">Einführung: verschiedene Tools im Business Forecasting</h2></div>

Im vorangegangenen Artikel "Business Forecasting: Grundlagen und fortgeschrittene Techniken" wurde die Theorie hinter dem Business Forecasting und die verschiedenen Techniken, die für zukunftsorientierte Geschäftsprognosen verwendet werden, ausführlich behandelt. Dieser Beitrag legte ein theoretisches Fundament, während der Fokus dieses Blogartikels auf den praktischen Werkzeugen liegt, die zur Implementierung dieser Techniken im Geschäftsumfeld notwendig sind.

Anwendungen im Forecasting spielen eine zentrale Rolle in der modernen Geschäftswelt, indem sie Unternehmen ermöglichen, zukünftige Trends, Marktdynamiken und Kundenverhalten mit hoher Präzision zu prognostizieren. Diese Werkzeuge unterstützen datengestützte Entscheidungen, die zu effizienterer Ressourcenplanung, Risikominimierung und strategischen Vorteilen führen. Durch die Transformation von rohen Daten in wertvolle Einsichten erleichtern sie fundierte Entscheidungen und unterstützen langfristige Planungsprozesse.

Die Auswahl an verfügbaren Tools ist umfangreich und bietet unterschiedliche Ansätze für das Forecasting. Auf der einen Seite gibt es Programmiersprachen wie Python, die eine mächtige Basis für die Entwicklung von maßgeschneiderten Prognosemodellen bieten. Auf der anderen Seite stehen Plattformen wie KNIME und Dataiku zur Verfügung, die es auch Anwendern ohne vertiefte Programmierkenntnisse erlauben, komplexe Datenanalysen durchzuführen und Prognosemodelle zu entwickeln. Diese Tools variieren von Open-Source-Software, die umfangreiche Anpassungsmöglichkeiten und Community-Unterstützung bietet, bis hin zu kommerziellen Produkten mit integrierten Lösungen für Datenmanagement und Analyse.

<div class="hzweiwrapper"><span class="circled-number">2</span><h2 class="c-blog_head" id="2. Forecasting mit Python">Forecasting mit Python</h2></div>

Python hat sich als eine der führenden Programmiersprachen im Bereich der Datenanalyse und des Forecastings etabliert. Dank seiner intuitiven Syntax und der umfangreichen Verfügbarkeit von Datenanalyse-Bibliotheken ermöglicht Python auch denen, die neu in der Programmierung sind, den schnellen Einstieg in die Datenwissenschaft. Diese Flexibilität und Zugänglichkeit machen Python zu einem unverzichtbaren Werkzeug für Datenanalysten und Wissenschaftler weltweit.

Python Bibliotheken

Eines der Kernelemente, die Python für Datenanalyse und Forecasting so leistungsfähig machen, sind die zahlreichen verfügbaren Bibliotheken. Pandas ist dabei eine der bekanntesten und am weitesten verbreiteten Bibliotheken. Sie bietet hochleistungsfähige, einfach zu bedienende Datenstrukturen und Werkzeuge zur Datenmanipulation, was sie ideal für die Arbeit mit Zeitreihendaten macht. Die Fähigkeit von Pandas, große Datensätze effizient zu verarbeiten und zu analysieren, erleichtert das Laden, Bereinigen und Untersuchen von Daten erheblich.  

NumPy ist eine weitere fundamentale Bibliothek, welche die effiziente Arbeit mit großen mehrdimensionalen Arrays und Matrizen ermöglicht. Die Leistungsfähigkeit von NumPy in Kombination mit Pandas bildet die Grundlage für fast alle Tools in Pythons Datenwissenschafts-Ökosystem.

Schließlich ist Scikit-learn eine führende Bibliothek für in Python. Sie bietet einfache und effiziente Werkzeuge für Datamining und Datenanalyse, zugänglich für jeden und wiederverwendbar in verschiedenen Kontexten. Scikit-learn ist besonders bekannt für seine Fähigkeit, komplexe Datenstrukturen zu verarbeiten und ist mit einer Vielzahl von Algorithmen für Klassifizierung, Regression, Clustering und Dimensionsreduktion ausgestattet, einschließlich leistungsfähiger Methoden wie Random Forests.

Anwendungsbeispiel mit Python

Das folgende Beispiel zeigt, wie die Scikit-learn Bibliothek einen Random Forest trainieren kann, um Vorhersagen zu treffen. Für dieses Beispiel nutzen wir den California Housing-Datensatz, welcher umfangreiche Daten zu Häusern in California enthält, einschließlich verschiedener Features wie Einkommen, die Anzahl der Zimmer und Bevölkerungsdichte. Die abhängige Variable dieses Datensatzes ist der Median-Hauswert, der es uns ermöglicht, die Preisvorhersage basierend auf den gegebenen Merkmalen zu trainieren und zu testen.

Forecast eines Random Forest mithilfe der Scikit-learn Bibliothek
Forecast eines Random Forest mithilfe der Scikit-learn Bibliothek

Dieser Code lädt den California Housing-Datensatz und verwendet ihn, um ein Random Forest-Modell zu trainieren und zu testen. Nach dem Training des Modells auf den Trainingsdaten werden Vorhersagen für die Testdaten gemacht und der Mean Squared Error der Vorhersagen berechnet, um die Leistung des Modells zu bewerten. Ein resultierender Mean Squared Error von 0.25 bedeutet, dass die durchschnittliche quadratische Abweichung zwischen den vom Modell vorhergesagten Werten und den tatsächlichen Werten 0.25 beträgt.

Optimierung des Business Forecasts mit TSF

Die Performance einer Prognose mittels Machine Learning-Modellen hängt maßgeblich von den Preprocessing-Schritten und dem verwendeten Modell ab. Häufig greifen einzelne Modelle die spezifischen Merkmale eines Datensatzes besser auf und erzielen dadurch genauere Prognosen, weshalb ein Vergleich verschiedener Modelle essenziell ist, um die optimale Vorhersageleistung zu ermitteln. avantum hat auf diese Herausforderung mit der Entwicklung von Time Series Forecasting (TSF) reagiert, einer Lösung, die automatisch vielfältige Preprocessing-Schritte durchführt und zahlreiche Modelle trainiert. TSF wählt automatisiert das leistungsfähigste Modell aus und optimiert es weiter, um so die effektivste Prognose zu ermöglichen.

<div class="hzweiwrapper"><span class="circled-number">3</span><h2 class="c-blog_head" id="3. Forecasting mit KNIME">Forecasting mit KNIME</h2></div>

KNIME steht für die Konvergenz von Benutzerfreundlichkeit und leistungsstarker Datenanalyse, was es zu einem bevorzugten Tool für Forecasting-Aufgaben macht. Es ist ein visuelles Programmierungstool, das es ermöglicht, komplexe Datenverarbeitungs- und Analyseprozesse durch eine intuitive Drag-and-Drop-Oberfläche zu erstellen, ohne dass tiefgehende Programmierkenntnisse erforderlich sind. Workflows haben außerdem die Möglichkeit, als API oder WebApp bereitgestellt zu werden, um Fachanwendern einen Online-Zugriff zu ermöglichen.

Forecasting Workflow

Der Aufbau eines Forecasting-Workflows in KNIME beginnt mit der Auswahl der richtigen Nodes für den Datenimport. Die Plattform unterstützt eine Vielzahl von Datenquellen, von lokalen CSV-Dateien bis hin zu Cloud-basierten Datenbanken. KNIME bietet eine breite Palette von maschinellen Lern- und statistischen Nodes, von einfachen linearen Regressionen bis hin zu komplexeren Ensemble-Methoden, die sich für Zeitreihenprognosen eignen. Außerdem besteht die Möglichkeit Python-Knoten zu verwenden, um einen individuellen Python-Code manuell zu integrieren. In der folgenden Visualisierung ist zu sehen, wie die Umsetzung des Forecasts mit dem Random Forest aus dem vorherigen Beispiel in KNIME aussehen könnte.

Forecasting-Workflow in KNIME
Forecasting-Workflow in KNIME

Ein wichtiger Aspekt von KNIME ist die Fähigkeit, die Ergebnisse visuell zu analysieren. Die Plattform beinhaltet eine Vielzahl von Visualisierungsoptionen, die es ermöglichen, die Performance des Modells intuitiv zu bewerten. Scatter Plots, Liniencharts und Heatmaps können direkt innerhalb des Workflows erstellt werden, um Einblicke in die Daten und die Modellperformance zu gewähren.

Für fortgeschrittene Nutzer bietet KNIME die Möglichkeit, den Forecasting-Prozess weiter zu optimieren und zu automatisieren. Durch Parameteroptimierungsnodes kann das Modell fein abgestimmt werden, um die Genauigkeit der Vorhersagen zu verbessern. Die Automatisierungsfunktionen von KNIME erlauben es, den gesamten Workflow zu planen und regelmäßig auszuführen, was für Geschäftsanwendungen, bei denen regelmäßige Updates erforderlich sind, unerlässlich ist.

Exkurs: Parameteroptimierung

Parameteroptimierungen beziehen sich auf den Prozess der Anpassung und Feinabstimmung der Einstellungen (Parameter) eines maschinellen Lernmodells, um dessen Leistung zu verbessern. Durch systematisches Ausprobieren verschiedener Parameterkombinationen sucht man nach der Konfiguration, die die beste Vorhersagegenauigkeit oder ein anderes Leistungskriterium maximiert. Dies kann manuell durch den Entwickler oder automatisiert mittels Algorithmen wie Grid Search oder Random Search erfolgen. Ziel ist es, das Modell so zu optimieren, dass es die zugrunde liegenden Muster in den Daten effektiver erfasst und präzisere Vorhersagen liefert.

Grenzen bei der Nutzung von KNIME

Trotz der vielen Vorteile, wie die umfassende Unterstützung verschiedener Datenquellen, die intuitive Benutzeroberfläche und die Flexibilität in der Gestaltung von Workflows, stößt KNIME bei sehr großen Datensätzen oder bei spezifischen, fortgeschrittenen maschinellen Lernverfahren gelegentlich an Grenzen. Jedoch bleibt es eine ausgezeichnete Wahl für eine Vielzahl von Forecasting-Aufgaben, die eine schnelle und effektive Lösung erfordern.

<div class="hzweiwrapper"><span class="circled-number">4</span><h2 class="c-blog_head" id="4. Forecasting mit Dataiku">Forecasting mit Dataiku</h2></div>

Dataiku präsentiert sich als integrierte Plattform für Datenwissenschaft und maschinelles Lernen, die auf die Bedürfnisse von Unternehmen zugeschnitten ist. Ähnlich wie KNIME ermöglicht es Dataiku, durch eine intuitive Benutzeroberfläche sowohl visuelle als auch codebasierte Workflows zu erstellen, wodurch es Anwendern verschiedener Erfahrungsstufen zugänglich wird. Im Gegensatz zu KNIME richtet sich Dataiku jedoch stärker an Unternehmensanforderungen, indem es erweiterte Kollaborationsfunktionen und Projektmanagement-Tools bietet.

Forecasting Workflow

Bei der Einrichtung eines Forecasting-Projekts unterstützt Dataiku eine Vielzahl von Datenquellen, erleichtert die Datenvorbereitung und -bereinigung und bietet eine breite Auswahl an Modellen für das maschinelle Lernen. Nutzer können schnell das passende Modell auswählen, trainieren und durch automatisierte Verfahren optimieren. Die Modellbewertung in Dataiku ermöglicht eine detaillierte Analyse der Leistung, ähnlich wie bei KNIME, mit dem zusätzlichen Vorteil einer nahtlosen Integration in Geschäftsprozesse für das Modell-Deployment. In der folgenden Visualisierung ist ein Forecasting-Workflow in Dataiku abgebildet.

Forecasting-Workflow in Dataiku
Forecasting-Workflow in Dataiku

Ein wesentlicher Unterschied zu KNIME ist Dataikus Fokus auf die Unterstützung der Teamarbeit und das Projektmanagement. Dataiku fördert die Zusammenarbeit durch Versionskontrolle und Zugriffsrechteverwaltung, was es für größere Unternehmen attraktiv macht. Obwohl beide Plattformen leistungsfähige Lösungen für Forecasting bieten, zeichnet sich Dataiku durch seine umfassenden Funktionen für die Unternehmensintegration und Skalierbarkeit aus.  

Integration von Python in KNIME und Dataiku

Sowohl in KNIME als auch in Dataiku besteht die Möglichkeit, Python zu integrieren, um die Funktionalität der Plattformen zu erweitern. Diese Integration ermöglicht es Benutzern, in fortgeschrittenen und spezialisierten Anwendungsfällen einen maßgeschneiderten Code zu implementieren. Durch das Schreiben von Python-Skripten direkt innerhalb der Umgebungen können Anwender komplexe Datenverarbeitungslogiken und maschinelle Lernmodelle entwickeln, die über die standardmäßigen visuellen Nodes oder Prozesse hinausgehen. Dies bietet eine wertvolle Flexibilität für Projekte, die spezifische oder hochangepasste Lösungen erfordern, und stärkt die Brücke zwischen visueller Datenanalyse und programmatischer Flexibilität.

Fazit

Die Auswahl und Anwendung der richtigen Forecasting-Tools ist entscheidend für Unternehmen, die zukunftsorientierte Geschäftsprognosen erstellen möchten. Python bietet mit leistungsstarken Bibliotheken eine solide Basis für individuelle Analyse- und Prognoseaufgaben. KNIME und Dataiku ergänzen diese Möglichkeiten durch ihre benutzerfreundlichen Oberflächen und die Integration von Python, wodurch auch komplexe Vorhersagemodelle ohne tiefgreifende Programmierkenntnisse zugänglich werden. Während KNIME sich ideal für visuelle Datenexploration und schnelle Prototypenerstellung eignet, bietet Dataiku umfassende Lösungen für die unternehmensweite Datenwissenschaft und fördert die Zusammenarbeit innerhalb von Teams. Trotz ihrer unterschiedlichen Stärken und Einsatzgebiete unterstreicht die Kombination dieser Tools die Bedeutung flexibler, zugänglicher und leistungsfähiger Datenanalyse-Plattformen im heutigen datengetriebenen Geschäftsumfeld. Die Entscheidung für das passende Tool hängt von den spezifischen Anforderungen, dem Umfang der Daten und den Zielen des jeweiligen Unternehmens ab.

Häufig gestellte Fragen

Welches Tool eignet sich am besten für Einsteiger im Bereich Business Forecasting?

Für Einsteiger im Bereich Business Forecasting bietet Python durch seine umfangreichen Bibliotheken und die intuitive Syntax einen leicht zugänglichen Einstieg. KNIME, mit seiner visuellen Programmieroberfläche, ist ebenfalls eine hervorragende Wahl für diejenigen, die komplexe Datenanalysen ohne umfassende Programmierkenntnisse durchführen möchten.

Wie kann ich entscheiden, ob KNIME oder Dataiku besser für mein Unternehmen geeignet ist?

Die Entscheidung zwischen KNIME und Dataiku hängt von den spezifischen Bedürfnissen Ihres Unternehmens ab. KNIME eignet sich hervorragend für visuelle Datenexploration und schnelle Prototypenerstellung, während Dataiku mit seinen erweiterten Kollaborationsfunktionen und Projektmanagement-Tools für größere Unternehmen oder Teams, die eine umfassende, skalierbare Lösung suchen, besser geeignet ist.

Kann ich Python-Code in KNIME und Dataiku integrieren, wenn ich spezialisierte Analysefunktionen benötige?

Ja, sowohl KNIME als auch Dataiku ermöglichen die Integration von Python, was die Erstellung von spezialisierten, maßgeschneiderten Lösungen für komplexere oder spezifischere Analyse- und Forecasting-Aufgaben ermöglicht. Diese Flexibilität gestattet es Anwendern, die Vorteile der visuellen Programmierung mit der Leistungsfähigkeit von Python zu kombinieren.

Thomas Moelle
Thomas Moelle
Consultant
Folge uns:

Thomas Moelle ist seit 2020 als Berater bei der avantum consult GmbH tätig. Nach seinem abgeschlossenen Masterstudium der Wirtschaftsinformatik realisiert und berät er bei Projekten im Bereich Data Science für Kunden in verschiedenen Branchen. Sein Fokus liegt dabei auf Low-Code Anwendungen und Cloud Architektur.