Zurück

Software Engineering für datengetriebene Projekte

12. April 2021, 10–17 Uhr

Ob Data Science, Data Analytics oder Data Engineering – in der Praxis beinhaltet das fast immer auch Softwareentwicklung. Datengetriebene Projekte beginnen oft klein und experimentell. Hier unterstützen interaktive Notebook-Umgebungen wie Jupyter den Data Scientist dabei, die Daten zu explorieren und schnell Ideen auszuprobieren.

Ergebnis ist eine mehr oder weniger aufgeräumte Sammlung von Notebooks und Python-Skripten. Eine solche Sammlung ist einerseits noch nicht bereit für den Einsatz in einer Produktivumgebung. Andererseits skaliert sie auch zunehmend schlechter, wenn Umfang und Komplexität des Workflows wachsen. Es empfiehlt sich also schon früh Best Practices aus dem Software Engineering in den Workflow zu integrieren. Dieser Workshop stellt dafür einige aktuelle Werkzeuge vor.

Vorkenntnisse

Solide Python-Programmierkenntnisse
Praxiserfahrung mit Data Science und ML-Projekten

Lernziele

Mehr Produktivität als Entwickler
Beherrschbare Komplexität
Reproduzierbare Ergebnisse
Weniger Distanz zwischen Prototyp- und Produktivimplementierung

Agenda

Allgemein

Jupyter Notebooks für Power User
Data Pipelines (mit Kedro)
Versionierung (mit git, DVC) für datengetriebene Workflows

Machine Learning speziell

scikit-learn für Power User: Pipelines-API produktiv einsetzen
reproduzierbare ML-Experimente (mit MLflow)

Speaker

Christian Staudt unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er mit der Point 8 GmbH Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv.