Vom Scripting zum Data Application Engineering

Data Science in der Praxis bedeutet fast immer auch Softwareentwicklung. Projekte aus dem Bereich Datenanalyse und Machine Learning beginnen meist sehr experimentell - hier unterstützen interaktive Notebook-Umgebungen wie Jupyter den Data Scientist dabei, die Daten zu explorieren und schnell Ideen auszuprobieren.

Ergebnis ist oft eine mehr oder weniger aufgeräumte Sammlung von Notebooks und Python-Skripten, die noch weit von einer produktionsreifen Software entfernt ist. Es empfiehlt sich aber, schon früh Best Practices aus dem Software Engineering in den Workflow zu integrieren.

Dieser Workshop stellt in interaktiven Tutorials einige Werkzeuge und Prozesse vor.

- Projektphasen und Workflows
- Systemanforderungen managen (mit Anaconda, virtualenv ...)
- Entwicklungsumgebung konfigurieren (mit Jupyter, Atom ...)
- Datenexploration und -validierung (mit pandas-profiling ...)
- Versionierung (mit git ...)
- Projektstruktur und Packaging
- Datenpipelines managen (mit dvc ...)
- Testing / Continuous Integration (mit pytest, Jenkins ...)
- Machine Learning Model Engineering (mit scikit-learn, keras, mlflow ...)

Vorkenntnisse

* solide Python-Programmierkenntnisse
* Praxiserfahrung mit Data Science und ML-Projekten

Lernziele

* mehr Produktivität als Entwickler
* beherrschbare Komplexität
* reproduzierbare Ergebnisse
* weniger Distanz zwischen Prototyp- und Produktivimplementierung

 

Speaker

 

Christian Staudt
Christian Staudt unterstützt als Freelance Data Scientist Auftraggeber bei Herausforderungen rund um Data Mining, Big Data und Machine Learning. Neben der Projektarbeit entwickelt er mit der Point 8/ GmbH Trainings und coacht Teams in Sachen Methodik und Werkzeuge der Datenanalyse, die er schon während seiner Forschungstätigkeiten in der Informatik nutzte. Als Referent ist er in der Community um Python und Data Science aktiv.

enterPy-Newsletter

Sie möchten über die enterPy
auf dem Laufenden gehalten werden?

 

Anmelden