Data Scientist, Data Engineer, AI/ML Engineer, Cloud Architect
Aktualisiert am 25.09.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 01.10.2024
Verfügbar zu: 100%
davon vor Ort: 10%
Python
Azure
TensorFlow
R
SQL
PySpark
Scikit-learn
MLflow
Langchain
FastAPI
Airflow
MongoDB
Databricks
MS Fabric
Power BI
Plotly
Dash
Streamlit
Git
Docker
AWS
Terraform
OpenAI
Deutsch
Muttersprache
Englisch
Verhandlungssicher
Spanisch
Fortgeschritten

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

5 Monate
2024-05 - 2024-09

Entwicklung eines Large Language Modells mit Q&A Webapp

LLM Entwickler Python OpenAI LangChain ...
LLM Entwickler
  • Training eines Large Language Modells zur Zusammenfassung von individuellen Textdokumenten und Steuertexten
  • Aufteilung eines Textdokuments in Chunks, Erstellung von Embeddings, Abspeicherung in einer Vektor-Datenbank und Nutzung des LLMs mit LangChain
  • Entwicklung einer Webapp mit Streamlit, auf welcher Nutzer Textdokumente hochladen und Fragen zum Inhalt des Dokuments formulieren können
  • Nutzung des Large Language Modells zur Beantwortung von Fragen zu Textdokumenten
Python OpenAI LangChain Pinecone ChromaDB Streamlit
Goertz + Klingen + Tilg Steuerberater PartG mbB
Wegberg
1 Jahr 10 Monate
2022-08 - 2024-05

Konzipierung & Erstellung einer Cloud-Architektur

Cloud Architect Azure Cosmos DB Azure Data Factory Azure Blob Storage ...
Cloud Architect
Ein Softwarehersteller für Rundfunkanstalten benötigt zur Fehlerbehandlung die
Betriebsdaten der entsprechenden Software, welche in der Regel beim Kunden liegen. Die Entwicklung einer Cloud-Architektur soll den Datenzugriff jederzeit gewährleisten.  Weitere Projektziele sind die Visualisierung und automatisierte Analyse der Daten, um eine frühzeitige Erkennung und effizientere Lösung von Fehlermeldungen zu ermöglichen.

Vorgehen
  • Durchführung mehrerer Data Assessment Workshops zur Analyse des Status Quo, zur 
  • Festlegung der Anforderungen an die Cloud-Architektur und zur Konzipierung  möglicher Ziel-Architekturen mit den jeweiligen Vor- und Nachteilen 
  • Technische Umsetzung der ausgewählten Ziel-Architektur in Azure 
  • Nutzung einer API zur Speicherung der bei den Kunden erzeugten Betriebsdaten im xmlFormat in einem Azure Storage Account 
  • Entwicklung eines Datenmodells in Azure Cosmos DB und Verschiebung der Daten mit Azure Data Factory 
  • Aufbereitung und Transformation der Daten mit Data flows in Azure Data Factory 
  • Implementierung von Azure Functions zur automatisierten Erkennung und Behebung von Fehlern basierend auf den Betriebsdaten 
  • Entwicklung eines Power BI Report zur Visualisierung und Analyse der Daten
Azure Cosmos DB Azure Data Factory Azure Blob Storage Azure Functions Azure DevOps Azure Data Studio Terraform Databricks PySpark MongoDB Compass Python PyMongo Power BI Jira Atlassian Confluence
DAVID Systems GmbH
München
1 Jahr
2022-10 - 2023-09

Prädiktion der Bewerbungsanzahl auf Jobs mit ML

Data Scientist Python Scikit-learn Keras ...
Data Scientist
Durch eine Auswertung der Job-Statistiken sollen die Einflussfaktoren auf die Bewerbungsanzahl eines Jobs auf der Plattform eines Job-Anbieters ermittelt werden. Auf Basis der Einflussfaktoren soll dann im zweiten Schritt ein Machine Learning Modell entwickelt werden, welches die Bewerbungsanzahl für neue Jobs vorhersagt.


Vorgehen:

  • Nach einer Exploration und Bereinigung der Job-Statistiken mit Python lieferte eine Korrelationsanalyse erste Erkenntnisse über die Einflussfaktoren auf die Bewerbungsanzahl von Jobs. Zudem wurden bestimmte Wörter im Job-Titel sowie saisonale und regionale Unterschiede analysiert. Die graphische Visualisierung der Einflussfaktoren und die Bereitstellung von interaktiven Notebooks mit einstellbaren Parametern zur Auswertung aktueller Datensätze ermöglicht dem Job-Anbieter eine regelmäßige Betrachtung und Evaluation der relevanten Einflüsse auf die Bewerbungsanzahl. 
  • In der zweiten Phase des Projektes wurde ein Prädiktionsmodell entwickelt, welches die relevanten Einflussfaktoren als Input-Parameter nimmt und auf Basis dieser Angaben die Bewerbungsanzahl eines Jobs vorhersagt. Als Machine Learning Methoden wurden verschiedene Regressionsverfahren sowie Artificial Neural Networks evaluiert. Damit das Prädiktionsmodell regelmäßig mit aktualisierten Daten neu trainiert werden kann, wurde für jedes Machine Learning Verfahren eine automatisierte Hyperparameteroptimierung und Modellauswahl implementiert. Durch die Entwicklung einer REST-Schnittstelle kann das Prädiktionsmodell neu trainiert und zur Abfrage der prognostizierten Bewerbungsanzahl für eine Stellenausschreibung genutzt werden.


Resultate:

Mithilfe des Prädiktionsmodells kann der Job-Anbieter seinen Kunden bereits vor der Ausschreibung von Jobs auf seiner Plattform anzeigen, wie viele Bewerbungen für den jeweiligen Job zu erwarten sind. Zudem können gezielte Möglichkeiten zur Verbesserung der Performance von Jobs vorgeschlagen werden.

Python Scikit-learn Keras TensorFlow Matplotlib Seaborn Plotly Jupyter Git Docker PowerPoint
Promotionbasis GmbH
München
3 Monate
2023-05 - 2023-07

Bildklassifikation mit KI & TensorFlow

Python Keras TensorFlow ...

Das Ziel liegt in der Entwicklung eines KI-Modells mit Tensor Flow, das für ein Bild einer Blume prädiktiert, welche Blume auf dem Bild abgebildet ist. Der Datensatz zum Training des Modells enthält 3.670 Bilder von Rosen, Tulpen, Sonnenblumen, Gänseblümchen und Pusteblumen


Vorgehen:

  • Laden des Datensatzes aus TensorFlow Datasets
  • Formatierung der Bilder in eine einheitliche Größe sowie Erstellung eines Trainings- und Testdatensatzes mit Batches und Prefetching zur schnelleren Verarbeitung der Datensätze beim Training der Modelle
  • Bildung und Training eines Convolutional Neural Networks zur Klassifikation der Bilder 
  • Implementierung von Data Augmentation zur Vermeidung von Overfitting
  • Erstellung eines Feature Extraction Modells mit einem EfficientNetB0 von TensorFlow Hub als Basis-Modell
  • Fine-Tuning des Feature Extraction Modells durch Training der Gewichte des BasisModells mit einer geringeren Lernrate und Early-Stopping
  • Erstellung einer Confusion-Matrix und Visualisierung der Vorhersagen auf dem Testsatz
  • Darstellung der Loss-Kurven von Modellen über mehrere Epochen
  • Generierung eines TensorBoards zur Auswertung der entwickelten Modelle


Resultate:

Das CNN-Modell erreichte eine Vorhersagegenauigkeit von 55,72% auf dem Testsatz. Da die Loss-Kurve auf ein Overfitting des Modells an den Trainingssatz hindeutet, wurden die Trainingsbilder durch Data Augmentation horizontal gespiegelt, rotiert oder gezoomt, um dem Modell beim Training eine größere Variation an Bildern bereitzustellen. Anschließend lag die Vorhersagegenauigkeit auf dem Testsatz bei 67,57%. Das Feature Extraction Modell erreichte nach fünf Epochen eine Vorhersagegenauigkeit von 93,46% auf dem Testsatz. Durch das Fine-Tuning kam das Modell dann auf eine Vorhersagegenauigkeit von 95,91% auf dem Testsatz.

Python Keras TensorFlow Matplotlib Google Colab Notebooks
Showcase
1 Jahr
2022-05 - 2023-04

Konzipierung & Erstellung einer Cloud-Architektur

Data Architect Azure SQL DB Azure Data Factory Azure Data Studio ...
Data Architect

Ein Logistikunternehmen mit über 45 Standorten in Deutschland benötigt zur Harmonisierung der Datenquellen verschiedener Kunden und Standorte eine standardisierte Datenbank. Im Rahmen eines Data Assessments soll ein individuell zugeschnittenes Konzept für die Datenarchitektur entwickelt und anschließend implementiert werden.


Vorgehen

  • Im ersten Schritt des Data Assessments wurde der Ist-Zustand mit der bestehenden Datenarchitektur und den damit verbundenen Problemen untersucht. Auf Basis dieser Informationen und unter Abwägung der Vor- und Nachteile der in Frage kommenden Datenarchitekturen, wurde eine Zielarchitektur entwickelt, welche den technischen, strategischen und finanziellen Anforderungen entsprach. Anschließend folgte die technische Umsetzung der Zielarchitektur in der Azure Umgebung. 
  • Dabei wurden die Daten aus den lokalen Oracle-Datenbanken mithilfe von Azure Data Factory Pipelines in eine Azure SQL Datenbank geladen. Innerhalb der Data Factory wurde auch ein Mapping zwischen den Tabellen aus den verschiedenen Datenbanken und die Berechnung der KPIs durchgeführt. Zur Visualisierung der Daten wurde ein Power BI Report entwickelt und an die Azure SQL Datenbank angebunden.

Azure SQL DB Azure Data Factory Azure Data Studio PowerPoint Power BI Dataverse SharePoint
LGI Logistics Group International GmbH
München
6 Monate
2022-07 - 2022-12

KI-Ähnlichkeitsanalyse von Produkten im Einkauf

KI Entwickler Scikit-learn Keras Tensorflow ...
KI Entwickler

Die Facheinkäufer eines Automobilherstellers sollen bei der Identifikation von ähnlichen Sachnummern im Einkauf durch den Einsatz von künstlicher Intelligenz unterstützt werden. Das Ziel der KI-Ähnlichkeitsanalyse besteht darin, Cluster von Produkten mit einer hohen Ähnlichkeit zu bilden und die Preisunterschiede innerhalb eines Clusters zur Ermittlung von Einsparpotenzialen zu nutzen. Als Datenbasis dienen die Produktbezeichnung und Bestellhistorie sowie kategorische und geometrische Parameter, die eine Vergleichbarkeit der Sachnummern ermöglichen.


Vorgehen:

  • Zur Potenzialermittlung wird im ersten Schritt ein Clustering mit K-Means auf den  relevanten Parametern durchgeführt. Anschließend wird mithilfe eines Modells zum paarweisen  Vergleich von Sachnummern ein Re-Clustering durchgeführt. Dazu prädiktiert ein neuronales Netz  für jedes Paar an Sachnummern innerhalb eines Clusters einen Ähnlichkeitswert. Dann  werden die transitiven Kombinationen an Sachnummern in einem Cluster bestimmt, bei denen der Ähnlichkeitswert über einem festgelegten Schwellwert liegt. Dadurch wird jedes Cluster so lange in kleinere Cluster aufgeteilt, bis alle Sachnummern in jedem Cluster die gewünschte Ähnlichkeit aufweisen. Im letzten Schritt wird für jedes Cluster ein Referenzpreis als gewichteter Mittelwert der Preise aller Sachnummern im Cluster berechnet und das Potenzial ermittelt. Das Potenzial leitet sich aus der Summe der Einsparungspotenziale der Sachnummern im Cluster ab, deren Preis über dem Referenzpreis liegt. Abschließend  wird ein Report mit den Ergebnissen der Preisvarianzanalyse generiert. Das Deployment des Modells wurde in der AWS-Umgebung abgeschlossen und bietet eine Schnittstelle zur Anwendung des Modells auf aktuellen Daten sowie zur Optimierung des neuronalen Netzes mit Nutzerfeedback.


Resultate:

Mithilfe des KI-Modells zur Identifizierung von ähnlichen Sachnummern kann der Automobilhersteller über 100 Mio. ? pro Jahr im Einkauf einsparen.

Scikit-learn Keras Tensorflow Jupyter Git AWS SonarQube Python (Pandas NumPy Nltk itertools Tensorflow) Jupyter Notebooks
Deutscher Automobilhersteller
München
9 Monate
2022-03 - 2022-11

Analyse der E-Potenziale einer LKW-Flotte

Data Scientist Python Here Maps API Plotly ...
Data Scientist

Ein Nutzfahrzeughersteller möchte einen Teil seiner LKW-Flotten elektrifizieren. Daher soll eine Analyse der realen Fahrzeugdaten Aufschluss darüber geben, für welche Routen und Aufträge die Reichweite eines Elektrofahrzeugs ausreicht. Zudem sollen Algorithmen zur Ermittlung der optimalen Platzierung von Ladestationen basierend auf dem Fahrverhalten  der elektrifizierbaren LKWs dienen.


Vorgehen:

  • Entwicklung von Algorithmen zur Identifizierung der Fahrtschichten und Standzeiten von LKWs anhand von Tracking-Daten
  • Untersuchung der Points of Interest in der Umgebung von Standorten der LKWs mithilfe der Here Maps API
  • Ermittlung der optimalen Anzahl und Orte für Ladestationen von Elektroautos
  • Implementierung von Algorithmen zur Bestimmung der elektrifizierbaren LKWs auf Basis der fahrspezifischen Daten
  • Dokumentation der Algorithmen in Confluence
  • Entwicklung eines interaktiven Dashboards als Webapplikation mit Plotly Dash zur Analyse des Fahrverhaltens und des Elektrifizierungspotenzials


Resultate:

Konzeption und technische Umsetzung eines auf realen Fahrzeugdaten basierenden Dashboards, welches individualisierte E-Potenziale von LKW-Flotten anhand des tatsächlichen Nutzungsverhaltens aufdeckt

Python Here Maps API Plotly Dash PyInstaller Jupyter Visual Studio Code Jira Atlassian Confluence Git
MAN Truck & Bus SE
München
8 Monate
2021-07 - 2022-02

Personalvermittlung mit KI

Data Scientist Scikit-learn Plotly Dash ...
Data Scientist

Ziel des Projekts bestand in der Entwicklung eines Systems zur Personalvermittlung, welches mithilfe von künstlicher Intelligenz und psychologischen Modellen möglichst passende Vakanzen für einen Kandidaten findet. Durch den Einsatz dieses intelligenten  MatchingSystems möchte ein Startup zur Personalvermittlungs- die Arbeitszufriedenheit  seiner Kandidaten und den Einstellungserfolg der Unternehmen maximieren.


Vorgehen:

  • Datenimport und Aufbereitung von Stellenausschreibungen
  • Implementation von Web-Crawlern für Kandidatenprofile auf Linkedin und Xing sowie Unternehmensprofile auf Glassdoor
  • Entwicklung von Machine Learning Modellen zur automatisierten Identifikation von passenden Vakanzen für einen Kandidaten mit einem Skill-Matching-Score basierend auf den Fähigkeiten des Kandidaten und den Anforderungen in der Stellenbeschreibung
  • Erstellung einer R-Shiny App zur statistischen Auswertung von psychologischen Daten
  • Mustererkennung und Implementierung von psychologischen Modellen
  • Berechnung eines Matching-Scores zwischen den Ergebnissen vom Persönlichkeits-Test des Kandidaten und dem Unternehmensprofil auf Glassdoor
  • Aufsetzung eines Python-Dashboards zur Marktanalyse mit Geo Heatmaps, Zeitreihenanalyse und Machine Learning Vorhersagen
  • Optimierung der Response-Rate durch die Nutzung von KI-Modellen und Auswertung der Webhooks von gesendeten E-Mails


Resultate:

Anwendung des Matching-Modells zur automatisierten Identifizierung von passenden Vakanzen für Kandidaten mit der Prädiktion eines Matching-Scores zwischen 0 und 100 unter Berücksichtigung der Fähigkeiten, Persönlichkeit und Präferenzen des Kandidaten.

Scikit-learn Plotly Dash Jupyter Heroku R Shiny R Studio AWS S3 MongoDB Mongo Cloud Jira Atlassian Git Linux Python (Scikit-learn Selenium Plotly Dash) AWS S3 Jupyter Notebooks PyCharm
auf Anfrage
Düsseldorf
5 Monate
2021-02 - 2021-06

Einsatz von Data Science im Fußball

Python Scikit-learn Keras ...
Masterarbeit- Das Projektziel besteht in der Entwicklung von Ansätze zum Einsatz von Data Science im Fußball, um die eigene Mannschaftsleistung zu verbessern, eine möglichst genaue Gegneranalyse durchzuführen und neue Spieler oder Talente zu entdecken. Der genutzte Datensatz von StatsBomb enthält Event-Daten zu 879 Fußballspielen, welche als json-Dateien vorliegen und Aktionen wie Pässe, Schüsse, Zweikämpfe, Dribblings, Foulspiele oder Standardsituationen beschreiben


Vorgehen

  • Entwicklung eines Expected Goals Modell zur Prädiktion der Trefferwahrscheinlichkeit eines Torschusses im Fußball mithilfe von Machine Learning
  • Nutzung des Expected Goals Modell zum Scouting von besonders guten Torjägern, Torvorbereitern und Torhütern.
  • Analyse der Entstehung von Toren, indem gefährliche Spielfeldzonen für Torschüsse und Torvorlagen identifiziert sowie verschiedene Angriffsmuster und Standardsituationen ausgewertet wurden.
  • Evaluation der Genauigkeit und Effektivität des Passspiels einzelner Spieler.
  • Untersuchung von Passverbindungen und Passrichtungen, um Passnetzwerke zwischen den Spielfeldzonen und Spielern einer Mannschaft zu erkennen.
  • Statistische Ermittlung des Spielsystems von Mannschaften durch die Auswertung des Positionsspiels der einzelnen Spieler und die Ableitung eine realtaktische Aufstellung.
  • Erstellung von Spielerprofilen, welche zur Kaderzusammenstellung sowie zur Entwicklung eines passenden Spielsystems genutzt werden können.


Resultate:

Mithilfe der entwickelten Methoden kann das Angriffsspiel, Passspiel und Spielsystem der eigenen Mannschaft analysiert und optimiert werden. Zudem eignen sich diese Verfahren zur gezielten Gegneranalyse und zum Spielerscouting sowohl bei der Entdeckung von Talenten oder unterbewerteten Spielern als auch bei der passenden Zusammenstellung des Kaders.

Python Scikit-learn Keras TensorFlow Jupyter Notebooks R foci R Studio Plotly Dash
1 Jahr 4 Monate
2020-03 - 2021-06

E-Mail-Analyse mit NLP

Data Scientist Python Scikit-learn Statsmodels ...
Data Scientist

Zur Beurteilung einer möglichen Insolvenzverschleppung möchte ein Insolvenzverwalter aus dem E-Mail-Verkehr eines Unternehmens herausfinden, ab welchem Zeitpunkt sich eine Insolvenz abgezeichnet hat. Dazu sollen mehrere hundert Gigabyte an E-Mails im PST-Format von verschiedenen Angestellten aus dem Unternehmen analysiert werden.


Vorgehen:

  • Extraktion der Informationen aus den PST-Dateien in eine Tabelle mit dem Betreff, Inhalt, Sender, Empfängern, Anhängen sowie dem Verlauf zu jeder E-Mail und Abspeicherung in einer SQL-Datenbank
  • Bereinigung der Inhalte von E-Mails zur Anwendung von NLP-Techniken
  • Entwicklung eines ML-Modells zur Extraktion der Signatur vom Inhalt der E-Mails
  • Automatisierte Erkennung, in welcher Sprache die einzelnen E-Mails verfasst wurden 
  • Generierung von E-Mail-Flussdiagrammen und Chord-Diagrammen zur Darstellung der Kommunikationswege zwischen den Angestellten
  • Sentimentanalyse zur Auswertung der Stimmung innerhalb der Organisation im Zeitverlauf
  • Erstellung von Wordclouds zur Identifizierung von Schlüsselwörtern
  • Implementierung einer intelligenten Volltextsuche nach Wörtern und Synonymen
  • Topic Modeling zur Aufdeckung von Themen und Gruppierung von E-Mails in verschiedene Themengebiete
  • Entwicklung eines Klassifikationsmodells zur Detektion von rechtlich relevanten E-Mails


Resultate:

Durch die Analyse der E-Mails des Unternehmens konnte der Zeitpunkt bestimmt werden, ab welchem den Geschäftsführern intern klar war, dass eine Insolvenz höchstwahrscheinlich unvermeidbar ist. Als Beweismaterial konnten die relevanten E-Mails identifiziert werden

Python Scikit-learn Statsmodels Seaborn Jupyter SQL SSMS Hadoop Microsoft Power BI Microsoft Teams SharePoint Git Pypff Langdetect Graphviz Bokeh SQLAlchemy pyodbc NLTK spaCy Microsoft SQL Server Jupyter Notebooks
Anwaltskanzlei
Düsseldorf
3 Monate
2020-11 - 2021-01

Feature Selection Verfahren zur Preistreiberanalyse

Python NumPy Pandas ...

Seminararbeit - Ziel dieser Arbeit ist es einige Feature Selection Verfahren auf verschiedenen Datensätzen mit unterschiedlichen ML-Modellen zur Preistreiberanalyse zu evaluieren. Dabei werden sowohl suchbasierte als auch korrelationsbasierte Feature Selection Verfahren hinsichtlich der Reduzierung der Anzahl an Features und der erzielten Vorhersagegenauigkeit untersucht


Vorgehen:

Untersuchung von korrelationsbasierten und suchbasierten Feature Selection Verfahren

sowie Embedded-Methoden und Principal Component Analysis Implementierung verschiedener Feature Selection Methoden in Python Anwendung der Feature Selection Verfahren auf vier Datensätzen zur Preistreiberanalyse Entwicklung von ML-Modellen zur Prädiktion von Auto- und Immobilienpreisen Evaluation der Feature Selection Verfahren anhand der Ergebnisse der ML-Modelle


Resultate:

Die Wahl des Feature Selection Verfahrens ist abhängig vom Datensatz, ML-Modell und Projektziel, sodass es kein standardisiertes Verfahren zur Feature Selection gibt. Allerdings lässt sich aus den Projektergebnissen folgern, dass die suchbasierten Feature Selection Methoden jeweils sehr ähnliche Ergebnisse liefern. Die Feature Extraction durch PCA führt zur stärksten Dimensionsreduktion, aber auch zu schwächeren Vorhersagegenauigkeiten. Zudem ist die Wahl des Feature Selection Verfahrens umso wichtiger, je weniger Zeilen im Datensatz vorliegen und je höher die Modellkomplexität ist.

Python NumPy Pandas Scikit-learn Statsmodels SciPy Matplotlib Seaborn
10 Monate
2018-11 - 2019-08

Entwicklung einer Desktopanwendung zur Finanz- und Personalverwaltung

Mathematisch-technischer Softwareentwickler C# WPF Visual Studio ...
Mathematisch-technischer Softwareentwickler
  • Implementation des Backends und Frontends einer Desktopanwendung mit C# und WPF
  • Management der SQL-Datenbank
  • Migration der Daten aus einer SAP-Datenbank
C# WPF Visual Studio SQL SAP Git YouTrack
Cybernetics Lab IMA & IfU - RWTH Aachen
Aachen
2 Jahre 11 Monate
2016-09 - 2019-07

Entwicklung einer Webapp zur Fabrikplanung

Mathematisch-technischer Softwareentwickler Java Spring Hibernate ...
Mathematisch-technischer Softwareentwickler
Im Rahmen eines Forschungsprojekts soll eine Web-Applikation zur Fabrikplanung und

Planung eines Laserschneideprozesses entwickelt werden.


Vorgehen:

  • Implementation des Java-Backends mit Spring und Hibernate
  • Entwicklung intelligenter Graph-Algorithmen zur Prozessplanung
  • Management der SQL-Datenbank
  • Entwicklung und Optimierung der Datenmodelle
  • Evaluation verschiedener NoSQL-Datenbanken zur Performancesteigerung (zum Beispiel MongoDB und Neo4j)
  • Aufsetzung einer MongoDB, Migration der SQL-Datenbank und Anpassung des Quellcodes
  • Erstellung von CI/CD Pipelines mit automatisierten Unit Tests, Maven Build Prozessen und Deployments auf einem Linux-Server
  • Implementation und Anbindung eines Python-Backends für Deep Learning mit TensorFlow


Resultate:

Die Performance der Webapp konnte durch den Umstieg auf eine NoSQL-Datenbank und die Optimierung des Datenmodells deutlich verbessert werden. Zudem wurden komplexe  Algorithmen mit Graphenoperationen und Deep Learning Modelle zur Planung einer Fabrik und eines Laserschneideprozesses implementiert.

Java Spring Hibernate Postman SQL MySQL Workbench MongoDB Neo4j Python Tensorflow Git JUnit IntelliJ IDEA YouTrack
Cybernetics Lab IMA & IfU - RWTH Aachen
Aachen

Aus- und Weiterbildung

Aus- und Weiterbildung

5 Monate
2024-01 - 2024-05

Fabric Analytics Engineer Associate

Microsoft
Microsoft
4 Monate
2023-11 - 2024-02

Power BI Data Analyst Associate

Microsoft
Microsoft
5 Monate
2023-07 - 2023-11

Databricks Certified Data Engineer Associate

Databricks
Databricks
6 Monate
2023-02 - 2023-07

TensorFlow Developer Certificate

Google
Google
3 Monate
2022-12 - 2023-02

AWS Certified Cloud Practitioner

Amazon Web Services
Amazon Web Services
3 Monate
2022-11 - 2023-01

Azure Data Scientist Associate

Microsoft
Microsoft
4 Monate
2022-04 - 2022-07

Azure Data Engineer Associate

Microsoft
Microsoft
1 Jahr 11 Monate
2019-09 - 2021-07

Angwandte Mathematik und Informatik

Master of Science, FH Aachen
Master of Science
FH Aachen
  • Statistik
  • Machine Learning
  • Data Science


Masterarbeit: Einsatz von Data Science im Fussball, Note: 1,0

3 Jahre
2016-08 - 2019-07

Scientific Programming

Bachelor of Science, FH Aachen
Bachelor of Science
FH Aachen

Dualer Bachelor-Studiengang in Mathematik und Informatik mit einer Ausbildung zum Mathematisch-technischen Softwareentwickler

Zertifizierung zum DataScienceMATSE

Bachelorarbeit: Bewertung verschiedener Verfahren zur Automatisierung der Datenvorverarbeitung am Beispiel des Immobilienmarktes in Melbourne, Note: 1,3

3 Jahre
2016-08 - 2019-07

DataScienceMATSE

FH Aachen
FH Aachen
Abschluss von 3 Data Science Modulen und Verfassung einer Bachelorarbeit im Data Science Bereich

Position

Position

  • Data Scientist
  • AI Developer
  • Data Engineer
  • Cloud Architect

Kompetenzen

Kompetenzen

Top-Skills

Python Azure TensorFlow R SQL PySpark Scikit-learn MLflow Langchain FastAPI Airflow MongoDB Databricks MS Fabric Power BI Plotly Dash Streamlit Git Docker AWS Terraform OpenAI

Schwerpunkte

Azure
Experte
Databricks
Fortgeschritten
MS Fabric
Experte
AWS
Fortgeschritten
Power BI
Experte
  • Data Science: Entwicklung von KI-Modellen mit Machine & Deep Learning, NLP, LLMs, Computer Vision, Datenvisualisierung, Mustererkennung
  • Data Engineering: Architektur und Implementierung von Datenpipelines, Konzeption und Aufbau einer Cloud Infrastruktur
  • Data Analytics: Datenanalyse, Dashboard Erstellung, Webentwicklung

Programmiersprachen

Python
Experte
R
Experte
SQL
Experte
Java
Experte
PySpark
Experte
C#
Fortgeschritten
Python-Bibliotheken
NumPy, Pandas, Scikit-learn, TensorFlow, Keras, MLflow, Seaborn, Statsmodels, OpenAI, Langchain, FastAPI, Airflow, Streamlit, Plotly, Dash

Datenbanken

MySQL
Experte
Oracle
Fortgeschritten
MongoDB
Experte
Pinecone
Fortgeschritten
Azure Cosmos DB
Experte
Delta Lake
Experte

Branchen

Branchen

  • Automobil
  • Logistik
  • Medien
  • Personalvermittlung
  • Forschung

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

5 Monate
2024-05 - 2024-09

Entwicklung eines Large Language Modells mit Q&A Webapp

LLM Entwickler Python OpenAI LangChain ...
LLM Entwickler
  • Training eines Large Language Modells zur Zusammenfassung von individuellen Textdokumenten und Steuertexten
  • Aufteilung eines Textdokuments in Chunks, Erstellung von Embeddings, Abspeicherung in einer Vektor-Datenbank und Nutzung des LLMs mit LangChain
  • Entwicklung einer Webapp mit Streamlit, auf welcher Nutzer Textdokumente hochladen und Fragen zum Inhalt des Dokuments formulieren können
  • Nutzung des Large Language Modells zur Beantwortung von Fragen zu Textdokumenten
Python OpenAI LangChain Pinecone ChromaDB Streamlit
Goertz + Klingen + Tilg Steuerberater PartG mbB
Wegberg
1 Jahr 10 Monate
2022-08 - 2024-05

Konzipierung & Erstellung einer Cloud-Architektur

Cloud Architect Azure Cosmos DB Azure Data Factory Azure Blob Storage ...
Cloud Architect
Ein Softwarehersteller für Rundfunkanstalten benötigt zur Fehlerbehandlung die
Betriebsdaten der entsprechenden Software, welche in der Regel beim Kunden liegen. Die Entwicklung einer Cloud-Architektur soll den Datenzugriff jederzeit gewährleisten.  Weitere Projektziele sind die Visualisierung und automatisierte Analyse der Daten, um eine frühzeitige Erkennung und effizientere Lösung von Fehlermeldungen zu ermöglichen.

Vorgehen
  • Durchführung mehrerer Data Assessment Workshops zur Analyse des Status Quo, zur 
  • Festlegung der Anforderungen an die Cloud-Architektur und zur Konzipierung  möglicher Ziel-Architekturen mit den jeweiligen Vor- und Nachteilen 
  • Technische Umsetzung der ausgewählten Ziel-Architektur in Azure 
  • Nutzung einer API zur Speicherung der bei den Kunden erzeugten Betriebsdaten im xmlFormat in einem Azure Storage Account 
  • Entwicklung eines Datenmodells in Azure Cosmos DB und Verschiebung der Daten mit Azure Data Factory 
  • Aufbereitung und Transformation der Daten mit Data flows in Azure Data Factory 
  • Implementierung von Azure Functions zur automatisierten Erkennung und Behebung von Fehlern basierend auf den Betriebsdaten 
  • Entwicklung eines Power BI Report zur Visualisierung und Analyse der Daten
Azure Cosmos DB Azure Data Factory Azure Blob Storage Azure Functions Azure DevOps Azure Data Studio Terraform Databricks PySpark MongoDB Compass Python PyMongo Power BI Jira Atlassian Confluence
DAVID Systems GmbH
München
1 Jahr
2022-10 - 2023-09

Prädiktion der Bewerbungsanzahl auf Jobs mit ML

Data Scientist Python Scikit-learn Keras ...
Data Scientist
Durch eine Auswertung der Job-Statistiken sollen die Einflussfaktoren auf die Bewerbungsanzahl eines Jobs auf der Plattform eines Job-Anbieters ermittelt werden. Auf Basis der Einflussfaktoren soll dann im zweiten Schritt ein Machine Learning Modell entwickelt werden, welches die Bewerbungsanzahl für neue Jobs vorhersagt.


Vorgehen:

  • Nach einer Exploration und Bereinigung der Job-Statistiken mit Python lieferte eine Korrelationsanalyse erste Erkenntnisse über die Einflussfaktoren auf die Bewerbungsanzahl von Jobs. Zudem wurden bestimmte Wörter im Job-Titel sowie saisonale und regionale Unterschiede analysiert. Die graphische Visualisierung der Einflussfaktoren und die Bereitstellung von interaktiven Notebooks mit einstellbaren Parametern zur Auswertung aktueller Datensätze ermöglicht dem Job-Anbieter eine regelmäßige Betrachtung und Evaluation der relevanten Einflüsse auf die Bewerbungsanzahl. 
  • In der zweiten Phase des Projektes wurde ein Prädiktionsmodell entwickelt, welches die relevanten Einflussfaktoren als Input-Parameter nimmt und auf Basis dieser Angaben die Bewerbungsanzahl eines Jobs vorhersagt. Als Machine Learning Methoden wurden verschiedene Regressionsverfahren sowie Artificial Neural Networks evaluiert. Damit das Prädiktionsmodell regelmäßig mit aktualisierten Daten neu trainiert werden kann, wurde für jedes Machine Learning Verfahren eine automatisierte Hyperparameteroptimierung und Modellauswahl implementiert. Durch die Entwicklung einer REST-Schnittstelle kann das Prädiktionsmodell neu trainiert und zur Abfrage der prognostizierten Bewerbungsanzahl für eine Stellenausschreibung genutzt werden.


Resultate:

Mithilfe des Prädiktionsmodells kann der Job-Anbieter seinen Kunden bereits vor der Ausschreibung von Jobs auf seiner Plattform anzeigen, wie viele Bewerbungen für den jeweiligen Job zu erwarten sind. Zudem können gezielte Möglichkeiten zur Verbesserung der Performance von Jobs vorgeschlagen werden.

Python Scikit-learn Keras TensorFlow Matplotlib Seaborn Plotly Jupyter Git Docker PowerPoint
Promotionbasis GmbH
München
3 Monate
2023-05 - 2023-07

Bildklassifikation mit KI & TensorFlow

Python Keras TensorFlow ...

Das Ziel liegt in der Entwicklung eines KI-Modells mit Tensor Flow, das für ein Bild einer Blume prädiktiert, welche Blume auf dem Bild abgebildet ist. Der Datensatz zum Training des Modells enthält 3.670 Bilder von Rosen, Tulpen, Sonnenblumen, Gänseblümchen und Pusteblumen


Vorgehen:

  • Laden des Datensatzes aus TensorFlow Datasets
  • Formatierung der Bilder in eine einheitliche Größe sowie Erstellung eines Trainings- und Testdatensatzes mit Batches und Prefetching zur schnelleren Verarbeitung der Datensätze beim Training der Modelle
  • Bildung und Training eines Convolutional Neural Networks zur Klassifikation der Bilder 
  • Implementierung von Data Augmentation zur Vermeidung von Overfitting
  • Erstellung eines Feature Extraction Modells mit einem EfficientNetB0 von TensorFlow Hub als Basis-Modell
  • Fine-Tuning des Feature Extraction Modells durch Training der Gewichte des BasisModells mit einer geringeren Lernrate und Early-Stopping
  • Erstellung einer Confusion-Matrix und Visualisierung der Vorhersagen auf dem Testsatz
  • Darstellung der Loss-Kurven von Modellen über mehrere Epochen
  • Generierung eines TensorBoards zur Auswertung der entwickelten Modelle


Resultate:

Das CNN-Modell erreichte eine Vorhersagegenauigkeit von 55,72% auf dem Testsatz. Da die Loss-Kurve auf ein Overfitting des Modells an den Trainingssatz hindeutet, wurden die Trainingsbilder durch Data Augmentation horizontal gespiegelt, rotiert oder gezoomt, um dem Modell beim Training eine größere Variation an Bildern bereitzustellen. Anschließend lag die Vorhersagegenauigkeit auf dem Testsatz bei 67,57%. Das Feature Extraction Modell erreichte nach fünf Epochen eine Vorhersagegenauigkeit von 93,46% auf dem Testsatz. Durch das Fine-Tuning kam das Modell dann auf eine Vorhersagegenauigkeit von 95,91% auf dem Testsatz.

Python Keras TensorFlow Matplotlib Google Colab Notebooks
Showcase
1 Jahr
2022-05 - 2023-04

Konzipierung & Erstellung einer Cloud-Architektur

Data Architect Azure SQL DB Azure Data Factory Azure Data Studio ...
Data Architect

Ein Logistikunternehmen mit über 45 Standorten in Deutschland benötigt zur Harmonisierung der Datenquellen verschiedener Kunden und Standorte eine standardisierte Datenbank. Im Rahmen eines Data Assessments soll ein individuell zugeschnittenes Konzept für die Datenarchitektur entwickelt und anschließend implementiert werden.


Vorgehen

  • Im ersten Schritt des Data Assessments wurde der Ist-Zustand mit der bestehenden Datenarchitektur und den damit verbundenen Problemen untersucht. Auf Basis dieser Informationen und unter Abwägung der Vor- und Nachteile der in Frage kommenden Datenarchitekturen, wurde eine Zielarchitektur entwickelt, welche den technischen, strategischen und finanziellen Anforderungen entsprach. Anschließend folgte die technische Umsetzung der Zielarchitektur in der Azure Umgebung. 
  • Dabei wurden die Daten aus den lokalen Oracle-Datenbanken mithilfe von Azure Data Factory Pipelines in eine Azure SQL Datenbank geladen. Innerhalb der Data Factory wurde auch ein Mapping zwischen den Tabellen aus den verschiedenen Datenbanken und die Berechnung der KPIs durchgeführt. Zur Visualisierung der Daten wurde ein Power BI Report entwickelt und an die Azure SQL Datenbank angebunden.

Azure SQL DB Azure Data Factory Azure Data Studio PowerPoint Power BI Dataverse SharePoint
LGI Logistics Group International GmbH
München
6 Monate
2022-07 - 2022-12

KI-Ähnlichkeitsanalyse von Produkten im Einkauf

KI Entwickler Scikit-learn Keras Tensorflow ...
KI Entwickler

Die Facheinkäufer eines Automobilherstellers sollen bei der Identifikation von ähnlichen Sachnummern im Einkauf durch den Einsatz von künstlicher Intelligenz unterstützt werden. Das Ziel der KI-Ähnlichkeitsanalyse besteht darin, Cluster von Produkten mit einer hohen Ähnlichkeit zu bilden und die Preisunterschiede innerhalb eines Clusters zur Ermittlung von Einsparpotenzialen zu nutzen. Als Datenbasis dienen die Produktbezeichnung und Bestellhistorie sowie kategorische und geometrische Parameter, die eine Vergleichbarkeit der Sachnummern ermöglichen.


Vorgehen:

  • Zur Potenzialermittlung wird im ersten Schritt ein Clustering mit K-Means auf den  relevanten Parametern durchgeführt. Anschließend wird mithilfe eines Modells zum paarweisen  Vergleich von Sachnummern ein Re-Clustering durchgeführt. Dazu prädiktiert ein neuronales Netz  für jedes Paar an Sachnummern innerhalb eines Clusters einen Ähnlichkeitswert. Dann  werden die transitiven Kombinationen an Sachnummern in einem Cluster bestimmt, bei denen der Ähnlichkeitswert über einem festgelegten Schwellwert liegt. Dadurch wird jedes Cluster so lange in kleinere Cluster aufgeteilt, bis alle Sachnummern in jedem Cluster die gewünschte Ähnlichkeit aufweisen. Im letzten Schritt wird für jedes Cluster ein Referenzpreis als gewichteter Mittelwert der Preise aller Sachnummern im Cluster berechnet und das Potenzial ermittelt. Das Potenzial leitet sich aus der Summe der Einsparungspotenziale der Sachnummern im Cluster ab, deren Preis über dem Referenzpreis liegt. Abschließend  wird ein Report mit den Ergebnissen der Preisvarianzanalyse generiert. Das Deployment des Modells wurde in der AWS-Umgebung abgeschlossen und bietet eine Schnittstelle zur Anwendung des Modells auf aktuellen Daten sowie zur Optimierung des neuronalen Netzes mit Nutzerfeedback.


Resultate:

Mithilfe des KI-Modells zur Identifizierung von ähnlichen Sachnummern kann der Automobilhersteller über 100 Mio. ? pro Jahr im Einkauf einsparen.

Scikit-learn Keras Tensorflow Jupyter Git AWS SonarQube Python (Pandas NumPy Nltk itertools Tensorflow) Jupyter Notebooks
Deutscher Automobilhersteller
München
9 Monate
2022-03 - 2022-11

Analyse der E-Potenziale einer LKW-Flotte

Data Scientist Python Here Maps API Plotly ...
Data Scientist

Ein Nutzfahrzeughersteller möchte einen Teil seiner LKW-Flotten elektrifizieren. Daher soll eine Analyse der realen Fahrzeugdaten Aufschluss darüber geben, für welche Routen und Aufträge die Reichweite eines Elektrofahrzeugs ausreicht. Zudem sollen Algorithmen zur Ermittlung der optimalen Platzierung von Ladestationen basierend auf dem Fahrverhalten  der elektrifizierbaren LKWs dienen.


Vorgehen:

  • Entwicklung von Algorithmen zur Identifizierung der Fahrtschichten und Standzeiten von LKWs anhand von Tracking-Daten
  • Untersuchung der Points of Interest in der Umgebung von Standorten der LKWs mithilfe der Here Maps API
  • Ermittlung der optimalen Anzahl und Orte für Ladestationen von Elektroautos
  • Implementierung von Algorithmen zur Bestimmung der elektrifizierbaren LKWs auf Basis der fahrspezifischen Daten
  • Dokumentation der Algorithmen in Confluence
  • Entwicklung eines interaktiven Dashboards als Webapplikation mit Plotly Dash zur Analyse des Fahrverhaltens und des Elektrifizierungspotenzials


Resultate:

Konzeption und technische Umsetzung eines auf realen Fahrzeugdaten basierenden Dashboards, welches individualisierte E-Potenziale von LKW-Flotten anhand des tatsächlichen Nutzungsverhaltens aufdeckt

Python Here Maps API Plotly Dash PyInstaller Jupyter Visual Studio Code Jira Atlassian Confluence Git
MAN Truck & Bus SE
München
8 Monate
2021-07 - 2022-02

Personalvermittlung mit KI

Data Scientist Scikit-learn Plotly Dash ...
Data Scientist

Ziel des Projekts bestand in der Entwicklung eines Systems zur Personalvermittlung, welches mithilfe von künstlicher Intelligenz und psychologischen Modellen möglichst passende Vakanzen für einen Kandidaten findet. Durch den Einsatz dieses intelligenten  MatchingSystems möchte ein Startup zur Personalvermittlungs- die Arbeitszufriedenheit  seiner Kandidaten und den Einstellungserfolg der Unternehmen maximieren.


Vorgehen:

  • Datenimport und Aufbereitung von Stellenausschreibungen
  • Implementation von Web-Crawlern für Kandidatenprofile auf Linkedin und Xing sowie Unternehmensprofile auf Glassdoor
  • Entwicklung von Machine Learning Modellen zur automatisierten Identifikation von passenden Vakanzen für einen Kandidaten mit einem Skill-Matching-Score basierend auf den Fähigkeiten des Kandidaten und den Anforderungen in der Stellenbeschreibung
  • Erstellung einer R-Shiny App zur statistischen Auswertung von psychologischen Daten
  • Mustererkennung und Implementierung von psychologischen Modellen
  • Berechnung eines Matching-Scores zwischen den Ergebnissen vom Persönlichkeits-Test des Kandidaten und dem Unternehmensprofil auf Glassdoor
  • Aufsetzung eines Python-Dashboards zur Marktanalyse mit Geo Heatmaps, Zeitreihenanalyse und Machine Learning Vorhersagen
  • Optimierung der Response-Rate durch die Nutzung von KI-Modellen und Auswertung der Webhooks von gesendeten E-Mails


Resultate:

Anwendung des Matching-Modells zur automatisierten Identifizierung von passenden Vakanzen für Kandidaten mit der Prädiktion eines Matching-Scores zwischen 0 und 100 unter Berücksichtigung der Fähigkeiten, Persönlichkeit und Präferenzen des Kandidaten.

Scikit-learn Plotly Dash Jupyter Heroku R Shiny R Studio AWS S3 MongoDB Mongo Cloud Jira Atlassian Git Linux Python (Scikit-learn Selenium Plotly Dash) AWS S3 Jupyter Notebooks PyCharm
auf Anfrage
Düsseldorf
5 Monate
2021-02 - 2021-06

Einsatz von Data Science im Fußball

Python Scikit-learn Keras ...
Masterarbeit- Das Projektziel besteht in der Entwicklung von Ansätze zum Einsatz von Data Science im Fußball, um die eigene Mannschaftsleistung zu verbessern, eine möglichst genaue Gegneranalyse durchzuführen und neue Spieler oder Talente zu entdecken. Der genutzte Datensatz von StatsBomb enthält Event-Daten zu 879 Fußballspielen, welche als json-Dateien vorliegen und Aktionen wie Pässe, Schüsse, Zweikämpfe, Dribblings, Foulspiele oder Standardsituationen beschreiben


Vorgehen

  • Entwicklung eines Expected Goals Modell zur Prädiktion der Trefferwahrscheinlichkeit eines Torschusses im Fußball mithilfe von Machine Learning
  • Nutzung des Expected Goals Modell zum Scouting von besonders guten Torjägern, Torvorbereitern und Torhütern.
  • Analyse der Entstehung von Toren, indem gefährliche Spielfeldzonen für Torschüsse und Torvorlagen identifiziert sowie verschiedene Angriffsmuster und Standardsituationen ausgewertet wurden.
  • Evaluation der Genauigkeit und Effektivität des Passspiels einzelner Spieler.
  • Untersuchung von Passverbindungen und Passrichtungen, um Passnetzwerke zwischen den Spielfeldzonen und Spielern einer Mannschaft zu erkennen.
  • Statistische Ermittlung des Spielsystems von Mannschaften durch die Auswertung des Positionsspiels der einzelnen Spieler und die Ableitung eine realtaktische Aufstellung.
  • Erstellung von Spielerprofilen, welche zur Kaderzusammenstellung sowie zur Entwicklung eines passenden Spielsystems genutzt werden können.


Resultate:

Mithilfe der entwickelten Methoden kann das Angriffsspiel, Passspiel und Spielsystem der eigenen Mannschaft analysiert und optimiert werden. Zudem eignen sich diese Verfahren zur gezielten Gegneranalyse und zum Spielerscouting sowohl bei der Entdeckung von Talenten oder unterbewerteten Spielern als auch bei der passenden Zusammenstellung des Kaders.

Python Scikit-learn Keras TensorFlow Jupyter Notebooks R foci R Studio Plotly Dash
1 Jahr 4 Monate
2020-03 - 2021-06

E-Mail-Analyse mit NLP

Data Scientist Python Scikit-learn Statsmodels ...
Data Scientist

Zur Beurteilung einer möglichen Insolvenzverschleppung möchte ein Insolvenzverwalter aus dem E-Mail-Verkehr eines Unternehmens herausfinden, ab welchem Zeitpunkt sich eine Insolvenz abgezeichnet hat. Dazu sollen mehrere hundert Gigabyte an E-Mails im PST-Format von verschiedenen Angestellten aus dem Unternehmen analysiert werden.


Vorgehen:

  • Extraktion der Informationen aus den PST-Dateien in eine Tabelle mit dem Betreff, Inhalt, Sender, Empfängern, Anhängen sowie dem Verlauf zu jeder E-Mail und Abspeicherung in einer SQL-Datenbank
  • Bereinigung der Inhalte von E-Mails zur Anwendung von NLP-Techniken
  • Entwicklung eines ML-Modells zur Extraktion der Signatur vom Inhalt der E-Mails
  • Automatisierte Erkennung, in welcher Sprache die einzelnen E-Mails verfasst wurden 
  • Generierung von E-Mail-Flussdiagrammen und Chord-Diagrammen zur Darstellung der Kommunikationswege zwischen den Angestellten
  • Sentimentanalyse zur Auswertung der Stimmung innerhalb der Organisation im Zeitverlauf
  • Erstellung von Wordclouds zur Identifizierung von Schlüsselwörtern
  • Implementierung einer intelligenten Volltextsuche nach Wörtern und Synonymen
  • Topic Modeling zur Aufdeckung von Themen und Gruppierung von E-Mails in verschiedene Themengebiete
  • Entwicklung eines Klassifikationsmodells zur Detektion von rechtlich relevanten E-Mails


Resultate:

Durch die Analyse der E-Mails des Unternehmens konnte der Zeitpunkt bestimmt werden, ab welchem den Geschäftsführern intern klar war, dass eine Insolvenz höchstwahrscheinlich unvermeidbar ist. Als Beweismaterial konnten die relevanten E-Mails identifiziert werden

Python Scikit-learn Statsmodels Seaborn Jupyter SQL SSMS Hadoop Microsoft Power BI Microsoft Teams SharePoint Git Pypff Langdetect Graphviz Bokeh SQLAlchemy pyodbc NLTK spaCy Microsoft SQL Server Jupyter Notebooks
Anwaltskanzlei
Düsseldorf
3 Monate
2020-11 - 2021-01

Feature Selection Verfahren zur Preistreiberanalyse

Python NumPy Pandas ...

Seminararbeit - Ziel dieser Arbeit ist es einige Feature Selection Verfahren auf verschiedenen Datensätzen mit unterschiedlichen ML-Modellen zur Preistreiberanalyse zu evaluieren. Dabei werden sowohl suchbasierte als auch korrelationsbasierte Feature Selection Verfahren hinsichtlich der Reduzierung der Anzahl an Features und der erzielten Vorhersagegenauigkeit untersucht


Vorgehen:

Untersuchung von korrelationsbasierten und suchbasierten Feature Selection Verfahren

sowie Embedded-Methoden und Principal Component Analysis Implementierung verschiedener Feature Selection Methoden in Python Anwendung der Feature Selection Verfahren auf vier Datensätzen zur Preistreiberanalyse Entwicklung von ML-Modellen zur Prädiktion von Auto- und Immobilienpreisen Evaluation der Feature Selection Verfahren anhand der Ergebnisse der ML-Modelle


Resultate:

Die Wahl des Feature Selection Verfahrens ist abhängig vom Datensatz, ML-Modell und Projektziel, sodass es kein standardisiertes Verfahren zur Feature Selection gibt. Allerdings lässt sich aus den Projektergebnissen folgern, dass die suchbasierten Feature Selection Methoden jeweils sehr ähnliche Ergebnisse liefern. Die Feature Extraction durch PCA führt zur stärksten Dimensionsreduktion, aber auch zu schwächeren Vorhersagegenauigkeiten. Zudem ist die Wahl des Feature Selection Verfahrens umso wichtiger, je weniger Zeilen im Datensatz vorliegen und je höher die Modellkomplexität ist.

Python NumPy Pandas Scikit-learn Statsmodels SciPy Matplotlib Seaborn
10 Monate
2018-11 - 2019-08

Entwicklung einer Desktopanwendung zur Finanz- und Personalverwaltung

Mathematisch-technischer Softwareentwickler C# WPF Visual Studio ...
Mathematisch-technischer Softwareentwickler
  • Implementation des Backends und Frontends einer Desktopanwendung mit C# und WPF
  • Management der SQL-Datenbank
  • Migration der Daten aus einer SAP-Datenbank
C# WPF Visual Studio SQL SAP Git YouTrack
Cybernetics Lab IMA & IfU - RWTH Aachen
Aachen
2 Jahre 11 Monate
2016-09 - 2019-07

Entwicklung einer Webapp zur Fabrikplanung

Mathematisch-technischer Softwareentwickler Java Spring Hibernate ...
Mathematisch-technischer Softwareentwickler
Im Rahmen eines Forschungsprojekts soll eine Web-Applikation zur Fabrikplanung und

Planung eines Laserschneideprozesses entwickelt werden.


Vorgehen:

  • Implementation des Java-Backends mit Spring und Hibernate
  • Entwicklung intelligenter Graph-Algorithmen zur Prozessplanung
  • Management der SQL-Datenbank
  • Entwicklung und Optimierung der Datenmodelle
  • Evaluation verschiedener NoSQL-Datenbanken zur Performancesteigerung (zum Beispiel MongoDB und Neo4j)
  • Aufsetzung einer MongoDB, Migration der SQL-Datenbank und Anpassung des Quellcodes
  • Erstellung von CI/CD Pipelines mit automatisierten Unit Tests, Maven Build Prozessen und Deployments auf einem Linux-Server
  • Implementation und Anbindung eines Python-Backends für Deep Learning mit TensorFlow


Resultate:

Die Performance der Webapp konnte durch den Umstieg auf eine NoSQL-Datenbank und die Optimierung des Datenmodells deutlich verbessert werden. Zudem wurden komplexe  Algorithmen mit Graphenoperationen und Deep Learning Modelle zur Planung einer Fabrik und eines Laserschneideprozesses implementiert.

Java Spring Hibernate Postman SQL MySQL Workbench MongoDB Neo4j Python Tensorflow Git JUnit IntelliJ IDEA YouTrack
Cybernetics Lab IMA & IfU - RWTH Aachen
Aachen

Aus- und Weiterbildung

Aus- und Weiterbildung

5 Monate
2024-01 - 2024-05

Fabric Analytics Engineer Associate

Microsoft
Microsoft
4 Monate
2023-11 - 2024-02

Power BI Data Analyst Associate

Microsoft
Microsoft
5 Monate
2023-07 - 2023-11

Databricks Certified Data Engineer Associate

Databricks
Databricks
6 Monate
2023-02 - 2023-07

TensorFlow Developer Certificate

Google
Google
3 Monate
2022-12 - 2023-02

AWS Certified Cloud Practitioner

Amazon Web Services
Amazon Web Services
3 Monate
2022-11 - 2023-01

Azure Data Scientist Associate

Microsoft
Microsoft
4 Monate
2022-04 - 2022-07

Azure Data Engineer Associate

Microsoft
Microsoft
1 Jahr 11 Monate
2019-09 - 2021-07

Angwandte Mathematik und Informatik

Master of Science, FH Aachen
Master of Science
FH Aachen
  • Statistik
  • Machine Learning
  • Data Science


Masterarbeit: Einsatz von Data Science im Fussball, Note: 1,0

3 Jahre
2016-08 - 2019-07

Scientific Programming

Bachelor of Science, FH Aachen
Bachelor of Science
FH Aachen

Dualer Bachelor-Studiengang in Mathematik und Informatik mit einer Ausbildung zum Mathematisch-technischen Softwareentwickler

Zertifizierung zum DataScienceMATSE

Bachelorarbeit: Bewertung verschiedener Verfahren zur Automatisierung der Datenvorverarbeitung am Beispiel des Immobilienmarktes in Melbourne, Note: 1,3

3 Jahre
2016-08 - 2019-07

DataScienceMATSE

FH Aachen
FH Aachen
Abschluss von 3 Data Science Modulen und Verfassung einer Bachelorarbeit im Data Science Bereich

Position

Position

  • Data Scientist
  • AI Developer
  • Data Engineer
  • Cloud Architect

Kompetenzen

Kompetenzen

Top-Skills

Python Azure TensorFlow R SQL PySpark Scikit-learn MLflow Langchain FastAPI Airflow MongoDB Databricks MS Fabric Power BI Plotly Dash Streamlit Git Docker AWS Terraform OpenAI

Schwerpunkte

Azure
Experte
Databricks
Fortgeschritten
MS Fabric
Experte
AWS
Fortgeschritten
Power BI
Experte
  • Data Science: Entwicklung von KI-Modellen mit Machine & Deep Learning, NLP, LLMs, Computer Vision, Datenvisualisierung, Mustererkennung
  • Data Engineering: Architektur und Implementierung von Datenpipelines, Konzeption und Aufbau einer Cloud Infrastruktur
  • Data Analytics: Datenanalyse, Dashboard Erstellung, Webentwicklung

Programmiersprachen

Python
Experte
R
Experte
SQL
Experte
Java
Experte
PySpark
Experte
C#
Fortgeschritten
Python-Bibliotheken
NumPy, Pandas, Scikit-learn, TensorFlow, Keras, MLflow, Seaborn, Statsmodels, OpenAI, Langchain, FastAPI, Airflow, Streamlit, Plotly, Dash

Datenbanken

MySQL
Experte
Oracle
Fortgeschritten
MongoDB
Experte
Pinecone
Fortgeschritten
Azure Cosmos DB
Experte
Delta Lake
Experte

Branchen

Branchen

  • Automobil
  • Logistik
  • Medien
  • Personalvermittlung
  • Forschung

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.