Entwicklung eines Large Language Modells mit Q&A Webapp
LLM EntwicklerPythonOpenAILangChain...
LLM Entwickler
Training
eines Large Language Modells zur Zusammenfassung von individuellen
Textdokumenten und Steuertexten
Aufteilung
eines Textdokuments in Chunks, Erstellung von Embeddings, Abspeicherung in
einer Vektor-Datenbank und Nutzung des LLMs mit LangChain
Entwicklung
einer Webapp mit Streamlit, auf welcher Nutzer Textdokumente hochladen und
Fragen zum Inhalt des Dokuments formulieren können
Nutzung
des Large Language Modells zur Beantwortung von Fragen zu Textdokumenten
PythonOpenAILangChainPineconeChromaDBStreamlit
Goertz + Klingen + Tilg Steuerberater PartG mbB
Wegberg
1 Jahr 10 Monate
2022-08 - 2024-05
Konzipierung & Erstellung einer Cloud-Architektur
Cloud ArchitectAzure Cosmos DBAzure Data FactoryAzure Blob Storage...
Cloud Architect
Ein Softwarehersteller für Rundfunkanstalten benötigt zur Fehlerbehandlung die
Betriebsdaten der entsprechenden Software, welche in der Regel beim Kunden liegen. Die Entwicklung einer Cloud-Architektur soll den Datenzugriff jederzeit gewährleisten. Weitere Projektziele sind die Visualisierung und automatisierte Analyse der Daten, um eine frühzeitige Erkennung und effizientere Lösung von Fehlermeldungen zu ermöglichen.
Vorgehen
Durchführung mehrerer Data Assessment Workshops zur Analyse des Status Quo, zur
Festlegung der Anforderungen an die Cloud-Architektur und zur Konzipierung möglicher Ziel-Architekturen mit den jeweiligen Vor- und Nachteilen
Technische Umsetzung der ausgewählten Ziel-Architektur in Azure
Nutzung einer API zur Speicherung der bei den Kunden erzeugten Betriebsdaten im xmlFormat in einem Azure Storage Account
Entwicklung eines Datenmodells in Azure Cosmos DB und Verschiebung der Daten mit Azure Data Factory
Aufbereitung und Transformation der Daten mit Data flows in Azure Data Factory
Implementierung von Azure Functions zur automatisierten Erkennung und Behebung von Fehlern basierend auf den Betriebsdaten
Entwicklung eines Power BI Report zur Visualisierung und Analyse der Daten
Azure Cosmos DBAzure Data FactoryAzure Blob StorageAzure FunctionsAzure DevOpsAzure Data StudioTerraformDatabricksPySparkMongoDB CompassPythonPyMongoPower BIJira AtlassianConfluence
DAVID Systems GmbH
München
1 Jahr
2022-10 - 2023-09
Prädiktion der Bewerbungsanzahl auf Jobs mit ML
Data ScientistPythonScikit-learnKeras...
Data Scientist
Durch eine Auswertung der Job-Statistiken sollen die Einflussfaktoren auf die Bewerbungsanzahl eines Jobs auf der Plattform eines Job-Anbieters ermittelt werden. Auf Basis der Einflussfaktoren soll dann im zweiten Schritt ein Machine Learning Modell entwickelt werden, welches die Bewerbungsanzahl für neue Jobs vorhersagt.
Vorgehen:
Nach einer Exploration und Bereinigung der Job-Statistiken mit Python lieferte eine Korrelationsanalyse erste Erkenntnisse über die Einflussfaktoren auf die Bewerbungsanzahl von Jobs. Zudem wurden bestimmte Wörter im Job-Titel sowie saisonale und regionale Unterschiede analysiert. Die graphische Visualisierung der Einflussfaktoren und die Bereitstellung von interaktiven Notebooks mit einstellbaren Parametern zur Auswertung aktueller Datensätze ermöglicht dem Job-Anbieter eine regelmäßige Betrachtung und Evaluation der relevanten Einflüsse auf die Bewerbungsanzahl.
In der zweiten Phase des Projektes wurde ein Prädiktionsmodell entwickelt, welches die relevanten Einflussfaktoren als Input-Parameter nimmt und auf Basis dieser Angaben die Bewerbungsanzahl eines Jobs vorhersagt. Als Machine Learning Methoden wurden verschiedene Regressionsverfahren sowie Artificial Neural Networks evaluiert. Damit das Prädiktionsmodell regelmäßig mit aktualisierten Daten neu trainiert werden kann, wurde für jedes Machine Learning Verfahren eine automatisierte Hyperparameteroptimierung und Modellauswahl implementiert. Durch die Entwicklung einer REST-Schnittstelle kann das Prädiktionsmodell neu trainiert und zur Abfrage der prognostizierten Bewerbungsanzahl für eine Stellenausschreibung genutzt werden.
Resultate:
Mithilfe des Prädiktionsmodells kann der Job-Anbieter seinen Kunden bereits vor der Ausschreibung von Jobs auf seiner Plattform anzeigen, wie viele Bewerbungen für den jeweiligen Job zu erwarten sind. Zudem können gezielte Möglichkeiten zur Verbesserung der Performance von Jobs vorgeschlagen werden.
Das Ziel liegt in der Entwicklung eines KI-Modells mit Tensor Flow, das für ein Bild einer Blume prädiktiert, welche Blume auf dem Bild abgebildet ist. Der Datensatz zum Training des Modells enthält 3.670 Bilder von Rosen, Tulpen, Sonnenblumen, Gänseblümchen und Pusteblumen
Vorgehen:
Laden des Datensatzes aus TensorFlow Datasets
Formatierung der Bilder in eine einheitliche Größe sowie Erstellung eines Trainings- und Testdatensatzes mit Batches und Prefetching zur schnelleren Verarbeitung der Datensätze beim Training der Modelle
Bildung und Training eines Convolutional Neural Networks zur Klassifikation der Bilder
Implementierung von Data Augmentation zur Vermeidung von Overfitting
Erstellung eines Feature Extraction Modells mit einem EfficientNetB0 von TensorFlow Hub als Basis-Modell
Fine-Tuning des Feature Extraction Modells durch Training der Gewichte des BasisModells mit einer geringeren Lernrate und Early-Stopping
Erstellung einer Confusion-Matrix und Visualisierung der Vorhersagen auf dem Testsatz
Darstellung der Loss-Kurven von Modellen über mehrere Epochen
Generierung eines TensorBoards zur Auswertung der entwickelten Modelle
Resultate:
Das CNN-Modell erreichte eine Vorhersagegenauigkeit von 55,72% auf dem Testsatz. Da die Loss-Kurve auf ein Overfitting des Modells an den Trainingssatz hindeutet, wurden die Trainingsbilder durch Data Augmentation horizontal gespiegelt, rotiert oder gezoomt, um dem Modell beim Training eine größere Variation an Bildern bereitzustellen. Anschließend lag die Vorhersagegenauigkeit auf dem Testsatz bei 67,57%. Das Feature Extraction Modell erreichte nach fünf Epochen eine Vorhersagegenauigkeit von 93,46% auf dem Testsatz. Durch das Fine-Tuning kam das Modell dann auf eine Vorhersagegenauigkeit von 95,91% auf dem Testsatz.
Data ArchitectAzure SQL DBAzure Data FactoryAzure
Data Studio...
Data Architect
Ein Logistikunternehmen mit über 45 Standorten in Deutschland benötigt zur Harmonisierung der Datenquellen verschiedener Kunden und Standorte eine standardisierte Datenbank. Im Rahmen eines Data Assessments soll ein individuell zugeschnittenes Konzept für die Datenarchitektur entwickelt und anschließend implementiert werden.
Vorgehen
Im ersten Schritt des Data Assessments wurde der Ist-Zustand mit der bestehenden Datenarchitektur und den damit verbundenen Problemen untersucht. Auf Basis dieser Informationen und unter Abwägung der Vor- und Nachteile der in Frage kommenden Datenarchitekturen, wurde eine Zielarchitektur entwickelt, welche den technischen, strategischen und finanziellen Anforderungen entsprach. Anschließend folgte die technische Umsetzung der Zielarchitektur in der Azure Umgebung.
Dabei wurden die Daten aus den lokalen Oracle-Datenbanken mithilfe von Azure Data Factory Pipelines in eine Azure SQL Datenbank geladen. Innerhalb der Data Factory wurde auch ein Mapping zwischen den Tabellen aus den verschiedenen Datenbanken und die Berechnung der KPIs durchgeführt. Zur Visualisierung der Daten wurde ein Power BI Report entwickelt und an die Azure SQL Datenbank angebunden.
Azure SQL DBAzure Data FactoryAzure
Data StudioPowerPointPower BIDataverseSharePoint
LGI Logistics Group International GmbH
München
6 Monate
2022-07 - 2022-12
KI-Ähnlichkeitsanalyse von Produkten im Einkauf
KI EntwicklerScikit-learnKerasTensorflow...
KI Entwickler
Die Facheinkäufer eines Automobilherstellers sollen bei der Identifikation von ähnlichen Sachnummern im Einkauf durch den Einsatz von künstlicher Intelligenz unterstützt werden. Das Ziel der KI-Ähnlichkeitsanalyse besteht darin, Cluster von Produkten mit einer hohen Ähnlichkeit zu bilden und die Preisunterschiede innerhalb eines Clusters zur Ermittlung von Einsparpotenzialen zu nutzen. Als Datenbasis dienen die Produktbezeichnung und Bestellhistorie sowie kategorische und geometrische Parameter, die eine Vergleichbarkeit der Sachnummern ermöglichen.
Vorgehen:
Zur Potenzialermittlung wird im ersten Schritt ein Clustering mit K-Means auf den relevanten Parametern durchgeführt. Anschließend wird mithilfe eines Modells zum paarweisen Vergleich von Sachnummern ein Re-Clustering durchgeführt. Dazu prädiktiert ein neuronales Netz für jedes Paar an Sachnummern innerhalb eines Clusters einen Ähnlichkeitswert. Dann werden die transitiven Kombinationen an Sachnummern in einem Cluster bestimmt, bei denen der Ähnlichkeitswert über einem festgelegten Schwellwert liegt. Dadurch wird jedes Cluster so lange in kleinere Cluster aufgeteilt, bis alle Sachnummern in jedem Cluster die gewünschte Ähnlichkeit aufweisen. Im letzten Schritt wird für jedes Cluster ein Referenzpreis als gewichteter Mittelwert der Preise aller Sachnummern im Cluster berechnet und das Potenzial ermittelt. Das Potenzial leitet sich aus der Summe der Einsparungspotenziale der Sachnummern im Cluster ab, deren Preis über dem Referenzpreis liegt. Abschließend wird ein Report mit den Ergebnissen der Preisvarianzanalyse generiert. Das Deployment des Modells wurde in der AWS-Umgebung abgeschlossen und bietet eine Schnittstelle zur Anwendung des Modells auf aktuellen Daten sowie zur Optimierung des neuronalen Netzes mit Nutzerfeedback.
Resultate:
Mithilfe des KI-Modells zur Identifizierung von ähnlichen Sachnummern kann der Automobilhersteller über 100 Mio. ? pro Jahr im Einkauf einsparen.
Ein Nutzfahrzeughersteller möchte einen Teil seiner LKW-Flotten elektrifizieren. Daher soll eine Analyse der realen Fahrzeugdaten Aufschluss darüber geben, für welche Routen und Aufträge die Reichweite eines Elektrofahrzeugs ausreicht. Zudem sollen Algorithmen zur Ermittlung der optimalen Platzierung von Ladestationen basierend auf dem Fahrverhalten der elektrifizierbaren LKWs dienen.
Vorgehen:
Entwicklung von Algorithmen zur Identifizierung der Fahrtschichten und Standzeiten von LKWs anhand von Tracking-Daten
Untersuchung der Points of Interest in der Umgebung von Standorten der LKWs mithilfe der Here Maps API
Ermittlung der optimalen Anzahl und Orte für Ladestationen von Elektroautos
Implementierung von Algorithmen zur Bestimmung der elektrifizierbaren LKWs auf Basis der fahrspezifischen Daten
Dokumentation der Algorithmen in Confluence
Entwicklung eines interaktiven Dashboards als Webapplikation mit Plotly Dash zur Analyse des Fahrverhaltens und des Elektrifizierungspotenzials
Resultate:
Konzeption und technische Umsetzung eines auf realen Fahrzeugdaten basierenden Dashboards, welches individualisierte E-Potenziale von LKW-Flotten anhand des tatsächlichen Nutzungsverhaltens aufdeckt
PythonHere Maps APIPlotlyDashPyInstallerJupyterVisual Studio CodeJira AtlassianConfluenceGit
MAN Truck & Bus SE
München
8 Monate
2021-07 - 2022-02
Personalvermittlung mit KI
Data ScientistScikit-learnPlotlyDash...
Data Scientist
Ziel des Projekts bestand in der Entwicklung eines Systems zur Personalvermittlung, welches mithilfe von künstlicher Intelligenz und psychologischen Modellen möglichst passende Vakanzen für einen Kandidaten findet. Durch den Einsatz dieses intelligenten MatchingSystems möchte ein Startup zur Personalvermittlungs- die Arbeitszufriedenheit seiner Kandidaten und den Einstellungserfolg der Unternehmen maximieren.
Vorgehen:
Datenimport und Aufbereitung von Stellenausschreibungen
Implementation von Web-Crawlern für Kandidatenprofile auf Linkedin und Xing sowie Unternehmensprofile auf Glassdoor
Entwicklung von Machine Learning Modellen zur automatisierten Identifikation von passenden Vakanzen für einen Kandidaten mit einem Skill-Matching-Score basierend auf den Fähigkeiten des Kandidaten und den Anforderungen in der Stellenbeschreibung
Erstellung einer R-Shiny App zur statistischen Auswertung von psychologischen Daten
Mustererkennung und Implementierung von psychologischen Modellen
Berechnung eines Matching-Scores zwischen den Ergebnissen vom Persönlichkeits-Test des Kandidaten und dem Unternehmensprofil auf Glassdoor
Aufsetzung eines Python-Dashboards zur Marktanalyse mit Geo Heatmaps, Zeitreihenanalyse und Machine Learning Vorhersagen
Optimierung der Response-Rate durch die Nutzung von KI-Modellen und Auswertung der Webhooks von gesendeten E-Mails
Resultate:
Anwendung des Matching-Modells zur automatisierten Identifizierung von passenden Vakanzen für Kandidaten mit der Prädiktion eines Matching-Scores zwischen 0 und 100 unter Berücksichtigung der Fähigkeiten, Persönlichkeit und Präferenzen des Kandidaten.
Masterarbeit- Das Projektziel besteht in der Entwicklung von Ansätze zum Einsatz von Data Science im Fußball, um die eigene Mannschaftsleistung zu verbessern, eine möglichst genaue Gegneranalyse durchzuführen und neue Spieler oder Talente zu entdecken. Der genutzte Datensatz von StatsBomb enthält Event-Daten zu 879 Fußballspielen, welche als json-Dateien vorliegen und Aktionen wie Pässe, Schüsse, Zweikämpfe, Dribblings, Foulspiele oder Standardsituationen beschreiben
Vorgehen
Entwicklung eines Expected Goals Modell zur Prädiktion der Trefferwahrscheinlichkeit eines Torschusses im Fußball mithilfe von Machine Learning
Nutzung des Expected Goals Modell zum Scouting von besonders guten Torjägern, Torvorbereitern und Torhütern.
Analyse der Entstehung von Toren, indem gefährliche Spielfeldzonen für Torschüsse und Torvorlagen identifiziert sowie verschiedene Angriffsmuster und Standardsituationen ausgewertet wurden.
Evaluation der Genauigkeit und Effektivität des Passspiels einzelner Spieler.
Untersuchung von Passverbindungen und Passrichtungen, um Passnetzwerke zwischen den Spielfeldzonen und Spielern einer Mannschaft zu erkennen.
Statistische Ermittlung des Spielsystems von Mannschaften durch die Auswertung des Positionsspiels der einzelnen Spieler und die Ableitung eine realtaktische Aufstellung.
Erstellung von Spielerprofilen, welche zur Kaderzusammenstellung sowie zur Entwicklung eines passenden Spielsystems genutzt werden können.
Resultate:
Mithilfe der entwickelten Methoden kann das Angriffsspiel, Passspiel und Spielsystem der eigenen Mannschaft analysiert und optimiert werden. Zudem eignen sich diese Verfahren zur gezielten Gegneranalyse und zum Spielerscouting sowohl bei der Entdeckung von Talenten oder unterbewerteten Spielern als auch bei der passenden Zusammenstellung des Kaders.
Zur Beurteilung einer möglichen Insolvenzverschleppung möchte ein Insolvenzverwalter aus dem E-Mail-Verkehr eines Unternehmens herausfinden, ab welchem Zeitpunkt sich eine Insolvenz abgezeichnet hat. Dazu sollen mehrere hundert Gigabyte an E-Mails im PST-Format von verschiedenen Angestellten aus dem Unternehmen analysiert werden.
Vorgehen:
Extraktion der Informationen aus den PST-Dateien in eine Tabelle mit dem Betreff, Inhalt, Sender, Empfängern, Anhängen sowie dem Verlauf zu jeder E-Mail und Abspeicherung in einer SQL-Datenbank
Bereinigung der Inhalte von E-Mails zur Anwendung von NLP-Techniken
Entwicklung eines ML-Modells zur Extraktion der Signatur vom Inhalt der E-Mails
Automatisierte Erkennung, in welcher Sprache die einzelnen E-Mails verfasst wurden
Generierung von E-Mail-Flussdiagrammen und Chord-Diagrammen zur Darstellung der Kommunikationswege zwischen den Angestellten
Sentimentanalyse zur Auswertung der Stimmung innerhalb der Organisation im Zeitverlauf
Erstellung von Wordclouds zur Identifizierung von Schlüsselwörtern
Implementierung einer intelligenten Volltextsuche nach Wörtern und Synonymen
Topic Modeling zur Aufdeckung von Themen und Gruppierung von E-Mails in verschiedene Themengebiete
Entwicklung eines Klassifikationsmodells zur Detektion von rechtlich relevanten E-Mails
Resultate:
Durch die Analyse der E-Mails des Unternehmens konnte der Zeitpunkt bestimmt werden, ab welchem den Geschäftsführern intern klar war, dass eine Insolvenz höchstwahrscheinlich unvermeidbar ist. Als Beweismaterial konnten die relevanten E-Mails identifiziert werden
PythonScikit-learnStatsmodelsSeabornJupyterSQLSSMSHadoopMicrosoft Power BIMicrosoft TeamsSharePointGitPypffLangdetectGraphvizBokehSQLAlchemypyodbcNLTKspaCyMicrosoft SQL ServerJupyter Notebooks
Anwaltskanzlei
Düsseldorf
3 Monate
2020-11 - 2021-01
Feature Selection Verfahren zur Preistreiberanalyse
PythonNumPyPandas...
Seminararbeit - Ziel dieser Arbeit ist es einige Feature Selection Verfahren auf verschiedenen Datensätzen mit unterschiedlichen ML-Modellen zur Preistreiberanalyse zu evaluieren. Dabei werden sowohl suchbasierte als auch korrelationsbasierte Feature Selection Verfahren hinsichtlich der Reduzierung der Anzahl an Features und der erzielten Vorhersagegenauigkeit untersucht
Vorgehen:
Untersuchung von korrelationsbasierten und suchbasierten Feature Selection Verfahren
sowie Embedded-Methoden und Principal Component Analysis Implementierung verschiedener Feature Selection Methoden in Python Anwendung der Feature Selection Verfahren auf vier Datensätzen zur Preistreiberanalyse Entwicklung von ML-Modellen zur Prädiktion von Auto- und Immobilienpreisen Evaluation der Feature Selection Verfahren anhand der Ergebnisse der ML-Modelle
Resultate:
Die Wahl des Feature Selection Verfahrens ist abhängig vom Datensatz, ML-Modell und Projektziel, sodass es kein standardisiertes Verfahren zur Feature Selection gibt. Allerdings lässt sich aus den Projektergebnissen folgern, dass die suchbasierten Feature Selection Methoden jeweils sehr ähnliche Ergebnisse liefern. Die Feature Extraction durch PCA führt zur stärksten Dimensionsreduktion, aber auch zu schwächeren Vorhersagegenauigkeiten. Zudem ist die Wahl des Feature Selection Verfahrens umso wichtiger, je weniger Zeilen im Datensatz vorliegen und je höher die Modellkomplexität ist.
Im Rahmen eines Forschungsprojekts soll eine Web-Applikation zur Fabrikplanung und
Planung eines Laserschneideprozesses entwickelt werden.
Vorgehen:
Implementation des Java-Backends mit Spring und Hibernate
Entwicklung intelligenter Graph-Algorithmen zur Prozessplanung
Management der SQL-Datenbank
Entwicklung und Optimierung der Datenmodelle
Evaluation verschiedener NoSQL-Datenbanken zur Performancesteigerung (zum Beispiel MongoDB und Neo4j)
Aufsetzung einer MongoDB, Migration der SQL-Datenbank und Anpassung des Quellcodes
Erstellung von CI/CD Pipelines mit automatisierten Unit Tests, Maven Build Prozessen und Deployments auf einem Linux-Server
Implementation und Anbindung eines Python-Backends für Deep Learning mit TensorFlow
Resultate:
Die Performance der Webapp konnte durch den Umstieg auf eine NoSQL-Datenbank und die Optimierung des Datenmodells deutlich verbessert werden. Zudem wurden komplexe Algorithmen mit Graphenoperationen und Deep Learning Modelle zur Planung einer Fabrik und eines Laserschneideprozesses implementiert.
Masterarbeit: Einsatz von Data Science im Fussball, Note: 1,0
3 Jahre
2016-08 - 2019-07
Scientific Programming
Bachelor of Science, FH Aachen
Bachelor of Science
FH Aachen
Dualer Bachelor-Studiengang in Mathematik und Informatik mit einer Ausbildung zum Mathematisch-technischen Softwareentwickler
Zertifizierung zum DataScienceMATSE
Bachelorarbeit: Bewertung verschiedener Verfahren zur Automatisierung der Datenvorverarbeitung am Beispiel des Immobilienmarktes in Melbourne, Note: 1,3
3 Jahre
2016-08 - 2019-07
DataScienceMATSE
FH Aachen
FH Aachen
Abschluss von 3 Data Science Modulen und Verfassung einer Bachelorarbeit im Data Science Bereich
Entwicklung eines Large Language Modells mit Q&A Webapp
LLM EntwicklerPythonOpenAILangChain...
LLM Entwickler
Training
eines Large Language Modells zur Zusammenfassung von individuellen
Textdokumenten und Steuertexten
Aufteilung
eines Textdokuments in Chunks, Erstellung von Embeddings, Abspeicherung in
einer Vektor-Datenbank und Nutzung des LLMs mit LangChain
Entwicklung
einer Webapp mit Streamlit, auf welcher Nutzer Textdokumente hochladen und
Fragen zum Inhalt des Dokuments formulieren können
Nutzung
des Large Language Modells zur Beantwortung von Fragen zu Textdokumenten
PythonOpenAILangChainPineconeChromaDBStreamlit
Goertz + Klingen + Tilg Steuerberater PartG mbB
Wegberg
1 Jahr 10 Monate
2022-08 - 2024-05
Konzipierung & Erstellung einer Cloud-Architektur
Cloud ArchitectAzure Cosmos DBAzure Data FactoryAzure Blob Storage...
Cloud Architect
Ein Softwarehersteller für Rundfunkanstalten benötigt zur Fehlerbehandlung die
Betriebsdaten der entsprechenden Software, welche in der Regel beim Kunden liegen. Die Entwicklung einer Cloud-Architektur soll den Datenzugriff jederzeit gewährleisten. Weitere Projektziele sind die Visualisierung und automatisierte Analyse der Daten, um eine frühzeitige Erkennung und effizientere Lösung von Fehlermeldungen zu ermöglichen.
Vorgehen
Durchführung mehrerer Data Assessment Workshops zur Analyse des Status Quo, zur
Festlegung der Anforderungen an die Cloud-Architektur und zur Konzipierung möglicher Ziel-Architekturen mit den jeweiligen Vor- und Nachteilen
Technische Umsetzung der ausgewählten Ziel-Architektur in Azure
Nutzung einer API zur Speicherung der bei den Kunden erzeugten Betriebsdaten im xmlFormat in einem Azure Storage Account
Entwicklung eines Datenmodells in Azure Cosmos DB und Verschiebung der Daten mit Azure Data Factory
Aufbereitung und Transformation der Daten mit Data flows in Azure Data Factory
Implementierung von Azure Functions zur automatisierten Erkennung und Behebung von Fehlern basierend auf den Betriebsdaten
Entwicklung eines Power BI Report zur Visualisierung und Analyse der Daten
Azure Cosmos DBAzure Data FactoryAzure Blob StorageAzure FunctionsAzure DevOpsAzure Data StudioTerraformDatabricksPySparkMongoDB CompassPythonPyMongoPower BIJira AtlassianConfluence
DAVID Systems GmbH
München
1 Jahr
2022-10 - 2023-09
Prädiktion der Bewerbungsanzahl auf Jobs mit ML
Data ScientistPythonScikit-learnKeras...
Data Scientist
Durch eine Auswertung der Job-Statistiken sollen die Einflussfaktoren auf die Bewerbungsanzahl eines Jobs auf der Plattform eines Job-Anbieters ermittelt werden. Auf Basis der Einflussfaktoren soll dann im zweiten Schritt ein Machine Learning Modell entwickelt werden, welches die Bewerbungsanzahl für neue Jobs vorhersagt.
Vorgehen:
Nach einer Exploration und Bereinigung der Job-Statistiken mit Python lieferte eine Korrelationsanalyse erste Erkenntnisse über die Einflussfaktoren auf die Bewerbungsanzahl von Jobs. Zudem wurden bestimmte Wörter im Job-Titel sowie saisonale und regionale Unterschiede analysiert. Die graphische Visualisierung der Einflussfaktoren und die Bereitstellung von interaktiven Notebooks mit einstellbaren Parametern zur Auswertung aktueller Datensätze ermöglicht dem Job-Anbieter eine regelmäßige Betrachtung und Evaluation der relevanten Einflüsse auf die Bewerbungsanzahl.
In der zweiten Phase des Projektes wurde ein Prädiktionsmodell entwickelt, welches die relevanten Einflussfaktoren als Input-Parameter nimmt und auf Basis dieser Angaben die Bewerbungsanzahl eines Jobs vorhersagt. Als Machine Learning Methoden wurden verschiedene Regressionsverfahren sowie Artificial Neural Networks evaluiert. Damit das Prädiktionsmodell regelmäßig mit aktualisierten Daten neu trainiert werden kann, wurde für jedes Machine Learning Verfahren eine automatisierte Hyperparameteroptimierung und Modellauswahl implementiert. Durch die Entwicklung einer REST-Schnittstelle kann das Prädiktionsmodell neu trainiert und zur Abfrage der prognostizierten Bewerbungsanzahl für eine Stellenausschreibung genutzt werden.
Resultate:
Mithilfe des Prädiktionsmodells kann der Job-Anbieter seinen Kunden bereits vor der Ausschreibung von Jobs auf seiner Plattform anzeigen, wie viele Bewerbungen für den jeweiligen Job zu erwarten sind. Zudem können gezielte Möglichkeiten zur Verbesserung der Performance von Jobs vorgeschlagen werden.
Das Ziel liegt in der Entwicklung eines KI-Modells mit Tensor Flow, das für ein Bild einer Blume prädiktiert, welche Blume auf dem Bild abgebildet ist. Der Datensatz zum Training des Modells enthält 3.670 Bilder von Rosen, Tulpen, Sonnenblumen, Gänseblümchen und Pusteblumen
Vorgehen:
Laden des Datensatzes aus TensorFlow Datasets
Formatierung der Bilder in eine einheitliche Größe sowie Erstellung eines Trainings- und Testdatensatzes mit Batches und Prefetching zur schnelleren Verarbeitung der Datensätze beim Training der Modelle
Bildung und Training eines Convolutional Neural Networks zur Klassifikation der Bilder
Implementierung von Data Augmentation zur Vermeidung von Overfitting
Erstellung eines Feature Extraction Modells mit einem EfficientNetB0 von TensorFlow Hub als Basis-Modell
Fine-Tuning des Feature Extraction Modells durch Training der Gewichte des BasisModells mit einer geringeren Lernrate und Early-Stopping
Erstellung einer Confusion-Matrix und Visualisierung der Vorhersagen auf dem Testsatz
Darstellung der Loss-Kurven von Modellen über mehrere Epochen
Generierung eines TensorBoards zur Auswertung der entwickelten Modelle
Resultate:
Das CNN-Modell erreichte eine Vorhersagegenauigkeit von 55,72% auf dem Testsatz. Da die Loss-Kurve auf ein Overfitting des Modells an den Trainingssatz hindeutet, wurden die Trainingsbilder durch Data Augmentation horizontal gespiegelt, rotiert oder gezoomt, um dem Modell beim Training eine größere Variation an Bildern bereitzustellen. Anschließend lag die Vorhersagegenauigkeit auf dem Testsatz bei 67,57%. Das Feature Extraction Modell erreichte nach fünf Epochen eine Vorhersagegenauigkeit von 93,46% auf dem Testsatz. Durch das Fine-Tuning kam das Modell dann auf eine Vorhersagegenauigkeit von 95,91% auf dem Testsatz.
Data ArchitectAzure SQL DBAzure Data FactoryAzure
Data Studio...
Data Architect
Ein Logistikunternehmen mit über 45 Standorten in Deutschland benötigt zur Harmonisierung der Datenquellen verschiedener Kunden und Standorte eine standardisierte Datenbank. Im Rahmen eines Data Assessments soll ein individuell zugeschnittenes Konzept für die Datenarchitektur entwickelt und anschließend implementiert werden.
Vorgehen
Im ersten Schritt des Data Assessments wurde der Ist-Zustand mit der bestehenden Datenarchitektur und den damit verbundenen Problemen untersucht. Auf Basis dieser Informationen und unter Abwägung der Vor- und Nachteile der in Frage kommenden Datenarchitekturen, wurde eine Zielarchitektur entwickelt, welche den technischen, strategischen und finanziellen Anforderungen entsprach. Anschließend folgte die technische Umsetzung der Zielarchitektur in der Azure Umgebung.
Dabei wurden die Daten aus den lokalen Oracle-Datenbanken mithilfe von Azure Data Factory Pipelines in eine Azure SQL Datenbank geladen. Innerhalb der Data Factory wurde auch ein Mapping zwischen den Tabellen aus den verschiedenen Datenbanken und die Berechnung der KPIs durchgeführt. Zur Visualisierung der Daten wurde ein Power BI Report entwickelt und an die Azure SQL Datenbank angebunden.
Azure SQL DBAzure Data FactoryAzure
Data StudioPowerPointPower BIDataverseSharePoint
LGI Logistics Group International GmbH
München
6 Monate
2022-07 - 2022-12
KI-Ähnlichkeitsanalyse von Produkten im Einkauf
KI EntwicklerScikit-learnKerasTensorflow...
KI Entwickler
Die Facheinkäufer eines Automobilherstellers sollen bei der Identifikation von ähnlichen Sachnummern im Einkauf durch den Einsatz von künstlicher Intelligenz unterstützt werden. Das Ziel der KI-Ähnlichkeitsanalyse besteht darin, Cluster von Produkten mit einer hohen Ähnlichkeit zu bilden und die Preisunterschiede innerhalb eines Clusters zur Ermittlung von Einsparpotenzialen zu nutzen. Als Datenbasis dienen die Produktbezeichnung und Bestellhistorie sowie kategorische und geometrische Parameter, die eine Vergleichbarkeit der Sachnummern ermöglichen.
Vorgehen:
Zur Potenzialermittlung wird im ersten Schritt ein Clustering mit K-Means auf den relevanten Parametern durchgeführt. Anschließend wird mithilfe eines Modells zum paarweisen Vergleich von Sachnummern ein Re-Clustering durchgeführt. Dazu prädiktiert ein neuronales Netz für jedes Paar an Sachnummern innerhalb eines Clusters einen Ähnlichkeitswert. Dann werden die transitiven Kombinationen an Sachnummern in einem Cluster bestimmt, bei denen der Ähnlichkeitswert über einem festgelegten Schwellwert liegt. Dadurch wird jedes Cluster so lange in kleinere Cluster aufgeteilt, bis alle Sachnummern in jedem Cluster die gewünschte Ähnlichkeit aufweisen. Im letzten Schritt wird für jedes Cluster ein Referenzpreis als gewichteter Mittelwert der Preise aller Sachnummern im Cluster berechnet und das Potenzial ermittelt. Das Potenzial leitet sich aus der Summe der Einsparungspotenziale der Sachnummern im Cluster ab, deren Preis über dem Referenzpreis liegt. Abschließend wird ein Report mit den Ergebnissen der Preisvarianzanalyse generiert. Das Deployment des Modells wurde in der AWS-Umgebung abgeschlossen und bietet eine Schnittstelle zur Anwendung des Modells auf aktuellen Daten sowie zur Optimierung des neuronalen Netzes mit Nutzerfeedback.
Resultate:
Mithilfe des KI-Modells zur Identifizierung von ähnlichen Sachnummern kann der Automobilhersteller über 100 Mio. ? pro Jahr im Einkauf einsparen.
Ein Nutzfahrzeughersteller möchte einen Teil seiner LKW-Flotten elektrifizieren. Daher soll eine Analyse der realen Fahrzeugdaten Aufschluss darüber geben, für welche Routen und Aufträge die Reichweite eines Elektrofahrzeugs ausreicht. Zudem sollen Algorithmen zur Ermittlung der optimalen Platzierung von Ladestationen basierend auf dem Fahrverhalten der elektrifizierbaren LKWs dienen.
Vorgehen:
Entwicklung von Algorithmen zur Identifizierung der Fahrtschichten und Standzeiten von LKWs anhand von Tracking-Daten
Untersuchung der Points of Interest in der Umgebung von Standorten der LKWs mithilfe der Here Maps API
Ermittlung der optimalen Anzahl und Orte für Ladestationen von Elektroautos
Implementierung von Algorithmen zur Bestimmung der elektrifizierbaren LKWs auf Basis der fahrspezifischen Daten
Dokumentation der Algorithmen in Confluence
Entwicklung eines interaktiven Dashboards als Webapplikation mit Plotly Dash zur Analyse des Fahrverhaltens und des Elektrifizierungspotenzials
Resultate:
Konzeption und technische Umsetzung eines auf realen Fahrzeugdaten basierenden Dashboards, welches individualisierte E-Potenziale von LKW-Flotten anhand des tatsächlichen Nutzungsverhaltens aufdeckt
PythonHere Maps APIPlotlyDashPyInstallerJupyterVisual Studio CodeJira AtlassianConfluenceGit
MAN Truck & Bus SE
München
8 Monate
2021-07 - 2022-02
Personalvermittlung mit KI
Data ScientistScikit-learnPlotlyDash...
Data Scientist
Ziel des Projekts bestand in der Entwicklung eines Systems zur Personalvermittlung, welches mithilfe von künstlicher Intelligenz und psychologischen Modellen möglichst passende Vakanzen für einen Kandidaten findet. Durch den Einsatz dieses intelligenten MatchingSystems möchte ein Startup zur Personalvermittlungs- die Arbeitszufriedenheit seiner Kandidaten und den Einstellungserfolg der Unternehmen maximieren.
Vorgehen:
Datenimport und Aufbereitung von Stellenausschreibungen
Implementation von Web-Crawlern für Kandidatenprofile auf Linkedin und Xing sowie Unternehmensprofile auf Glassdoor
Entwicklung von Machine Learning Modellen zur automatisierten Identifikation von passenden Vakanzen für einen Kandidaten mit einem Skill-Matching-Score basierend auf den Fähigkeiten des Kandidaten und den Anforderungen in der Stellenbeschreibung
Erstellung einer R-Shiny App zur statistischen Auswertung von psychologischen Daten
Mustererkennung und Implementierung von psychologischen Modellen
Berechnung eines Matching-Scores zwischen den Ergebnissen vom Persönlichkeits-Test des Kandidaten und dem Unternehmensprofil auf Glassdoor
Aufsetzung eines Python-Dashboards zur Marktanalyse mit Geo Heatmaps, Zeitreihenanalyse und Machine Learning Vorhersagen
Optimierung der Response-Rate durch die Nutzung von KI-Modellen und Auswertung der Webhooks von gesendeten E-Mails
Resultate:
Anwendung des Matching-Modells zur automatisierten Identifizierung von passenden Vakanzen für Kandidaten mit der Prädiktion eines Matching-Scores zwischen 0 und 100 unter Berücksichtigung der Fähigkeiten, Persönlichkeit und Präferenzen des Kandidaten.
Masterarbeit- Das Projektziel besteht in der Entwicklung von Ansätze zum Einsatz von Data Science im Fußball, um die eigene Mannschaftsleistung zu verbessern, eine möglichst genaue Gegneranalyse durchzuführen und neue Spieler oder Talente zu entdecken. Der genutzte Datensatz von StatsBomb enthält Event-Daten zu 879 Fußballspielen, welche als json-Dateien vorliegen und Aktionen wie Pässe, Schüsse, Zweikämpfe, Dribblings, Foulspiele oder Standardsituationen beschreiben
Vorgehen
Entwicklung eines Expected Goals Modell zur Prädiktion der Trefferwahrscheinlichkeit eines Torschusses im Fußball mithilfe von Machine Learning
Nutzung des Expected Goals Modell zum Scouting von besonders guten Torjägern, Torvorbereitern und Torhütern.
Analyse der Entstehung von Toren, indem gefährliche Spielfeldzonen für Torschüsse und Torvorlagen identifiziert sowie verschiedene Angriffsmuster und Standardsituationen ausgewertet wurden.
Evaluation der Genauigkeit und Effektivität des Passspiels einzelner Spieler.
Untersuchung von Passverbindungen und Passrichtungen, um Passnetzwerke zwischen den Spielfeldzonen und Spielern einer Mannschaft zu erkennen.
Statistische Ermittlung des Spielsystems von Mannschaften durch die Auswertung des Positionsspiels der einzelnen Spieler und die Ableitung eine realtaktische Aufstellung.
Erstellung von Spielerprofilen, welche zur Kaderzusammenstellung sowie zur Entwicklung eines passenden Spielsystems genutzt werden können.
Resultate:
Mithilfe der entwickelten Methoden kann das Angriffsspiel, Passspiel und Spielsystem der eigenen Mannschaft analysiert und optimiert werden. Zudem eignen sich diese Verfahren zur gezielten Gegneranalyse und zum Spielerscouting sowohl bei der Entdeckung von Talenten oder unterbewerteten Spielern als auch bei der passenden Zusammenstellung des Kaders.
Zur Beurteilung einer möglichen Insolvenzverschleppung möchte ein Insolvenzverwalter aus dem E-Mail-Verkehr eines Unternehmens herausfinden, ab welchem Zeitpunkt sich eine Insolvenz abgezeichnet hat. Dazu sollen mehrere hundert Gigabyte an E-Mails im PST-Format von verschiedenen Angestellten aus dem Unternehmen analysiert werden.
Vorgehen:
Extraktion der Informationen aus den PST-Dateien in eine Tabelle mit dem Betreff, Inhalt, Sender, Empfängern, Anhängen sowie dem Verlauf zu jeder E-Mail und Abspeicherung in einer SQL-Datenbank
Bereinigung der Inhalte von E-Mails zur Anwendung von NLP-Techniken
Entwicklung eines ML-Modells zur Extraktion der Signatur vom Inhalt der E-Mails
Automatisierte Erkennung, in welcher Sprache die einzelnen E-Mails verfasst wurden
Generierung von E-Mail-Flussdiagrammen und Chord-Diagrammen zur Darstellung der Kommunikationswege zwischen den Angestellten
Sentimentanalyse zur Auswertung der Stimmung innerhalb der Organisation im Zeitverlauf
Erstellung von Wordclouds zur Identifizierung von Schlüsselwörtern
Implementierung einer intelligenten Volltextsuche nach Wörtern und Synonymen
Topic Modeling zur Aufdeckung von Themen und Gruppierung von E-Mails in verschiedene Themengebiete
Entwicklung eines Klassifikationsmodells zur Detektion von rechtlich relevanten E-Mails
Resultate:
Durch die Analyse der E-Mails des Unternehmens konnte der Zeitpunkt bestimmt werden, ab welchem den Geschäftsführern intern klar war, dass eine Insolvenz höchstwahrscheinlich unvermeidbar ist. Als Beweismaterial konnten die relevanten E-Mails identifiziert werden
PythonScikit-learnStatsmodelsSeabornJupyterSQLSSMSHadoopMicrosoft Power BIMicrosoft TeamsSharePointGitPypffLangdetectGraphvizBokehSQLAlchemypyodbcNLTKspaCyMicrosoft SQL ServerJupyter Notebooks
Anwaltskanzlei
Düsseldorf
3 Monate
2020-11 - 2021-01
Feature Selection Verfahren zur Preistreiberanalyse
PythonNumPyPandas...
Seminararbeit - Ziel dieser Arbeit ist es einige Feature Selection Verfahren auf verschiedenen Datensätzen mit unterschiedlichen ML-Modellen zur Preistreiberanalyse zu evaluieren. Dabei werden sowohl suchbasierte als auch korrelationsbasierte Feature Selection Verfahren hinsichtlich der Reduzierung der Anzahl an Features und der erzielten Vorhersagegenauigkeit untersucht
Vorgehen:
Untersuchung von korrelationsbasierten und suchbasierten Feature Selection Verfahren
sowie Embedded-Methoden und Principal Component Analysis Implementierung verschiedener Feature Selection Methoden in Python Anwendung der Feature Selection Verfahren auf vier Datensätzen zur Preistreiberanalyse Entwicklung von ML-Modellen zur Prädiktion von Auto- und Immobilienpreisen Evaluation der Feature Selection Verfahren anhand der Ergebnisse der ML-Modelle
Resultate:
Die Wahl des Feature Selection Verfahrens ist abhängig vom Datensatz, ML-Modell und Projektziel, sodass es kein standardisiertes Verfahren zur Feature Selection gibt. Allerdings lässt sich aus den Projektergebnissen folgern, dass die suchbasierten Feature Selection Methoden jeweils sehr ähnliche Ergebnisse liefern. Die Feature Extraction durch PCA führt zur stärksten Dimensionsreduktion, aber auch zu schwächeren Vorhersagegenauigkeiten. Zudem ist die Wahl des Feature Selection Verfahrens umso wichtiger, je weniger Zeilen im Datensatz vorliegen und je höher die Modellkomplexität ist.
Im Rahmen eines Forschungsprojekts soll eine Web-Applikation zur Fabrikplanung und
Planung eines Laserschneideprozesses entwickelt werden.
Vorgehen:
Implementation des Java-Backends mit Spring und Hibernate
Entwicklung intelligenter Graph-Algorithmen zur Prozessplanung
Management der SQL-Datenbank
Entwicklung und Optimierung der Datenmodelle
Evaluation verschiedener NoSQL-Datenbanken zur Performancesteigerung (zum Beispiel MongoDB und Neo4j)
Aufsetzung einer MongoDB, Migration der SQL-Datenbank und Anpassung des Quellcodes
Erstellung von CI/CD Pipelines mit automatisierten Unit Tests, Maven Build Prozessen und Deployments auf einem Linux-Server
Implementation und Anbindung eines Python-Backends für Deep Learning mit TensorFlow
Resultate:
Die Performance der Webapp konnte durch den Umstieg auf eine NoSQL-Datenbank und die Optimierung des Datenmodells deutlich verbessert werden. Zudem wurden komplexe Algorithmen mit Graphenoperationen und Deep Learning Modelle zur Planung einer Fabrik und eines Laserschneideprozesses implementiert.
Masterarbeit: Einsatz von Data Science im Fussball, Note: 1,0
3 Jahre
2016-08 - 2019-07
Scientific Programming
Bachelor of Science, FH Aachen
Bachelor of Science
FH Aachen
Dualer Bachelor-Studiengang in Mathematik und Informatik mit einer Ausbildung zum Mathematisch-technischen Softwareentwickler
Zertifizierung zum DataScienceMATSE
Bachelorarbeit: Bewertung verschiedener Verfahren zur Automatisierung der Datenvorverarbeitung am Beispiel des Immobilienmarktes in Melbourne, Note: 1,3
3 Jahre
2016-08 - 2019-07
DataScienceMATSE
FH Aachen
FH Aachen
Abschluss von 3 Data Science Modulen und Verfassung einer Bachelorarbeit im Data Science Bereich