Data Engineering solutions
Aktualisiert am 05.09.2024
Profil
Freiberufler / Selbstständiger
Remote-Arbeit
Verfügbar ab: 05.09.2024
Verfügbar zu: 100%
davon vor Ort: 100%
Data Engineer
Datawarehouse
SQL
Python
SQL-Programmierung
Business Intelligence
Data-Mart
Deutsch
fließend
Englisch
Verhandlungssicher
Spanisch
Muttersprache

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

9 months
2024-04 - now

Erstellung eines LLM-Systems

ML Engineer Python Llama 3 Streamlit ...
ML Engineer

Das Ziel dieses Projekts ist es, ein LLM-System mit einer Vektordatenbank für HTMLStellenausschreibungsdaten aufzubauen. Das Ziel dieses Projekts ist es, ein Tool zu aufzubauen, mit dem Anfragen zu Stellenangeboten gestellt werden können. In diesem Projekt werden Llama 3 und Llama Index für die Feinabstimmung der lokalen Daten und Streamlit für die visuelle Schnittstelle verwendet.

  • Erstellung eines LLM-Systems zur Abfrage von Stellenausschreibungsdaten mit Llama & Streamlit
    • Erstellung einer Umgebung für LLMs, die Parameter und die Daten der Stellenausschreibung.
    • Transformieren und beschriften Sie die Daten in die erforderliche Struktur für das Lernen.
    • Das Dataset wurde in Token umgewandelt und eingebettet mit NLTK (NLP)
    • Feinabstimmung des Modells mit vortrainierten Gewichtungen und den neuen Daten.
    • Evaluierung und Test des Modells (Konsistenz von Fragen/Antworten).
    • Das Modell wurde gespeichert und bereitgestellt.
    • Entwicklung eines Front-Ends für die Benutzerinteraktion mit dem Modell.
    • Sie haben einen Commit für das Front-End ausgeführt und die Lösung in einem Container bereitgestellt.


Ergebnisse

  • Der Zeitaufwand für die Suche nach bestimmten Informationen im Datensatz der Stellenanzeigen wurde reduziert.
  • Erstellung einer Inhouse-Lösung, die an andere Datensätze angepasst werden kann.

Python Llama 3 Streamlit NLTK Transformers
E-Commerce
9 months
2024-04 - now

Etablierung von Snowflake mit dbt als Hauptdatenbank/Data Warehouse

Data Engineer Snowflake SQL dbt
Data Engineer

Als Experte für Data Warehousing und Data Engineering beginnt die Innoprox GmbH damit, für ihre Kunden an Datenprodukten zu arbeiten und dafür Fallstudien durchzuführen. Um dies zu erreichen, muss Innoprox auch ein eigenes Data Warehouse und Orchestrierungstools einrichten, um Daten in dieses zu laden. Ziel dieses Projektes ist es daher, Innoprox in die Lage zu versetzen, einen internen Snowflake-Account und ein Warehouse einzurichten und zu pflegen.

  • Durchführung von Schulungen für die Snowflake SnowPro-Zertifizierung.
  • Aufbau von Modellen in dbt
  • Arbeiten an internen Datenproduktvorschlägen.
  • Einrichten der Innoprox Snowflake-Instanz.

Ergebnisse

  • Etablierter Snowflake-Schulungsleitfaden für das Onboarding neuer Mitarbeiter

Snowflake SQL dbt
Innoprox GmbH
6 months
2023-09 - 2024-02

Entwickeln einer Prognosebibliothek für Ausverkaufsdaten

ML-Engineer Python (Pandas Scikit-Learn Streamlit) ...
ML-Engineer

Das Ziel dieses Projekts ist es, eine Bibliothek zu programmieren, um den Abverkauf von Produkten mithilfe von Zeitreihenanalysen zu prognostizieren. Ziel dieses Projektes ist es, dem Unternehmen ein Werkzeug an die Hand zu geben, mit dem der Bedarf in den nächsten Monaten geplant werden kann, um dies zu erreichen, werden B2B-Verkaufsdaten & Bestandsdaten verwendet. In diesem Projekt werden hybride Modelle verwendet, d.h. die Kombination mehrerer Modelle, um eine saisonale Zerlegung der Zeitreihen zu erreichen und eine genauere Vorhersage zu erzielen.

  • Entwickeln einer Prognosebibliothek für Ausverkaufsdaten mit Pandas, Scikit-Learn und Streamlit.
    • Erstellen der Umgebung und Herunterladen aller Datensätze aus BigQuery.
    • Durchführung der Datenaufbereitung, Feature-Engineering und Aufteilung der Daten für Training und Tests.
    • Durchführung der saisonalen Zerlegung unter Verwendung verschiedener Modelle für den Trend und die Saisonalität.
    • Vergleich der Performance zwischen hybriden Modellen mit Hilfe von Metriken (MAE, SMAPE).
    • Trainieren der Daten für verschiedene Produktkategorien mit den besten Hybridmodellen.
    • Die trainierten Modelle und Ergebnisse werden in Joblib-Dateien gespeichert und in Buckets gespeichert.
    • Automatisierung und Planung des täglichen Umschulens für neue Daten.
    • Erstellen einer App in Streamlit zum Anzeigen von Ergebnissen in Grafiken und Tabellen mit Filteroptionen.
    • Erstellung des Git-Repositorys und Commit aller App-Dateien für die kontinuierliche Weiterentwicklung.
    • Schreiben einer Docker File- und YAML-Dateien und Commit in das App-Repository.
    • Bereitstellen der Lösung in Cloud Run und Konfiguration von Webhooks für die erneute Bereitstellung bei Änderungen.

Ergebnisse

  • Verbesserte Entscheidungsfindung auf der Grundlage zuverlässiger Modelle mit einer Genauigkeit von über 90 %.
  • Erstellung einer Bibliothek zur Analyse von Produkten mit von Benutzern bevorzugten Modellen (Regression, Random Forest, neuronales Netz, XGBoost).
  • Implementierung einer Pipeline, die eine kontinuierliche Weiterentwicklung und Bereitstellung der Lösung ermöglicht.
  • Die Analyse der Bedarfsplanung von Schlüsselprodukten und -branchen wurde durch maschinelles Lernen zusätzlich zu bestehenden Berichten und KPIs verbessert.
  • Implementierung einer Web-App, die die Analyse und Überwachung von Top-Produkten und/oder Branchen durch Grafiken und Tabellen ermöglicht.

Python (Pandas Scikit-Learn Streamlit) BigQuery Git
E-Commerce
3 months
2023-05 - 2023-07

Entwerfen eines Datenmodells zum Transformieren von Anbieterdaten

Data Engineer BigQuery SQL PowerBI
Data Engineer

Das Ziel dieses Projekts ist es, ein neues Datenmodell unter Verwendung von Verkaufsdaten zu entwerfen. Ziel ist es, das Data Warehouse des Unternehmens, um zusätzliche Verkaufsdaten zu erweitern, mit denen der Verkaufsprozess (Verkauf, Lieferung, Rechnung) in einem der wichtigsten B2B-Online-Märkte analysiert werden kann. In diesem Projekt werden Speicherprozeduren verwendet, um die Daten und 3 Ebenen oder eine Gruppe von Tabellen zu transformieren: Replikation, Verarbeitung und Analyse.

  • Entwerfen eines Datenmodells zum Transformieren von Anbieterdaten mit gespeicherten BigQuery-Prozeduren.
    • Schreiben und Validieren des Modelldesigns und der Geschäftsregeln mit Kunden.
    • Entwicklung des ersten Satzes von gespeicherten Prozeduren für: Datenbereinigung, Datenfilterung und Datenmapping.
    • Einfügen von initialen Transformationen in die Verarbeitungsschicht.
    • Entwicklung eines zweiten Satzes von gespeicherten Prozeduren für: abgeleitete Metriken und Aggregationen, Datensortierung, Datenanreicherung mit zusätzlichen Informationen oder Dimensionen.
    • Einfügen von finalen Transformationen in die Analyseschicht.
    • Konfiguration von BigQuery-Aufträgen und Benachrichtigungen für die tägliche Ausführung aller gespeicherten Prozeduren in der erforderlichen Reihenfolge.
    • Dokumentation der Modellobjekte; Tabellen, Ansichten, Felder, SQL-Code und Datenherkunft.
    • Konfiguration der Zugriffskontrolle für das Modell und Gewähren des Zugriffs für Geschäftsbenutzer.
    • Erstellung von Berichten und Dashboards in PowerBI, um die Erfüllung von Aufträgen zu verfolgen.


Ergebnisse

  • Optimierung des Auftragsabwicklungsprozesses durch genaue Nachverfolgung der eingegangenen Bestellungen, der Lieferung und der Rechnungsstellung an den Kunden.
  • Schaffung eines neuen Modells zur Verbesserung der Entscheidungsfindung für einen der wichtigsten B2B-Online-Märkte.
  • Verbesserte Datenverfügbarkeit und -konsistenz für alle Benutzer.

BigQuery SQL PowerBI
E-Commerce
7 months
2022-10 - 2023-04

Erstellen einer Pipeline

Data Engineer BigQuery PySpark Airflow
Data Engineer

Ziel dieses Projekts ist es, eine Datenpipeline zum Extrahieren und Laden von Daten aus einer API in BigQuery-Tabellen zu entwerfen und zu erstellen. Im Rahmen des Projekts werden Airflow-DAG- und PySpark-Aufträge verwendet, um kontinuierlich Daten zu extrahieren und in BigQuery-Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Erstellen einer Pipeline, um Daten aus einer Drittanbieter-API mit BigQuery, Airflow und PySpark zu extrahieren
    • Entwurf der Pipeline-Architektur und Validierung der erforderlichen Felder mit Geschäftsanwendern.
    • Codieren von PySpark-Aufträgen zum Abrufen von Daten von den erforderlichen Endpunkten.
    • Laden des endgültigen Datenrahmens in BigQuery.
    • Entwurf von Airflow-DAGs, um alle Aufgaben im erforderlichen Intervall auszuführen.
    • Verpflichtung des gesamten Codes zu Git für kontinuierliche Entwicklung und Bereitstellung.
    • Dokumentation der Pipeline, der Objekte und des Codes.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand bleiben.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Ein manuelles Herunterladen einzelner Dateien aus einem Drittsystem ist nicht mehr erforderlich.

BigQuery PySpark Airflow
E-Commerce
3 months
2022-07 - 2022-09

Entwicklung und Bereitstellung einer Sale-in-Dashboard-App

ML-Engineer Python Pandas Dash Dockers ...
ML-Engineer

Das Ziel dieses Projekts ist es, ein Dashboard zu entwerfen und zu erstellen, um die Bedarfsplanung von Schlüsselprodukten zu verbessern. Das Projekt nutzt Dash, um Prognosen nach Produkten mithilfe von Datenrahmen und Diagrammen zu präsentieren, BigQuery als Datenquelle und Compute Engine, um die Lösung bereitzustellen und allen Benutzern zur Verfügung zu stellen.

  • Entwicklung und Bereitstellung einer Sale-in-Dashboard-App mit Pandas, Plotly Dash, Dockers und Compute Engine
    • Extrahieren von Vorhersagen und allgemeinen Daten für jedes Produkt aus BigQuery.
    • Erstellung von Dashboards, einschließlich Filtern und Tabellen zur Darstellung von Produktprognosen.
    • Erstellung eines Git-Repositorys und Commit aller App-Dateien zur kontinuierlichen Weiterentwicklung.
    • Schreiben von Docker Files und YAML-Dateien & Commit in das App-Repository.
    • Bereitstellung der Lösung in Compute Engine und Konfiguration von Webhooks für die erneute Bereitstellung bei Änderungen.
    • Konfiguration von Sicherheitszertifikaten und DNS-Umleitung.
    • Dokumentieren Sie alle Komponenten der Lösung.


Ergebnisse

  • Verbesserte Bedarfsplanung von Produkten mit kurzer Lebensdauer.
  • Erstellung eines modernen Dashboards, das einfach zu bedienen und zugänglich ist.
  • Bereitstellung einer stabilen Lösung mit der Möglichkeit, andere Arten von Analysen mithilfe von ML zu untersuchen.

Python Pandas Dash Dockers Compute Engine
E-Commerce
1 year 5 months
2021-03 - 2022-07

Aufbau einer Pipeline

Data Engineer BigQuery PySpark Airflow
Data Engineer

Das Ziel dieses Projekts ist es, eine Pipeline zu entwerfen, um Dateien in einem Partner-Cloud-Speicher kontinuierlich zu verarbeiten. Ziel ist es, Auftragsabwicklungsdaten aus XML-Dateien zu extrahieren und in BigQuery-Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Aufbau einer Pipeline zum Extrahieren von Daten aus einem Cloud-Speicher mit BigQuery, PySpark und Airflow
    • Entwurf einer Pipeline-Architektur und Validierung der erforderlichen Felder mit Geschäftsanwendern.
    • Coding von PySpark-Aufträgen, um XML-Dateien zu verarbeiten und Daten in BigQuery zu laden.
    • Entwurf eines Airflow-DAGs, um die Ausführung aller Aufgaben zu orchestrieren.
    • Erstellung einer Cloud-Funktion, um eine DAG auszulösen, wenn der Anbieter dem Bucket eine neue Datei hinzufügt.
    • Übergabe des gesamten Codes an Git, um eine kontinuierliche Entwicklung und Bereitstellung zu ermöglichen.
    • Dokumentation von Pipelines, der Objekte und des Codes.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Hinzufügen neuer Quelle wichtiger Informationen hinzu, die für Vorgänge, Analysen und Berichte verwendet werden.

BigQuery PySpark Airflow
E-Commerce
3 months
2022-04 - 2022-06

Entwicklung eines Zeitreihen-Prognosemodells

ML-Engineer Pandas Scikit-Learn
ML-Engineer

Ziel dieses Projektes ist es, die Bedarfsplanung mit Hilfe von Zeitreihenanalysen zu verbessern. Ziel ist es, ein Modell auszuwählen und zu trainieren, das am besten zu den verfügbaren Daten passt, um die Nachfrage nach Schlüsselprodukten in den nächsten 3 Monaten zu prognostizieren, einschließlich der Feinabstimmung des Modells, wenn neue Daten verfügbar sind.

  • Entwicklung eines Zeitreihen-Prognosemodells für die Bedarfsplanung mit Pandas & Scikit-Learn.
    • Definition von Schlüsselprodukten für die erste Analyse mit Geschäftsanwendern.
    • Extraktion von Bestandsdaten aus dem Data Warehouse des Unternehmens.
    • Trainieren und Testen verschiedener Modelle und vergleichen der Vorhersagegenauigkeit.
    • Auswahl des besten Modells und Training anhand historischer Daten für alle Produkte.
    • Speicherung der Vorhersagen für jedes Produkt und Modellparameter in BigQuery.
    • Übergabe des Codes an das Repository, und Konfiguration der täglichen Ausführung für das erneute Training.
    • Dokumentation des gesamten Codes und die Lösung.
    • Erläutern der Ergebnisse für Geschäftsanwender; Präsentation und Jupyter Notebook.


Ergebnisse

  • Die Modellvorhersagen erreichten für die meisten Produkte eine Genauigkeit von mehr als 85 %.
  • Es wurde festgestellt, dass die Bedarfsplanung für bestimmte Produkte verbessert werden kann.
  • Bereitstellung einer ML-Lösung, die nach einem Zeitplan mit minimalen Eingriffen ausgeführt wird.

Pandas Scikit-Learn
E-Commerce
3 months
2022-03 - 2022-05

Entwurf eines Datenmodells zur Transformation von CRM- und ERP-Daten

Data Engineer BigQuery SQL PowerBI
Data Engineer

Ziel dieses Projekts ist es, ein neues Datenmodell für Marketing- und Finanzdaten zu entwerfen. Ziel ist es, das Data Warehouse des Unternehmens, um neue Informationsquellen zu erweitern, die zur Analyse des Kundenverhaltens für bessere Marketingkampagnen und zur Verbesserung der Nachverfolgung von Umsatz und Auftragsabwicklung genutzt werden können. Das Projekt verwendet SQL, um Betriebsdaten zu transformieren und zu aggregieren.

  • Entwurf eines Datenmodells zur Transformation von CRM- und ERP-Daten mit gespeicherten BigQuery-Prozeduren.
    • ?Schreiben und validieren des Modellentwurfs und die Geschäftsregeln mit Kunden.
    • Entwicklung eines Speicherverfahrens für Datenbereinigung, Filterung, Zuordnung, abgeleitete Metriken, Sortierung und Datenanreicherung.
    • Hinzufügen von Transformationen in die endgültige Gruppe von Tabellen (Analyseschicht.
    • Konfiguration von BigQuery-Aufträgen und -Warnungen für die regelmäßige Ausführung des ELT.
    • Dokumentieren von Modellobjekten; Tabellen, Ansichten, Felder, SQL-Code und Datenherkunft.
    • Konfiguration von der Zugriffssteuerung für das Modell, einschließlich des Erteilens von Berechtigungen für bestimmte Benutzer.
    • Erstellen von Berichten und Dashboards in PowerBI für verschiedene Arten von Marketing- und Finanzanalysen.


Ergebnisse

  • Optimierung mehrerer Marketing- und Finanzprozesse in Bezug auf Kundenverhalten, Retouren und Umsatz.
  • Schaffung eines neuen Modells zur Verbesserung der Entscheidungsfindung im Top-Management.
  • Verbesserte Datenverfügbarkeit und -konsistenz für alle Benutzer.

BigQuery SQL PowerBI
E-Commerce
7 months
2021-08 - 2022-02

Entwicklung und Design einer Pipeline

Data Engineer BigQuery PySpark und Airflow PySpark ...
Data Engineer

Das Ziel dieses Projekts ist es, eine Datenpipeline zu entwerfen und aufzubauen, um Daten aus den CRM- und ERP-Systemen des Unternehmens zu extrahieren und in BigQuery zu laden. Die Daten stammen aus unterschiedlichen Quellen wie CSV- und JSON-Dateien, Datenbanken, Webdiensten und APIs von Drittanbietern. Das Projekt verwendet Airflow-DAGs und PySpark-Jobs, um kontinuierlich Daten zu extrahieren und in Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Entwicklung und Design einer Pipeline, um Daten aus den CRM- und ERP-Systemen für Analyse und Reporting zu erhalten.
    • Entwurf einer Pipeline-Architektur und validieren Sie die erforderlichen Informationsquellen und Felder mit Geschäftsanwendern.
    • Coding von PySpark-Aufträgen, um sie aus jeder Datenquelle (Bucket, Datenbank, Webdienst usw.) zu extrahieren.
    • Laden aller extrahierten Daten in BigQuery-Tabellen.
    • Entwerfen von Luftstrom-DAGs, um alle Aufgaben im erforderlichen Intervall auszuführen.
    • Erstellen von Python-Skripte für das kontinuierliche Hochladen von Systemdateien in den Cloud-Speicher.
    • Erstellen einer Cloud-Funktion, um eine DAG auszulösen, wenn ein System dem Bucket eine neue Datei hinzufügt.
    • Übergeben des gesamten Codes an Git, um eine kontinuierliche Entwicklung und Bereitstellung zu ermöglichen.
    • Dokumentieren Sie die Pipeline, die Objekte und den Code.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Reduzierte Belastung externer Systeme, die hauptsächlich für den Betrieb, die Analyse und das Reporting verwendet werden.

BigQuery PySpark und Airflow PySpark Airflow
E-Commerce
7 months
2018-11 - 2019-05

Requirement Engineering

IT Business Analyst SSIS PySpark Teradata ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein neues Datenmodell der Mitarbeiterdaten zu entwerfen. Ziel ist es, Daten aus verschiedenen Systemen zu sammeln und in einer einheitlichen Quelle der Wahrheit zusammenzuführen. An dem Projekt sind mehrere Teams aus verschiedenen Geschäftsbereichen beteiligt, um die Anforderungen zu sammeln, und das BI-Team, um die endgültige Lösung zu erstellen.

  • Entwerfen Sie technische Anforderungen, um Mitarbeiterdaten aus verschiedenen Systemen zu sammeln (HR-Projekt)
    • Requirement Engineering für alle Datenquellen, Spalten, erforderlichen Transformationen und Metriken.
    • Requirement Engineering für alle Berichte und KPIs.
    • Validieren Sie Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Präsentation und Dokumentation eines Proof of Concept mit Python und SQL für einige Datenquellen.
    • Entwicklung von Datenpipelines durch das BI-Team, um Informationen aus einer Vielzahl von Systemen zu nutzen.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Dokumentation des Modells mit dem Data-Governance-Team.


Ergebnisse

  • Datenzentralisierung und -integration zur Verbesserung der HR-Prozesse (Einstellung, Personalbestand usw.).
  • Entwicklung von Mitarbeiterprofilen zur schnellen Identifizierung der Sozialleistungen, des Gehalts, des Rentenschemas usw.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS PySpark Teradata AWS Tableau PowerBI
E-Commerce
10 months
2018-01 - 2018-10

Datenerfassung für Rückbuchungsstreitigkeiten

IT Business Analyst SSIS PySpark Teradata ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein neues Datenmodell zu entwerfen, das alle Informationen enthält, die für die Bearbeitung von Rückbuchungsstreitigkeiten erforderlich sind. Ziel ist es, Kundendaten aus verschiedenen Systemen (Online-Verkäufe, Kundenprofil, Betrugserkennung, Flugtickets und -manifeste, Online-Zahlungsabwicklung usw.) in einer einheitlichen Quelle der Wahrheit zusammenzuführen und diese Informationen zu verwenden, um Berichte und Backoffice-Apps für das Charge Back-Analyseteam zu erstellen.

  • Konzeption und Sammlung von technischen Anforderungen zur Datenerfassung für Rückbuchungsstreitigkeiten (Finanzprojekt)
    • Requirement Engineering für alle Datenquellen, Spalten, erforderlichen Transformationen und Metriken.
    • Requirement Engineering für alle Berichte und KPIs.
    • Validierung von Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Präsentation und Dokumentation eines Proof of Concept mit Python und SQL für Datenquellen.
    • Entwicklung von Datenpipelines durch das BI-Team, um Informationen aus einer Vielzahl von Systemen zu nutzen.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Dokumentation des Modells mit dem Data-Governance-Team.


Ergebnisse

  • Die Gewinnrate von Rückbuchungsfällen wurde um mindestens 20 % erhöht.
  • Datenzentralisierung und -integration, um die Untersuchung von Rückbuchungsfällen zu beschleunigen und Bankbehörden schneller zu antworten.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS PySpark Teradata AWS Tableau
E-Commerce
1 year 4 months
2016-09 - 2017-12

Datenerfassung zur Betrugserkennung

IT Business Analyst TIBCO SSIS PySpark ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein System zur Betrugserkennung und -prävention in die Produktion zu bringen, das konsolidierte Daten aus mehreren Datenströmen in einem Ökosystem von Drittanbieterund intern entwickelten Lösungen nutzt. Das System benötigt eine große Menge an verschiedenen Informationen aus mehreren Quellen, um eine optimale Betrugserkennung zu erreichen, einschließlich, aber nicht beschränkt auf Flugroute, Passagierdaten und Tickets, Vielfliegerinformationen, Karten- und Zahlungsinformationen, E-Mail- und Kundenkontaktinformationen. Das System verwendet Informationen hauptsächlich für 2 Zwecke: Ein internes diskretes System bewertet und markiert jede Online-Transaktion als Betrug/Nicht-Betrug und ein maschinelles Lernmodell, das historische Daten analysiert, um betrügerisches Verhalten zu lernen und zu entdecken. Das Projekt setzt viele Technologien ein, um Datenpipelines, Nachrichtenwarteschlangen, Datenmodelle, Berichte und Dashboards zu erstellen.

  • Entwurf und Sammlung von technischen Anforderungen zur Datenerfassung zur Betrugserkennung (Finance Project)
    • Auswertung aller verfügbaren Datenströme (Inhouse- und Fremddatendienste verfügbar).
    • Requirement Engineering für alle erforderlichen Datenquellen, einschließlich erforderlicher Spalten und Transformationen.
    • Proof of Concept mit Python und SQL für verschiedene Datenquellen.
    • Validierung von Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Entwurf der Datenarchitektur (Diagramme und Dokumentation erforderlich).
    • Entwicklung der Datenpipeline durch das BI-Team, um Informationen aus einer Vielzahl von Schnittstellen (intern und extern) zu nutzen.
    • Erweiterung des Enterprise Service Bus, um neue Informationsquellen bereitzustellen.
    • Erweiterung einer Messaging-Warteschlange um Geschäftsregeln zur Priorisierung von Transaktionen für die Betrugsanalyse.
    • Entwicklung und Einsatz eines Machine-Learning-Systems, das kontinuierlich neue Betrugstrends erlernt.
    • Integration des Hauptsystems für das Betrugsmanagement und Feinabstimmung aller Geschäftsregeln.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Technische und Benutzerdokumentation aller Teile und Komponenten des Systems.


Ergebnisse

  • Erhöhung der Erkennungsrate auf mehr als 90 % über alle betrügerischen Transaktionen.
  • Steigerung der Kundenzufriedenheit, indem Sie die Anzahl der falsch positiven Fälle reduzieren.
  • Das Hinzufügen neuer Modelle und die Verbesserung des ESB eröffnen neue Wege und machen Informationen für andere Geschäftsbereiche wiederverwendbar.
  • Datenzentralisierung und -integration, um Betrugsermittlungen zu beschleunigen und Online-Transaktionen schneller zu verarbeiten.

TIBCO SSIS PySpark Teradata AWS Tableau CyberSource
E-Commerce
7 months
2016-01 - 2016-07

Entwicklung eines ETL-Prozesses

BI Developer SSIS SQL-Server SFTP
BI Developer

Das Ziel dieses Projekts ist es, eine ETL zu entwickeln, um Textdateien von einem Mainframe (VisionPlus) zu verarbeiten, der Kreditkartentransaktionen speichert. Der ETL-Prozess wird mit SQL Server Integration Services entwickelt, um Dateien in einer internen SFTP-Site zu extrahieren, die Daten zu transformieren und mit vorhandenen Tabellen zu kombinieren und schließlich in SQL-Server zu laden.

  • Entwicklung eines ETL-Prozesses zur Verarbeitung von Mainframe-Dateien mithilfe von SSIS.
    • Besprechen von Anforderungen mit den Business-Analysten.
    • Entwicklung von ETL-Prozessen, um alle erforderlichen Dateien mithilfe von SSIS zu verarbeiten.
    • Validieren und vergleichen Sie Abschlusstabellen mit Originaldateien mit den Business-Analysten.
    • Dokumentieren Sie alle Komponenten der Lösung.


Ergebnisse

  • Das Kreditkartendatenmodell wurde durch Hinzufügen neuer Karteninhaberdaten und -dimensionen erweitert.
  • Verbesserte Datenzentralisierung und -integration, um die Untersuchung von Kreditkartentransaktionen zu beschleunigen.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS SQL-Server SFTP
E-Commerce
6 months
2015-07 - 2015-12

Codierung von Skripten

BI Developer Visual Basic SFTP Mainframe
BI Developer

Das Ziel dieses Projekts ist es, Daten aus einem Mainframe zu extrahieren, die für die Analyse und Berichterstattung benötigt werden. Das Projekt verwendet Visual Basic, um Daten von bestimmten Bildschirmen im System zu extrahieren und in Textdateien zu speichern.

  • Codierung von Skripten zum bedarfsgerechten Extrahieren von Daten aus einem Mainframe mit Visual Basic
    • Besprechen von Anforderungen mit den Business-Analysten.
    • Entwickeln Sie ein Visual Basic-Skript zum Extrahieren von Daten aus erforderlichen Bildschirmen für alle Kunden.
    • Validieren Sie den Dateiinhalt mit den im System angezeigten Informationen.
    • Dokumentieren Sie die Lösung.


Ergebnisse

  • Extraktion von neuen Dimensionen von Daten, die das Unternehmen benötigt, um Fälle schneller zu untersuchen.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand bleiben.
  • Ein manuelles Herunterladen einzelner Dateien im System ist nicht mehr erforderlich.

Visual Basic SFTP Mainframe
E-Commerce
10 months
2014-09 - 2015-06

Erstellung von gespeicherten Prozessen zur Generierung von Kontoauszügen

BI Developer SQL-Server
BI Developer

Das Ziel dieses Projekts ist es, neue Ansichten zu erstellen, die von einer Finanzanwendung genutzt werden können, die Kreditkartenabrechnungen ausgibt. Die Ansichten werden gemäß den Geschäftsregeln in SQL-Server mithilfe von Speicherprozeduren erstellt.

  • Erstellung von gespeicherten Prozessen zur Generierung von Kontoauszügen gemäß den Anforderungen in SQL-Server
    • Überprüfung der Anforderungen mit den Business-Analysten.
    • Codespeichern Sie Prozeduren gemäß Geschäftsregeln und speichern Sie Datasets als Ansichten.
    • Validieren Sie die Datenvervollständigung und -integrität in jeder Ansicht mit Geschäftsanwendern.
    • Dokumentieren Sie die Lösung.


Ergebnisse

  • Erweiterung des aktuellen Datenmodells durch Hinzufügen neuer Ansichten.
  • Erleichterung der Erstellung verbesserter Kreditkartenabrechnungen für Bankangestellte.
  • Korrektur von Fehlern und Ersatz von Altberichten und -auszügen.

SQL-Server
E-Commerce

Aus- und Weiterbildung

Aus- und Weiterbildung

Master of Science in Artificial Intelligence & Data Science

Heinrich-Heine-Universität, Düsseldorf


Bachelor of Science in Systems Engineering

USMA, Panama


Weiterbildungen und Zertifikate

2024

  • Certified dbt Developer (Angehend)
  • SnowPro Core Certified


2021

GCP Professional Certification


2018

AWS-Solutions architect


2017

Six Sigma Yellow Belt


2015

Professional SCRUM Developer

Position

Position

Cloud Data Engineer & Reporting Specialist

Kompetenzen

Kompetenzen

Top-Skills

Data Engineer Datawarehouse SQL Python SQL-Programmierung Business Intelligence Data-Mart

Produkte / Standards / Erfahrungen / Methoden

Profil

Ein Datenfreak mit mehr als 7 Jahren Erfahrung in den Bereichen BI und ML-Engineering. Mein Fachwissen hat sich zu einer Leidenschaft für den Aufbau von End to-End-Datenprozessen und MLLösungen entwickelt, um neue Trends zu erkennen und Geschäftsprozesse zu automatisieren. Ich bin immer begeistert davon, neue Technologien und Plattformen zu erlernen, die dazu beitragen, mehr Wert für Unternehmen und Kunden zu schaffen. Gleichzeitig freue ich mich darauf, Teil der neuen KI-Ära und der Entwicklung moderner Lösungen zu sein, mit denen Unternehmen immer einen Schritt voraus sind.


Fähigkeiten und Kompetenzen

  • Data Engineering
  • Data Warehousing
  • Reporting & BI
  • Machine Learning Engineering
  • Data Science


Von Kunden und Kollegen geschätzt

  • Kreativ und pragmatisch in jedem Projekt, an dem ich beteiligt bin, immer mit Ideen und neuen Wegen, Dinge zu tun.
  • Sehr kommunikativ und ein guter Zuhörer, gleichzeitig genieße ich es, zu präsentieren und zu erklären, was ich weiß oder in letzter Zeit gelernt habe. 
  • In einem Team ist es mein Weg, jedes Mitglied individuell zu kennen und dadurch die Verbundenheit zwischen allen Mitgliedern zu fördern.


Methoden

  • Business Intelligence
  • Data Engineering
  • Data Vault 2.0
  • Machine Learning Engineering
  • LLM Finetuning
  • Requirement Engineering
  • DevOps
  • Design Thinking
  • Agile Development


Anwendungen

  • JIRA / Confluence
  • Databricks
  • Portainer
  • Terraform
  • Gitlab
  • Github
  • Google Collab
  • Jupyter Lab
  • Jenkins
  • Snowflake
  • Let?s Encrypt
  • Webservers (NGINX, Apache)
  • UNRAID
  • Linux ? Debian & Ubuntu Server


Programmiersprachen/ Frameworks

  • Python
  • Pandas & NumPy
  • SQL
  • Git
  • dbt
  • Plotly & Streamlit
  • Azure DevOps
  • Docker
  • Docker Compose
  • YAML
  • Scikit-Learn
  • NoSQL
  • PyTorch
  • Python NLTK (NLP)
  • Python Transformers (Large Language Models (LLM))
  • NodeJS
  • Kubernetes
  • Power BI
  • BigQuery
  • AWS RDS
  • SQL-Server
  • Apache Spark ? PySpark
  • Apache Airflow
  • Prefect
  • TypeScript
  • Serverless
  • Shell Scripting
  • Batch Scripting


Cloud

  • AWS
  • GCP
  • Microsoft Azure


Berufserfahrung

04/2024 - heute


Aufgaben:

  • Unternehmensberatung Data


09/2023 - 02/2024


Aufgaben:

  • Vertrieb Beauty & Care B2B


02/2021 ? 08/2023


Aufgaben:

  • Blumen Vertrieb B2B


09/2016 ? 07/2019

Kunde: Luft und Raumfahrt


09/2014 ? 08/2016


Aufgaben:

  • Online-Zahlungsabwicklung

Einsatzorte

Einsatzorte

Deutschland, Schweiz, Österreich
möglich

Projekte

Projekte

9 months
2024-04 - now

Erstellung eines LLM-Systems

ML Engineer Python Llama 3 Streamlit ...
ML Engineer

Das Ziel dieses Projekts ist es, ein LLM-System mit einer Vektordatenbank für HTMLStellenausschreibungsdaten aufzubauen. Das Ziel dieses Projekts ist es, ein Tool zu aufzubauen, mit dem Anfragen zu Stellenangeboten gestellt werden können. In diesem Projekt werden Llama 3 und Llama Index für die Feinabstimmung der lokalen Daten und Streamlit für die visuelle Schnittstelle verwendet.

  • Erstellung eines LLM-Systems zur Abfrage von Stellenausschreibungsdaten mit Llama & Streamlit
    • Erstellung einer Umgebung für LLMs, die Parameter und die Daten der Stellenausschreibung.
    • Transformieren und beschriften Sie die Daten in die erforderliche Struktur für das Lernen.
    • Das Dataset wurde in Token umgewandelt und eingebettet mit NLTK (NLP)
    • Feinabstimmung des Modells mit vortrainierten Gewichtungen und den neuen Daten.
    • Evaluierung und Test des Modells (Konsistenz von Fragen/Antworten).
    • Das Modell wurde gespeichert und bereitgestellt.
    • Entwicklung eines Front-Ends für die Benutzerinteraktion mit dem Modell.
    • Sie haben einen Commit für das Front-End ausgeführt und die Lösung in einem Container bereitgestellt.


Ergebnisse

  • Der Zeitaufwand für die Suche nach bestimmten Informationen im Datensatz der Stellenanzeigen wurde reduziert.
  • Erstellung einer Inhouse-Lösung, die an andere Datensätze angepasst werden kann.

Python Llama 3 Streamlit NLTK Transformers
E-Commerce
9 months
2024-04 - now

Etablierung von Snowflake mit dbt als Hauptdatenbank/Data Warehouse

Data Engineer Snowflake SQL dbt
Data Engineer

Als Experte für Data Warehousing und Data Engineering beginnt die Innoprox GmbH damit, für ihre Kunden an Datenprodukten zu arbeiten und dafür Fallstudien durchzuführen. Um dies zu erreichen, muss Innoprox auch ein eigenes Data Warehouse und Orchestrierungstools einrichten, um Daten in dieses zu laden. Ziel dieses Projektes ist es daher, Innoprox in die Lage zu versetzen, einen internen Snowflake-Account und ein Warehouse einzurichten und zu pflegen.

  • Durchführung von Schulungen für die Snowflake SnowPro-Zertifizierung.
  • Aufbau von Modellen in dbt
  • Arbeiten an internen Datenproduktvorschlägen.
  • Einrichten der Innoprox Snowflake-Instanz.

Ergebnisse

  • Etablierter Snowflake-Schulungsleitfaden für das Onboarding neuer Mitarbeiter

Snowflake SQL dbt
Innoprox GmbH
6 months
2023-09 - 2024-02

Entwickeln einer Prognosebibliothek für Ausverkaufsdaten

ML-Engineer Python (Pandas Scikit-Learn Streamlit) ...
ML-Engineer

Das Ziel dieses Projekts ist es, eine Bibliothek zu programmieren, um den Abverkauf von Produkten mithilfe von Zeitreihenanalysen zu prognostizieren. Ziel dieses Projektes ist es, dem Unternehmen ein Werkzeug an die Hand zu geben, mit dem der Bedarf in den nächsten Monaten geplant werden kann, um dies zu erreichen, werden B2B-Verkaufsdaten & Bestandsdaten verwendet. In diesem Projekt werden hybride Modelle verwendet, d.h. die Kombination mehrerer Modelle, um eine saisonale Zerlegung der Zeitreihen zu erreichen und eine genauere Vorhersage zu erzielen.

  • Entwickeln einer Prognosebibliothek für Ausverkaufsdaten mit Pandas, Scikit-Learn und Streamlit.
    • Erstellen der Umgebung und Herunterladen aller Datensätze aus BigQuery.
    • Durchführung der Datenaufbereitung, Feature-Engineering und Aufteilung der Daten für Training und Tests.
    • Durchführung der saisonalen Zerlegung unter Verwendung verschiedener Modelle für den Trend und die Saisonalität.
    • Vergleich der Performance zwischen hybriden Modellen mit Hilfe von Metriken (MAE, SMAPE).
    • Trainieren der Daten für verschiedene Produktkategorien mit den besten Hybridmodellen.
    • Die trainierten Modelle und Ergebnisse werden in Joblib-Dateien gespeichert und in Buckets gespeichert.
    • Automatisierung und Planung des täglichen Umschulens für neue Daten.
    • Erstellen einer App in Streamlit zum Anzeigen von Ergebnissen in Grafiken und Tabellen mit Filteroptionen.
    • Erstellung des Git-Repositorys und Commit aller App-Dateien für die kontinuierliche Weiterentwicklung.
    • Schreiben einer Docker File- und YAML-Dateien und Commit in das App-Repository.
    • Bereitstellen der Lösung in Cloud Run und Konfiguration von Webhooks für die erneute Bereitstellung bei Änderungen.

Ergebnisse

  • Verbesserte Entscheidungsfindung auf der Grundlage zuverlässiger Modelle mit einer Genauigkeit von über 90 %.
  • Erstellung einer Bibliothek zur Analyse von Produkten mit von Benutzern bevorzugten Modellen (Regression, Random Forest, neuronales Netz, XGBoost).
  • Implementierung einer Pipeline, die eine kontinuierliche Weiterentwicklung und Bereitstellung der Lösung ermöglicht.
  • Die Analyse der Bedarfsplanung von Schlüsselprodukten und -branchen wurde durch maschinelles Lernen zusätzlich zu bestehenden Berichten und KPIs verbessert.
  • Implementierung einer Web-App, die die Analyse und Überwachung von Top-Produkten und/oder Branchen durch Grafiken und Tabellen ermöglicht.

Python (Pandas Scikit-Learn Streamlit) BigQuery Git
E-Commerce
3 months
2023-05 - 2023-07

Entwerfen eines Datenmodells zum Transformieren von Anbieterdaten

Data Engineer BigQuery SQL PowerBI
Data Engineer

Das Ziel dieses Projekts ist es, ein neues Datenmodell unter Verwendung von Verkaufsdaten zu entwerfen. Ziel ist es, das Data Warehouse des Unternehmens, um zusätzliche Verkaufsdaten zu erweitern, mit denen der Verkaufsprozess (Verkauf, Lieferung, Rechnung) in einem der wichtigsten B2B-Online-Märkte analysiert werden kann. In diesem Projekt werden Speicherprozeduren verwendet, um die Daten und 3 Ebenen oder eine Gruppe von Tabellen zu transformieren: Replikation, Verarbeitung und Analyse.

  • Entwerfen eines Datenmodells zum Transformieren von Anbieterdaten mit gespeicherten BigQuery-Prozeduren.
    • Schreiben und Validieren des Modelldesigns und der Geschäftsregeln mit Kunden.
    • Entwicklung des ersten Satzes von gespeicherten Prozeduren für: Datenbereinigung, Datenfilterung und Datenmapping.
    • Einfügen von initialen Transformationen in die Verarbeitungsschicht.
    • Entwicklung eines zweiten Satzes von gespeicherten Prozeduren für: abgeleitete Metriken und Aggregationen, Datensortierung, Datenanreicherung mit zusätzlichen Informationen oder Dimensionen.
    • Einfügen von finalen Transformationen in die Analyseschicht.
    • Konfiguration von BigQuery-Aufträgen und Benachrichtigungen für die tägliche Ausführung aller gespeicherten Prozeduren in der erforderlichen Reihenfolge.
    • Dokumentation der Modellobjekte; Tabellen, Ansichten, Felder, SQL-Code und Datenherkunft.
    • Konfiguration der Zugriffskontrolle für das Modell und Gewähren des Zugriffs für Geschäftsbenutzer.
    • Erstellung von Berichten und Dashboards in PowerBI, um die Erfüllung von Aufträgen zu verfolgen.


Ergebnisse

  • Optimierung des Auftragsabwicklungsprozesses durch genaue Nachverfolgung der eingegangenen Bestellungen, der Lieferung und der Rechnungsstellung an den Kunden.
  • Schaffung eines neuen Modells zur Verbesserung der Entscheidungsfindung für einen der wichtigsten B2B-Online-Märkte.
  • Verbesserte Datenverfügbarkeit und -konsistenz für alle Benutzer.

BigQuery SQL PowerBI
E-Commerce
7 months
2022-10 - 2023-04

Erstellen einer Pipeline

Data Engineer BigQuery PySpark Airflow
Data Engineer

Ziel dieses Projekts ist es, eine Datenpipeline zum Extrahieren und Laden von Daten aus einer API in BigQuery-Tabellen zu entwerfen und zu erstellen. Im Rahmen des Projekts werden Airflow-DAG- und PySpark-Aufträge verwendet, um kontinuierlich Daten zu extrahieren und in BigQuery-Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Erstellen einer Pipeline, um Daten aus einer Drittanbieter-API mit BigQuery, Airflow und PySpark zu extrahieren
    • Entwurf der Pipeline-Architektur und Validierung der erforderlichen Felder mit Geschäftsanwendern.
    • Codieren von PySpark-Aufträgen zum Abrufen von Daten von den erforderlichen Endpunkten.
    • Laden des endgültigen Datenrahmens in BigQuery.
    • Entwurf von Airflow-DAGs, um alle Aufgaben im erforderlichen Intervall auszuführen.
    • Verpflichtung des gesamten Codes zu Git für kontinuierliche Entwicklung und Bereitstellung.
    • Dokumentation der Pipeline, der Objekte und des Codes.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand bleiben.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Ein manuelles Herunterladen einzelner Dateien aus einem Drittsystem ist nicht mehr erforderlich.

BigQuery PySpark Airflow
E-Commerce
3 months
2022-07 - 2022-09

Entwicklung und Bereitstellung einer Sale-in-Dashboard-App

ML-Engineer Python Pandas Dash Dockers ...
ML-Engineer

Das Ziel dieses Projekts ist es, ein Dashboard zu entwerfen und zu erstellen, um die Bedarfsplanung von Schlüsselprodukten zu verbessern. Das Projekt nutzt Dash, um Prognosen nach Produkten mithilfe von Datenrahmen und Diagrammen zu präsentieren, BigQuery als Datenquelle und Compute Engine, um die Lösung bereitzustellen und allen Benutzern zur Verfügung zu stellen.

  • Entwicklung und Bereitstellung einer Sale-in-Dashboard-App mit Pandas, Plotly Dash, Dockers und Compute Engine
    • Extrahieren von Vorhersagen und allgemeinen Daten für jedes Produkt aus BigQuery.
    • Erstellung von Dashboards, einschließlich Filtern und Tabellen zur Darstellung von Produktprognosen.
    • Erstellung eines Git-Repositorys und Commit aller App-Dateien zur kontinuierlichen Weiterentwicklung.
    • Schreiben von Docker Files und YAML-Dateien & Commit in das App-Repository.
    • Bereitstellung der Lösung in Compute Engine und Konfiguration von Webhooks für die erneute Bereitstellung bei Änderungen.
    • Konfiguration von Sicherheitszertifikaten und DNS-Umleitung.
    • Dokumentieren Sie alle Komponenten der Lösung.


Ergebnisse

  • Verbesserte Bedarfsplanung von Produkten mit kurzer Lebensdauer.
  • Erstellung eines modernen Dashboards, das einfach zu bedienen und zugänglich ist.
  • Bereitstellung einer stabilen Lösung mit der Möglichkeit, andere Arten von Analysen mithilfe von ML zu untersuchen.

Python Pandas Dash Dockers Compute Engine
E-Commerce
1 year 5 months
2021-03 - 2022-07

Aufbau einer Pipeline

Data Engineer BigQuery PySpark Airflow
Data Engineer

Das Ziel dieses Projekts ist es, eine Pipeline zu entwerfen, um Dateien in einem Partner-Cloud-Speicher kontinuierlich zu verarbeiten. Ziel ist es, Auftragsabwicklungsdaten aus XML-Dateien zu extrahieren und in BigQuery-Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Aufbau einer Pipeline zum Extrahieren von Daten aus einem Cloud-Speicher mit BigQuery, PySpark und Airflow
    • Entwurf einer Pipeline-Architektur und Validierung der erforderlichen Felder mit Geschäftsanwendern.
    • Coding von PySpark-Aufträgen, um XML-Dateien zu verarbeiten und Daten in BigQuery zu laden.
    • Entwurf eines Airflow-DAGs, um die Ausführung aller Aufgaben zu orchestrieren.
    • Erstellung einer Cloud-Funktion, um eine DAG auszulösen, wenn der Anbieter dem Bucket eine neue Datei hinzufügt.
    • Übergabe des gesamten Codes an Git, um eine kontinuierliche Entwicklung und Bereitstellung zu ermöglichen.
    • Dokumentation von Pipelines, der Objekte und des Codes.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Hinzufügen neuer Quelle wichtiger Informationen hinzu, die für Vorgänge, Analysen und Berichte verwendet werden.

BigQuery PySpark Airflow
E-Commerce
3 months
2022-04 - 2022-06

Entwicklung eines Zeitreihen-Prognosemodells

ML-Engineer Pandas Scikit-Learn
ML-Engineer

Ziel dieses Projektes ist es, die Bedarfsplanung mit Hilfe von Zeitreihenanalysen zu verbessern. Ziel ist es, ein Modell auszuwählen und zu trainieren, das am besten zu den verfügbaren Daten passt, um die Nachfrage nach Schlüsselprodukten in den nächsten 3 Monaten zu prognostizieren, einschließlich der Feinabstimmung des Modells, wenn neue Daten verfügbar sind.

  • Entwicklung eines Zeitreihen-Prognosemodells für die Bedarfsplanung mit Pandas & Scikit-Learn.
    • Definition von Schlüsselprodukten für die erste Analyse mit Geschäftsanwendern.
    • Extraktion von Bestandsdaten aus dem Data Warehouse des Unternehmens.
    • Trainieren und Testen verschiedener Modelle und vergleichen der Vorhersagegenauigkeit.
    • Auswahl des besten Modells und Training anhand historischer Daten für alle Produkte.
    • Speicherung der Vorhersagen für jedes Produkt und Modellparameter in BigQuery.
    • Übergabe des Codes an das Repository, und Konfiguration der täglichen Ausführung für das erneute Training.
    • Dokumentation des gesamten Codes und die Lösung.
    • Erläutern der Ergebnisse für Geschäftsanwender; Präsentation und Jupyter Notebook.


Ergebnisse

  • Die Modellvorhersagen erreichten für die meisten Produkte eine Genauigkeit von mehr als 85 %.
  • Es wurde festgestellt, dass die Bedarfsplanung für bestimmte Produkte verbessert werden kann.
  • Bereitstellung einer ML-Lösung, die nach einem Zeitplan mit minimalen Eingriffen ausgeführt wird.

Pandas Scikit-Learn
E-Commerce
3 months
2022-03 - 2022-05

Entwurf eines Datenmodells zur Transformation von CRM- und ERP-Daten

Data Engineer BigQuery SQL PowerBI
Data Engineer

Ziel dieses Projekts ist es, ein neues Datenmodell für Marketing- und Finanzdaten zu entwerfen. Ziel ist es, das Data Warehouse des Unternehmens, um neue Informationsquellen zu erweitern, die zur Analyse des Kundenverhaltens für bessere Marketingkampagnen und zur Verbesserung der Nachverfolgung von Umsatz und Auftragsabwicklung genutzt werden können. Das Projekt verwendet SQL, um Betriebsdaten zu transformieren und zu aggregieren.

  • Entwurf eines Datenmodells zur Transformation von CRM- und ERP-Daten mit gespeicherten BigQuery-Prozeduren.
    • ?Schreiben und validieren des Modellentwurfs und die Geschäftsregeln mit Kunden.
    • Entwicklung eines Speicherverfahrens für Datenbereinigung, Filterung, Zuordnung, abgeleitete Metriken, Sortierung und Datenanreicherung.
    • Hinzufügen von Transformationen in die endgültige Gruppe von Tabellen (Analyseschicht.
    • Konfiguration von BigQuery-Aufträgen und -Warnungen für die regelmäßige Ausführung des ELT.
    • Dokumentieren von Modellobjekten; Tabellen, Ansichten, Felder, SQL-Code und Datenherkunft.
    • Konfiguration von der Zugriffssteuerung für das Modell, einschließlich des Erteilens von Berechtigungen für bestimmte Benutzer.
    • Erstellen von Berichten und Dashboards in PowerBI für verschiedene Arten von Marketing- und Finanzanalysen.


Ergebnisse

  • Optimierung mehrerer Marketing- und Finanzprozesse in Bezug auf Kundenverhalten, Retouren und Umsatz.
  • Schaffung eines neuen Modells zur Verbesserung der Entscheidungsfindung im Top-Management.
  • Verbesserte Datenverfügbarkeit und -konsistenz für alle Benutzer.

BigQuery SQL PowerBI
E-Commerce
7 months
2021-08 - 2022-02

Entwicklung und Design einer Pipeline

Data Engineer BigQuery PySpark und Airflow PySpark ...
Data Engineer

Das Ziel dieses Projekts ist es, eine Datenpipeline zu entwerfen und aufzubauen, um Daten aus den CRM- und ERP-Systemen des Unternehmens zu extrahieren und in BigQuery zu laden. Die Daten stammen aus unterschiedlichen Quellen wie CSV- und JSON-Dateien, Datenbanken, Webdiensten und APIs von Drittanbietern. Das Projekt verwendet Airflow-DAGs und PySpark-Jobs, um kontinuierlich Daten zu extrahieren und in Tabellen zu laden, um Daten zu replizieren und weitere Transformationen durchzuführen.

  • Entwicklung und Design einer Pipeline, um Daten aus den CRM- und ERP-Systemen für Analyse und Reporting zu erhalten.
    • Entwurf einer Pipeline-Architektur und validieren Sie die erforderlichen Informationsquellen und Felder mit Geschäftsanwendern.
    • Coding von PySpark-Aufträgen, um sie aus jeder Datenquelle (Bucket, Datenbank, Webdienst usw.) zu extrahieren.
    • Laden aller extrahierten Daten in BigQuery-Tabellen.
    • Entwerfen von Luftstrom-DAGs, um alle Aufgaben im erforderlichen Intervall auszuführen.
    • Erstellen von Python-Skripte für das kontinuierliche Hochladen von Systemdateien in den Cloud-Speicher.
    • Erstellen einer Cloud-Funktion, um eine DAG auszulösen, wenn ein System dem Bucket eine neue Datei hinzufügt.
    • Übergeben des gesamten Codes an Git, um eine kontinuierliche Entwicklung und Bereitstellung zu ermöglichen.
    • Dokumentieren Sie die Pipeline, die Objekte und den Code.


Ergebnisse

  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.
  • Datenzentralisierung und -integration zur Vereinfachung von Geschäftsprozessen und Datenanalysen.
  • Reduzierte Belastung externer Systeme, die hauptsächlich für den Betrieb, die Analyse und das Reporting verwendet werden.

BigQuery PySpark und Airflow PySpark Airflow
E-Commerce
7 months
2018-11 - 2019-05

Requirement Engineering

IT Business Analyst SSIS PySpark Teradata ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein neues Datenmodell der Mitarbeiterdaten zu entwerfen. Ziel ist es, Daten aus verschiedenen Systemen zu sammeln und in einer einheitlichen Quelle der Wahrheit zusammenzuführen. An dem Projekt sind mehrere Teams aus verschiedenen Geschäftsbereichen beteiligt, um die Anforderungen zu sammeln, und das BI-Team, um die endgültige Lösung zu erstellen.

  • Entwerfen Sie technische Anforderungen, um Mitarbeiterdaten aus verschiedenen Systemen zu sammeln (HR-Projekt)
    • Requirement Engineering für alle Datenquellen, Spalten, erforderlichen Transformationen und Metriken.
    • Requirement Engineering für alle Berichte und KPIs.
    • Validieren Sie Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Präsentation und Dokumentation eines Proof of Concept mit Python und SQL für einige Datenquellen.
    • Entwicklung von Datenpipelines durch das BI-Team, um Informationen aus einer Vielzahl von Systemen zu nutzen.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Dokumentation des Modells mit dem Data-Governance-Team.


Ergebnisse

  • Datenzentralisierung und -integration zur Verbesserung der HR-Prozesse (Einstellung, Personalbestand usw.).
  • Entwicklung von Mitarbeiterprofilen zur schnellen Identifizierung der Sozialleistungen, des Gehalts, des Rentenschemas usw.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS PySpark Teradata AWS Tableau PowerBI
E-Commerce
10 months
2018-01 - 2018-10

Datenerfassung für Rückbuchungsstreitigkeiten

IT Business Analyst SSIS PySpark Teradata ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein neues Datenmodell zu entwerfen, das alle Informationen enthält, die für die Bearbeitung von Rückbuchungsstreitigkeiten erforderlich sind. Ziel ist es, Kundendaten aus verschiedenen Systemen (Online-Verkäufe, Kundenprofil, Betrugserkennung, Flugtickets und -manifeste, Online-Zahlungsabwicklung usw.) in einer einheitlichen Quelle der Wahrheit zusammenzuführen und diese Informationen zu verwenden, um Berichte und Backoffice-Apps für das Charge Back-Analyseteam zu erstellen.

  • Konzeption und Sammlung von technischen Anforderungen zur Datenerfassung für Rückbuchungsstreitigkeiten (Finanzprojekt)
    • Requirement Engineering für alle Datenquellen, Spalten, erforderlichen Transformationen und Metriken.
    • Requirement Engineering für alle Berichte und KPIs.
    • Validierung von Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Präsentation und Dokumentation eines Proof of Concept mit Python und SQL für Datenquellen.
    • Entwicklung von Datenpipelines durch das BI-Team, um Informationen aus einer Vielzahl von Systemen zu nutzen.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Dokumentation des Modells mit dem Data-Governance-Team.


Ergebnisse

  • Die Gewinnrate von Rückbuchungsfällen wurde um mindestens 20 % erhöht.
  • Datenzentralisierung und -integration, um die Untersuchung von Rückbuchungsfällen zu beschleunigen und Bankbehörden schneller zu antworten.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS PySpark Teradata AWS Tableau
E-Commerce
1 year 4 months
2016-09 - 2017-12

Datenerfassung zur Betrugserkennung

IT Business Analyst TIBCO SSIS PySpark ...
IT Business Analyst

Das Ziel dieses Projekts ist es, ein System zur Betrugserkennung und -prävention in die Produktion zu bringen, das konsolidierte Daten aus mehreren Datenströmen in einem Ökosystem von Drittanbieterund intern entwickelten Lösungen nutzt. Das System benötigt eine große Menge an verschiedenen Informationen aus mehreren Quellen, um eine optimale Betrugserkennung zu erreichen, einschließlich, aber nicht beschränkt auf Flugroute, Passagierdaten und Tickets, Vielfliegerinformationen, Karten- und Zahlungsinformationen, E-Mail- und Kundenkontaktinformationen. Das System verwendet Informationen hauptsächlich für 2 Zwecke: Ein internes diskretes System bewertet und markiert jede Online-Transaktion als Betrug/Nicht-Betrug und ein maschinelles Lernmodell, das historische Daten analysiert, um betrügerisches Verhalten zu lernen und zu entdecken. Das Projekt setzt viele Technologien ein, um Datenpipelines, Nachrichtenwarteschlangen, Datenmodelle, Berichte und Dashboards zu erstellen.

  • Entwurf und Sammlung von technischen Anforderungen zur Datenerfassung zur Betrugserkennung (Finance Project)
    • Auswertung aller verfügbaren Datenströme (Inhouse- und Fremddatendienste verfügbar).
    • Requirement Engineering für alle erforderlichen Datenquellen, einschließlich erforderlicher Spalten und Transformationen.
    • Proof of Concept mit Python und SQL für verschiedene Datenquellen.
    • Validierung von Anforderungen und Geschäftsregeln mit Hilfe von Stakeholdern und Geschäftsanwendern.
    • Entwurf der Datenarchitektur (Diagramme und Dokumentation erforderlich).
    • Entwicklung der Datenpipeline durch das BI-Team, um Informationen aus einer Vielzahl von Schnittstellen (intern und extern) zu nutzen.
    • Erweiterung des Enterprise Service Bus, um neue Informationsquellen bereitzustellen.
    • Erweiterung einer Messaging-Warteschlange um Geschäftsregeln zur Priorisierung von Transaktionen für die Betrugsanalyse.
    • Entwicklung und Einsatz eines Machine-Learning-Systems, das kontinuierlich neue Betrugstrends erlernt.
    • Integration des Hauptsystems für das Betrugsmanagement und Feinabstimmung aller Geschäftsregeln.
    • Codeansichten in SQL, die von Berichten und Dashboards genutzt werden sollen.
    • Erstellung administrativer Apps, Berichte und Dashboards für den internen Gebrauch.
    • Technische und Benutzerdokumentation aller Teile und Komponenten des Systems.


Ergebnisse

  • Erhöhung der Erkennungsrate auf mehr als 90 % über alle betrügerischen Transaktionen.
  • Steigerung der Kundenzufriedenheit, indem Sie die Anzahl der falsch positiven Fälle reduzieren.
  • Das Hinzufügen neuer Modelle und die Verbesserung des ESB eröffnen neue Wege und machen Informationen für andere Geschäftsbereiche wiederverwendbar.
  • Datenzentralisierung und -integration, um Betrugsermittlungen zu beschleunigen und Online-Transaktionen schneller zu verarbeiten.

TIBCO SSIS PySpark Teradata AWS Tableau CyberSource
E-Commerce
7 months
2016-01 - 2016-07

Entwicklung eines ETL-Prozesses

BI Developer SSIS SQL-Server SFTP
BI Developer

Das Ziel dieses Projekts ist es, eine ETL zu entwickeln, um Textdateien von einem Mainframe (VisionPlus) zu verarbeiten, der Kreditkartentransaktionen speichert. Der ETL-Prozess wird mit SQL Server Integration Services entwickelt, um Dateien in einer internen SFTP-Site zu extrahieren, die Daten zu transformieren und mit vorhandenen Tabellen zu kombinieren und schließlich in SQL-Server zu laden.

  • Entwicklung eines ETL-Prozesses zur Verarbeitung von Mainframe-Dateien mithilfe von SSIS.
    • Besprechen von Anforderungen mit den Business-Analysten.
    • Entwicklung von ETL-Prozessen, um alle erforderlichen Dateien mithilfe von SSIS zu verarbeiten.
    • Validieren und vergleichen Sie Abschlusstabellen mit Originaldateien mit den Business-Analysten.
    • Dokumentieren Sie alle Komponenten der Lösung.


Ergebnisse

  • Das Kreditkartendatenmodell wurde durch Hinzufügen neuer Karteninhaberdaten und -dimensionen erweitert.
  • Verbesserte Datenzentralisierung und -integration, um die Untersuchung von Kreditkartentransaktionen zu beschleunigen.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand sind.

SSIS SQL-Server SFTP
E-Commerce
6 months
2015-07 - 2015-12

Codierung von Skripten

BI Developer Visual Basic SFTP Mainframe
BI Developer

Das Ziel dieses Projekts ist es, Daten aus einem Mainframe zu extrahieren, die für die Analyse und Berichterstattung benötigt werden. Das Projekt verwendet Visual Basic, um Daten von bestimmten Bildschirmen im System zu extrahieren und in Textdateien zu speichern.

  • Codierung von Skripten zum bedarfsgerechten Extrahieren von Daten aus einem Mainframe mit Visual Basic
    • Besprechen von Anforderungen mit den Business-Analysten.
    • Entwickeln Sie ein Visual Basic-Skript zum Extrahieren von Daten aus erforderlichen Bildschirmen für alle Kunden.
    • Validieren Sie den Dateiinhalt mit den im System angezeigten Informationen.
    • Dokumentieren Sie die Lösung.


Ergebnisse

  • Extraktion von neuen Dimensionen von Daten, die das Unternehmen benötigt, um Fälle schneller zu untersuchen.
  • Automatisierte und konsistente Datenextraktion, um sicherzustellen, dass die Informationen auf dem neuesten Stand bleiben.
  • Ein manuelles Herunterladen einzelner Dateien im System ist nicht mehr erforderlich.

Visual Basic SFTP Mainframe
E-Commerce
10 months
2014-09 - 2015-06

Erstellung von gespeicherten Prozessen zur Generierung von Kontoauszügen

BI Developer SQL-Server
BI Developer

Das Ziel dieses Projekts ist es, neue Ansichten zu erstellen, die von einer Finanzanwendung genutzt werden können, die Kreditkartenabrechnungen ausgibt. Die Ansichten werden gemäß den Geschäftsregeln in SQL-Server mithilfe von Speicherprozeduren erstellt.

  • Erstellung von gespeicherten Prozessen zur Generierung von Kontoauszügen gemäß den Anforderungen in SQL-Server
    • Überprüfung der Anforderungen mit den Business-Analysten.
    • Codespeichern Sie Prozeduren gemäß Geschäftsregeln und speichern Sie Datasets als Ansichten.
    • Validieren Sie die Datenvervollständigung und -integrität in jeder Ansicht mit Geschäftsanwendern.
    • Dokumentieren Sie die Lösung.


Ergebnisse

  • Erweiterung des aktuellen Datenmodells durch Hinzufügen neuer Ansichten.
  • Erleichterung der Erstellung verbesserter Kreditkartenabrechnungen für Bankangestellte.
  • Korrektur von Fehlern und Ersatz von Altberichten und -auszügen.

SQL-Server
E-Commerce

Aus- und Weiterbildung

Aus- und Weiterbildung

Master of Science in Artificial Intelligence & Data Science

Heinrich-Heine-Universität, Düsseldorf


Bachelor of Science in Systems Engineering

USMA, Panama


Weiterbildungen und Zertifikate

2024

  • Certified dbt Developer (Angehend)
  • SnowPro Core Certified


2021

GCP Professional Certification


2018

AWS-Solutions architect


2017

Six Sigma Yellow Belt


2015

Professional SCRUM Developer

Position

Position

Cloud Data Engineer & Reporting Specialist

Kompetenzen

Kompetenzen

Top-Skills

Data Engineer Datawarehouse SQL Python SQL-Programmierung Business Intelligence Data-Mart

Produkte / Standards / Erfahrungen / Methoden

Profil

Ein Datenfreak mit mehr als 7 Jahren Erfahrung in den Bereichen BI und ML-Engineering. Mein Fachwissen hat sich zu einer Leidenschaft für den Aufbau von End to-End-Datenprozessen und MLLösungen entwickelt, um neue Trends zu erkennen und Geschäftsprozesse zu automatisieren. Ich bin immer begeistert davon, neue Technologien und Plattformen zu erlernen, die dazu beitragen, mehr Wert für Unternehmen und Kunden zu schaffen. Gleichzeitig freue ich mich darauf, Teil der neuen KI-Ära und der Entwicklung moderner Lösungen zu sein, mit denen Unternehmen immer einen Schritt voraus sind.


Fähigkeiten und Kompetenzen

  • Data Engineering
  • Data Warehousing
  • Reporting & BI
  • Machine Learning Engineering
  • Data Science


Von Kunden und Kollegen geschätzt

  • Kreativ und pragmatisch in jedem Projekt, an dem ich beteiligt bin, immer mit Ideen und neuen Wegen, Dinge zu tun.
  • Sehr kommunikativ und ein guter Zuhörer, gleichzeitig genieße ich es, zu präsentieren und zu erklären, was ich weiß oder in letzter Zeit gelernt habe. 
  • In einem Team ist es mein Weg, jedes Mitglied individuell zu kennen und dadurch die Verbundenheit zwischen allen Mitgliedern zu fördern.


Methoden

  • Business Intelligence
  • Data Engineering
  • Data Vault 2.0
  • Machine Learning Engineering
  • LLM Finetuning
  • Requirement Engineering
  • DevOps
  • Design Thinking
  • Agile Development


Anwendungen

  • JIRA / Confluence
  • Databricks
  • Portainer
  • Terraform
  • Gitlab
  • Github
  • Google Collab
  • Jupyter Lab
  • Jenkins
  • Snowflake
  • Let?s Encrypt
  • Webservers (NGINX, Apache)
  • UNRAID
  • Linux ? Debian & Ubuntu Server


Programmiersprachen/ Frameworks

  • Python
  • Pandas & NumPy
  • SQL
  • Git
  • dbt
  • Plotly & Streamlit
  • Azure DevOps
  • Docker
  • Docker Compose
  • YAML
  • Scikit-Learn
  • NoSQL
  • PyTorch
  • Python NLTK (NLP)
  • Python Transformers (Large Language Models (LLM))
  • NodeJS
  • Kubernetes
  • Power BI
  • BigQuery
  • AWS RDS
  • SQL-Server
  • Apache Spark ? PySpark
  • Apache Airflow
  • Prefect
  • TypeScript
  • Serverless
  • Shell Scripting
  • Batch Scripting


Cloud

  • AWS
  • GCP
  • Microsoft Azure


Berufserfahrung

04/2024 - heute


Aufgaben:

  • Unternehmensberatung Data


09/2023 - 02/2024


Aufgaben:

  • Vertrieb Beauty & Care B2B


02/2021 ? 08/2023


Aufgaben:

  • Blumen Vertrieb B2B


09/2016 ? 07/2019

Kunde: Luft und Raumfahrt


09/2014 ? 08/2016


Aufgaben:

  • Online-Zahlungsabwicklung

Vertrauen Sie auf Randstad

Im Bereich Freelancing
Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.