Konzeption eines Open Source SOCs (Security Operations Center)
DS-Ansatz (Data Science):
Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme [Modellleckagen, Entscheidungserklärungen in Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.
Autonomous Driving Projekt: Self-Driving Cars
DS-Ansatz (Data Science):
TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs mit Tableau.
Aufbau des SOCs (Security Operations Centers) sowie die engere Verzahnung/Integration der Tools, Vulnerability Management, Security Assessments/Bewertungen/Security-Architektur und Vorgehens-Empfehlungen, insbesondere bei der Einführung von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) sowie SAP für Kernbanking (Deposits Management, Collateral Management, Loans Management, Financial Supply Chain Management, SAP Bank Analyzer) bei gleichzeitiger Betrachtung der DSGVO-/GDPR-Anforderungen.
DS-Ansatz (Data Science):
zur Erkennung von Incidents/Malware/Netzwerk-Anomalien
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Visualisierung der mögl. Incidents, KPIs mit Tableau.
DS-Ansatz (Data Science):
Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), ML-Debugging/Explainable AI im Kontext von LIME, SHAP, partial dependency plots [model leakages, decision explanations in if-statements, …]; Model-Storage in PMML mit angepasstem OpenScoring.io (mit Spring) und Apache Phoenix, Propensity Modeling.
Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala
DS-Ansatz (Data Science):
Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Assoziationsanalyse, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Propensity Modeling.
Make or Buy Entscheidungs-Vorbereitung im Marketing bzgl. einer In-House Customer Intelligence (CI) und Programmatic Advertising Lösung für Cross-Selling über verschiedene Kunden-Touchpoints hinweg, Dynamic Offering, Net Promoter Score (NPS) Optimierung und Data-driven Sales (DDS) per Data Management Platform (DMP).
DS-Ansatz (Data Science):
Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, Propensity Modeling.
Projekt:
Erstellung eines bankweiten Cloudera-Hadoop basierenden Business Transaction Stores (Speicher für alle Finanztransaktionen als Digital Transformation / Digital eXperience (DX) Plattform) mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den folgenden Bereichen: Kontobewegungen, Aktien, Zinsinstrumente, Derivate, ETFs, Fonds (d.h. beliebige “Securities” bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Übersichten für’s Wealth Management sowie Steuern, Reporting, Betrugserkennung und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
Typ/Dauer:
Weil CS zum 2. Mal hintereinander einen Verlust von ca. 2,5 Mrd. CHF eingefahren hatte, wurde das Projekt kleiner als geplant umgesetzt und es sollte der Rest Offshore umgesetzt werden. Durch professionelles Coaching sollte nur das professionelle Aufgleisen und Ausrichten des Projekts sichergestellt werden incl. Etablierung einer professionellen Kommunikationsstruktur.
Eigene Rolle:
Couch mit Schwerpunkt Big Data Architektur, IT Projektmanagement und teilweise SPOC–Funktionalität (single point of contact) zum Erlangen des Überblicks für alle Fragen zwischen den CS-Fachbereichen und dem Offshore IT-Team und zum professionellen Aufsetzen der Kommunikation bzw. deren Optimierung zwischen jeweils passenden Personen.
DS-Ansatz (Data Science):
Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Überwachte Klassifizierung, Apriori-Analyse, Gradient Boosting, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Assoziationsanalyse, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Eigene Rolle:
Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.
Projekt:
Konzeption einer Microservice-Strategie und eines Architektur-Blueprints für alle SW-Entwicklungsprojekte bei AOK Nordost und AOK Systems incl. Dienstleistern sowie auch für Mobile Apps mit Big Data Integration für Datenaustausch und Data Science.
Digital Windfarm: Konzeption einer "on premise" und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern (Alterung, Regen, Leistungsoptimierung am jeweiligen Standort) basierend auf den GE-Flex5-Tools.
GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3
DS Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer
Konzeption des pace Systems als zentrales IT-System der Marktforschung und Ablösung von StarTrack zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte mit Perspektive auf andere Märkte wie Optik-Produkte, Media, etc.
DS-Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer
Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell
DS-Ansatz:
Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), Maximum-Likelihood-Schätzer, Apriori, Gradient Boosting.
Projekt:
Big Data Projekt im Bereich zielgerichtete Online- und Mobile-Werbung durch Erstellung von Kundenprofilen. Konzeption einer Data Management Platform (DMP) in Kooperation mit TheADEX, Berlin. Datenaustausch mit diversen Medienpartnern und Zusammenführen dieser Daten zu Nutzerprofilen, Ableitung von Kunden-Interessen sowie Negativ-Merkmalen offline und in Echtzeit (Lambda-Architektur); Kanban.
Typ/Dauer:
Aufgrund der starken Konkurrenz im DMP-Bereich (Google, Facebook, MS und mehr als 100 weitere DMP-Anbieter) und weil TheADEX ein Startup war, war von Anfang an nicht mehr als ein professionelles Aufgleisen des Projekts durch mich als Coach geplant.
DS-Ansatz:
Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Apriori, Gradient Boosting, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil der Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
Projekt:
Big Data Projekt im Bereich Predictive Maintenance von Medizin-Geräten mit zentraler SCADA-Komponente, vor allem im Radiologie-/Röntgen-Bereich (CTs, MRTs, C-Bogen, Spect-CTs, etc.), d.h. es sollen Service-Techniker möglichst vor dem Versagen einer Komponente diese austauschen, um maximale Verfügbarkeit für die Patienten sicherzustellen, wurde später Teil von MindSphere; Scrum.
DS-Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART, Apriori, Gradient Boosting. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.
Konzeption/Implementierung der Integration des Fingerabdruck-Scanners in einen Geldautomat / ATM, Schwerpunkt auf sichere Datenaustauschprotokolle zwischen Sensor, Automat und Backend. Dazu Erstellen eines Sicherheitskonzepts für die Nutzung von Fingerabdruck-Scannern für Bank-Automaten (ATM) und Mobile Banking, Umsetzung von Kernelementen dieses Konzepts im Rahmen eines Prototyps für Kunden-Showcases; Scrum.
DS-Ansatz:
Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.
Projektziele:
Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung, d.h. jedem Besucher der Webseite möglichst viel passende Werbung einzublenden und dabei eine möglichst hohe Klickrate zu erzielen (Online-Werbung, Affiliate Marketing, Profil- und Interessenanalyse).
Aufgaben
Projektziele:
Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.
Aufgaben
Projektziele:
Neuentwicklung eines MS Azure basierten internen Backend API für RESTful Webservices für das „Connected Car“ Projekt im After-Sales-Markt für europäische Märkte basierend auf einer bestehenden Version aus den USA, der zugehörigen iOS/Android App Backends sowie der APIs der On-Board-Units für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Aufgaben Fachlich:
Technisch:
Projektziel:
Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.
Aufgaben Fachlich:
Technisch:
Projektziel:
Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement. Konzeption und teilweise Umsetzung diverser Erweiterungen eines Eclipse-RCP- und LibreOffice-basierten Dokumenten- und Text-Baustein-Verwaltungssystems.
Aufgaben Fachlich:
Konzeption einer neuen zentralen Business-Logik- und Entity-Klassen-Schicht zum flexibleren Management von Änderungen, Versionen, Baselines, Releases sowie entsprechender Migrationsstrategien. Verbesserung der IT-Sicherheit sowie konzeptionelle Umsetzung diverser Change Requests.
Hintergrund: Die BG Phoenics ist zentraler IT-Dienstleister der Dt. Berufsgenossenschaften und deren 100%ige Tochter. Die weiterentwickelte Software dient hauptsächlich der komfortablen graphischen Verwaltung von juristisch korrekt formulierten Textbausteinen, die dann über viele Hierarchie- und Wiederverwendungsebenen zu Musterbriefen zusammengebaut werden. So wird sichergestellt, dass Sachbearbeiter keine großen Schulungen und juristische Kompetenzen benötigen, um dennoch rechtssichere Briefe ohne nennenswerte nachgelagerte Prüf- oder Korrekturaufwände erstellen zu können. Da es häufig um sechsstellige Summen im Zusammenhang mit Betriebsunfällen und Berufsunfähigkeit geht, was später nicht selten vor Gericht verhandelt wird, ist entsprechende Rechtssicherheit bei geringen Verwaltungskosten sehr wichtig.
Technisch:
Projektziel:
Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.
Aufgaben Fachlich:
Konzeption von Migrationsstrategien zur Einführung eines neuen Fall-Management-Systems (Case Management System) für den Patent-Lebenszyklus, Analyse der Vor- und Nachteile schwer- und leichtgewichtiger Java Enterprise Architekturen (SOA/ESB und REST) und Definition von Standards, Tools/Komponenten und Methodiken zur Ausgestaltung der Nutzung dieser Technologien. Konzeption einer Zwischenschicht (Mediation Layer) zur Entkopplung der Legacy-Systeme gegenüber dem Case Management System und zur Durchführung der Migration von 90% der Legacy-System-Funktionalität hin zu Komponenten im Case Management System.
Technisch:
Projektziel:
Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.
Aufgaben Fachlich:
Technisch:
Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.
Institution: Grundschule
Institution: Gymnasium
Ausbildung: mehrmonatige Schüleraustausche mit Frankreich & Kanada
Abschluss: Abitur
Ausbildung: Studium
Schwerpunkte:
Big Data, Computer Vision, Data Science, IT-Sicherheit
Profil:
Wehrdienst:
1991-1992:
Beruflicher Werdegang:
2010 - heute:
Aufgaben:
1999 ? heute:
Rolle: Unternehmensberater
Aufgaben:
Erfolge:
1998 ? 2010:
Aufgaben:
Frühe Berufstätigkeit während der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence
Key Skills:
Stochastik-, Statistik- und Data-Science-Libraries, Semantic Web, semantische Suche mit Ontologien/Thesauri/strukturierten lexikalischen Daten mit stochastischen Ähnlichkeitsmaßen über Begriffe/Inhalte, OWL, DAML+OIL, NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Data Mining, Business Intelligence (BI) mit relationalen und objektorientierten DBs, Helpdesk-Automatisierung, Büroautomatisierung (OCR + ICR: Z.B. Prüfung von medizinischen Abrechnungen, Versicherungsfällen, Vorschlagen von Textbausteinen zur Beantwortung von Briefen).
Projekte mit KI-Anteilen:
Beratung:
Know-how:
Methoden und Verfahren:
Software/Werkzeuge:
Methoden und Verfahren:
Meine Erfahrung mit Serverless (Tools/Platforms):
Gelegentlich, in freier Zeit zwischen Großprojekten, abends/am Wochenende:
Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen großen Überblick über aktuelle Real-World-Architekturen.
Meine Erfahrung mit Hadoop/Big Data/Data Science:
Meine Data Science Kenntnisse:
Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):
Techniken: Konzeptuelle, logische, physikalische Datenmodelle/ER-Modelle erstellen/optimieren (3NF, Star Schema (fact/dimension tables), Snowflake Schema, Data Vault nach Linstedt), Dimensional Data Modeling/Normalization (Business Processes/Grains/Dimensions/Facts), Online Analytical Processing (OLAP: Microsoft, Cognos, Pentaho/Mondrian), OLAP-Würfel/OLAP-Cubes (Modellierung, Slicing, Dicing, Pivoting, Drill-Down), CRISP-DM, Application Design for Analytical Processing Technologies (ADAPT). Darüber hinaus habe ich auch Talend Open Studio verwendet für Zuordnungen, z. B. bei Schwaebisch-Hall/Kreditwerk, für die Deutsche Bank und Walgreens Boots Alliance (WGA) / Megapharm.
Meine Erfahrung mit Scala:
Zunächst habe ich einige Jahre lang Erfahrung mit ScalaCheck in Java und dann in Scala gesammelt. Mit dem Siegeszug von Hadoop und Spark habe ich dann in einer Reihe von Projekten direkt in Scala programmiert: Daimler via Deloitte, Siemens, HavasMedia, GfK. Vor allem bei der Nutzung von Spark ist Scala sehr wichtig, da Spark erst damit seine volle Mächtigkeit entfaltet und man es benötigt, um sich über die Funktionsweise der Spark-APIs umfassend informieren zu können.
Meine Scala-Projekte:
Mir bekannte Scala-Patterns/Techniken:
Mir bekannte Scala-Libraries:
Meine Ansätze zur Betrugserkennung:
Die Schritte im Data Mining-Prozess sind:
Algorithmus-Klassen:
Die am häufigsten verwendeten Algorithmen:
Lineare Diskriminanzanalyse, quadratische Diskriminanzanalyse, regularisierte Diskriminanzanalyse, Naive Bayes, k-nächste Nachbarn, logistische Diskriminanzanalyse, Perzeptronen / neuronale Netze, Maximum-Likelihood-Schätzer, radiale Basisfunktions-Methoden, Vektorquantisierungs-Methoden, nächste-Nachbarn und Kernel-nichtparametrische Methoden z.B. Parzen Kernel, Baum-Klassifikatoren wie CART und C4.5, Support Vector Machines (SVM), regelbasierte Methoden, zufällige Wälder, Mischungen von multivariaten Gauß-Methoden, selbstorganisierende Maps, minimaler Spannbaum-basierende Datenbeschreibung, Minimax-Wahrscheinlichkeits-Maschine, usw.
Modellierungs-Ziele und Data-Mining-Techniken:
Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:
Konkrete Beispiele von Betrugserkennungs-Lösungen, die ich erarbeitet habe:
Herausforderungen:
Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.
Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020
Weitere Länder: Attraktive Städte/Orte bevorzugt.
Konzeption eines Open Source SOCs (Security Operations Center)
DS-Ansatz (Data Science):
Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme [Modellleckagen, Entscheidungserklärungen in Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.
Autonomous Driving Projekt: Self-Driving Cars
DS-Ansatz (Data Science):
TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs mit Tableau.
Aufbau des SOCs (Security Operations Centers) sowie die engere Verzahnung/Integration der Tools, Vulnerability Management, Security Assessments/Bewertungen/Security-Architektur und Vorgehens-Empfehlungen, insbesondere bei der Einführung von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) sowie SAP für Kernbanking (Deposits Management, Collateral Management, Loans Management, Financial Supply Chain Management, SAP Bank Analyzer) bei gleichzeitiger Betrachtung der DSGVO-/GDPR-Anforderungen.
DS-Ansatz (Data Science):
zur Erkennung von Incidents/Malware/Netzwerk-Anomalien
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Visualisierung der mögl. Incidents, KPIs mit Tableau.
DS-Ansatz (Data Science):
Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), ML-Debugging/Explainable AI im Kontext von LIME, SHAP, partial dependency plots [model leakages, decision explanations in if-statements, …]; Model-Storage in PMML mit angepasstem OpenScoring.io (mit Spring) und Apache Phoenix, Propensity Modeling.
Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala
DS-Ansatz (Data Science):
Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Assoziationsanalyse, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Propensity Modeling.
Make or Buy Entscheidungs-Vorbereitung im Marketing bzgl. einer In-House Customer Intelligence (CI) und Programmatic Advertising Lösung für Cross-Selling über verschiedene Kunden-Touchpoints hinweg, Dynamic Offering, Net Promoter Score (NPS) Optimierung und Data-driven Sales (DDS) per Data Management Platform (DMP).
DS-Ansatz (Data Science):
Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, Propensity Modeling.
Projekt:
Erstellung eines bankweiten Cloudera-Hadoop basierenden Business Transaction Stores (Speicher für alle Finanztransaktionen als Digital Transformation / Digital eXperience (DX) Plattform) mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den folgenden Bereichen: Kontobewegungen, Aktien, Zinsinstrumente, Derivate, ETFs, Fonds (d.h. beliebige “Securities” bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Übersichten für’s Wealth Management sowie Steuern, Reporting, Betrugserkennung und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
Typ/Dauer:
Weil CS zum 2. Mal hintereinander einen Verlust von ca. 2,5 Mrd. CHF eingefahren hatte, wurde das Projekt kleiner als geplant umgesetzt und es sollte der Rest Offshore umgesetzt werden. Durch professionelles Coaching sollte nur das professionelle Aufgleisen und Ausrichten des Projekts sichergestellt werden incl. Etablierung einer professionellen Kommunikationsstruktur.
Eigene Rolle:
Couch mit Schwerpunkt Big Data Architektur, IT Projektmanagement und teilweise SPOC–Funktionalität (single point of contact) zum Erlangen des Überblicks für alle Fragen zwischen den CS-Fachbereichen und dem Offshore IT-Team und zum professionellen Aufsetzen der Kommunikation bzw. deren Optimierung zwischen jeweils passenden Personen.
DS-Ansatz (Data Science):
Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Überwachte Klassifizierung, Apriori-Analyse, Gradient Boosting, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Assoziationsanalyse, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Eigene Rolle:
Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.
Projekt:
Konzeption einer Microservice-Strategie und eines Architektur-Blueprints für alle SW-Entwicklungsprojekte bei AOK Nordost und AOK Systems incl. Dienstleistern sowie auch für Mobile Apps mit Big Data Integration für Datenaustausch und Data Science.
Digital Windfarm: Konzeption einer "on premise" und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern (Alterung, Regen, Leistungsoptimierung am jeweiligen Standort) basierend auf den GE-Flex5-Tools.
GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3
DS Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer
Konzeption des pace Systems als zentrales IT-System der Marktforschung und Ablösung von StarTrack zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte mit Perspektive auf andere Märkte wie Optik-Produkte, Media, etc.
DS-Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer
Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell
DS-Ansatz:
Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), Maximum-Likelihood-Schätzer, Apriori, Gradient Boosting.
Projekt:
Big Data Projekt im Bereich zielgerichtete Online- und Mobile-Werbung durch Erstellung von Kundenprofilen. Konzeption einer Data Management Platform (DMP) in Kooperation mit TheADEX, Berlin. Datenaustausch mit diversen Medienpartnern und Zusammenführen dieser Daten zu Nutzerprofilen, Ableitung von Kunden-Interessen sowie Negativ-Merkmalen offline und in Echtzeit (Lambda-Architektur); Kanban.
Typ/Dauer:
Aufgrund der starken Konkurrenz im DMP-Bereich (Google, Facebook, MS und mehr als 100 weitere DMP-Anbieter) und weil TheADEX ein Startup war, war von Anfang an nicht mehr als ein professionelles Aufgleisen des Projekts durch mich als Coach geplant.
DS-Ansatz:
Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Apriori, Gradient Boosting, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil der Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
Projekt:
Big Data Projekt im Bereich Predictive Maintenance von Medizin-Geräten mit zentraler SCADA-Komponente, vor allem im Radiologie-/Röntgen-Bereich (CTs, MRTs, C-Bogen, Spect-CTs, etc.), d.h. es sollen Service-Techniker möglichst vor dem Versagen einer Komponente diese austauschen, um maximale Verfügbarkeit für die Patienten sicherzustellen, wurde später Teil von MindSphere; Scrum.
DS-Ansatz:
Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART, Apriori, Gradient Boosting. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.
Konzeption/Implementierung der Integration des Fingerabdruck-Scanners in einen Geldautomat / ATM, Schwerpunkt auf sichere Datenaustauschprotokolle zwischen Sensor, Automat und Backend. Dazu Erstellen eines Sicherheitskonzepts für die Nutzung von Fingerabdruck-Scannern für Bank-Automaten (ATM) und Mobile Banking, Umsetzung von Kernelementen dieses Konzepts im Rahmen eines Prototyps für Kunden-Showcases; Scrum.
DS-Ansatz:
Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.
Projektziele:
Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung, d.h. jedem Besucher der Webseite möglichst viel passende Werbung einzublenden und dabei eine möglichst hohe Klickrate zu erzielen (Online-Werbung, Affiliate Marketing, Profil- und Interessenanalyse).
Aufgaben
Projektziele:
Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.
Aufgaben
Projektziele:
Neuentwicklung eines MS Azure basierten internen Backend API für RESTful Webservices für das „Connected Car“ Projekt im After-Sales-Markt für europäische Märkte basierend auf einer bestehenden Version aus den USA, der zugehörigen iOS/Android App Backends sowie der APIs der On-Board-Units für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Aufgaben Fachlich:
Technisch:
Projektziel:
Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.
Aufgaben Fachlich:
Technisch:
Projektziel:
Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement. Konzeption und teilweise Umsetzung diverser Erweiterungen eines Eclipse-RCP- und LibreOffice-basierten Dokumenten- und Text-Baustein-Verwaltungssystems.
Aufgaben Fachlich:
Konzeption einer neuen zentralen Business-Logik- und Entity-Klassen-Schicht zum flexibleren Management von Änderungen, Versionen, Baselines, Releases sowie entsprechender Migrationsstrategien. Verbesserung der IT-Sicherheit sowie konzeptionelle Umsetzung diverser Change Requests.
Hintergrund: Die BG Phoenics ist zentraler IT-Dienstleister der Dt. Berufsgenossenschaften und deren 100%ige Tochter. Die weiterentwickelte Software dient hauptsächlich der komfortablen graphischen Verwaltung von juristisch korrekt formulierten Textbausteinen, die dann über viele Hierarchie- und Wiederverwendungsebenen zu Musterbriefen zusammengebaut werden. So wird sichergestellt, dass Sachbearbeiter keine großen Schulungen und juristische Kompetenzen benötigen, um dennoch rechtssichere Briefe ohne nennenswerte nachgelagerte Prüf- oder Korrekturaufwände erstellen zu können. Da es häufig um sechsstellige Summen im Zusammenhang mit Betriebsunfällen und Berufsunfähigkeit geht, was später nicht selten vor Gericht verhandelt wird, ist entsprechende Rechtssicherheit bei geringen Verwaltungskosten sehr wichtig.
Technisch:
Projektziel:
Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.
Aufgaben Fachlich:
Konzeption von Migrationsstrategien zur Einführung eines neuen Fall-Management-Systems (Case Management System) für den Patent-Lebenszyklus, Analyse der Vor- und Nachteile schwer- und leichtgewichtiger Java Enterprise Architekturen (SOA/ESB und REST) und Definition von Standards, Tools/Komponenten und Methodiken zur Ausgestaltung der Nutzung dieser Technologien. Konzeption einer Zwischenschicht (Mediation Layer) zur Entkopplung der Legacy-Systeme gegenüber dem Case Management System und zur Durchführung der Migration von 90% der Legacy-System-Funktionalität hin zu Komponenten im Case Management System.
Technisch:
Projektziel:
Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.
Aufgaben Fachlich:
Technisch:
Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.
Institution: Grundschule
Institution: Gymnasium
Ausbildung: mehrmonatige Schüleraustausche mit Frankreich & Kanada
Abschluss: Abitur
Ausbildung: Studium
Schwerpunkte:
Big Data, Computer Vision, Data Science, IT-Sicherheit
Profil:
Wehrdienst:
1991-1992:
Beruflicher Werdegang:
2010 - heute:
Aufgaben:
1999 ? heute:
Rolle: Unternehmensberater
Aufgaben:
Erfolge:
1998 ? 2010:
Aufgaben:
Frühe Berufstätigkeit während der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence
Key Skills:
Stochastik-, Statistik- und Data-Science-Libraries, Semantic Web, semantische Suche mit Ontologien/Thesauri/strukturierten lexikalischen Daten mit stochastischen Ähnlichkeitsmaßen über Begriffe/Inhalte, OWL, DAML+OIL, NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Data Mining, Business Intelligence (BI) mit relationalen und objektorientierten DBs, Helpdesk-Automatisierung, Büroautomatisierung (OCR + ICR: Z.B. Prüfung von medizinischen Abrechnungen, Versicherungsfällen, Vorschlagen von Textbausteinen zur Beantwortung von Briefen).
Projekte mit KI-Anteilen:
Beratung:
Know-how:
Methoden und Verfahren:
Software/Werkzeuge:
Methoden und Verfahren:
Meine Erfahrung mit Serverless (Tools/Platforms):
Gelegentlich, in freier Zeit zwischen Großprojekten, abends/am Wochenende:
Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen großen Überblick über aktuelle Real-World-Architekturen.
Meine Erfahrung mit Hadoop/Big Data/Data Science:
Meine Data Science Kenntnisse:
Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):
Techniken: Konzeptuelle, logische, physikalische Datenmodelle/ER-Modelle erstellen/optimieren (3NF, Star Schema (fact/dimension tables), Snowflake Schema, Data Vault nach Linstedt), Dimensional Data Modeling/Normalization (Business Processes/Grains/Dimensions/Facts), Online Analytical Processing (OLAP: Microsoft, Cognos, Pentaho/Mondrian), OLAP-Würfel/OLAP-Cubes (Modellierung, Slicing, Dicing, Pivoting, Drill-Down), CRISP-DM, Application Design for Analytical Processing Technologies (ADAPT). Darüber hinaus habe ich auch Talend Open Studio verwendet für Zuordnungen, z. B. bei Schwaebisch-Hall/Kreditwerk, für die Deutsche Bank und Walgreens Boots Alliance (WGA) / Megapharm.
Meine Erfahrung mit Scala:
Zunächst habe ich einige Jahre lang Erfahrung mit ScalaCheck in Java und dann in Scala gesammelt. Mit dem Siegeszug von Hadoop und Spark habe ich dann in einer Reihe von Projekten direkt in Scala programmiert: Daimler via Deloitte, Siemens, HavasMedia, GfK. Vor allem bei der Nutzung von Spark ist Scala sehr wichtig, da Spark erst damit seine volle Mächtigkeit entfaltet und man es benötigt, um sich über die Funktionsweise der Spark-APIs umfassend informieren zu können.
Meine Scala-Projekte:
Mir bekannte Scala-Patterns/Techniken:
Mir bekannte Scala-Libraries:
Meine Ansätze zur Betrugserkennung:
Die Schritte im Data Mining-Prozess sind:
Algorithmus-Klassen:
Die am häufigsten verwendeten Algorithmen:
Lineare Diskriminanzanalyse, quadratische Diskriminanzanalyse, regularisierte Diskriminanzanalyse, Naive Bayes, k-nächste Nachbarn, logistische Diskriminanzanalyse, Perzeptronen / neuronale Netze, Maximum-Likelihood-Schätzer, radiale Basisfunktions-Methoden, Vektorquantisierungs-Methoden, nächste-Nachbarn und Kernel-nichtparametrische Methoden z.B. Parzen Kernel, Baum-Klassifikatoren wie CART und C4.5, Support Vector Machines (SVM), regelbasierte Methoden, zufällige Wälder, Mischungen von multivariaten Gauß-Methoden, selbstorganisierende Maps, minimaler Spannbaum-basierende Datenbeschreibung, Minimax-Wahrscheinlichkeits-Maschine, usw.
Modellierungs-Ziele und Data-Mining-Techniken:
Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:
Konkrete Beispiele von Betrugserkennungs-Lösungen, die ich erarbeitet habe:
Herausforderungen:
Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.
Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020
Weitere Länder: Attraktive Städte/Orte bevorzugt.