Freelancer: KI/AI, Data Science, SW-/System-Architektur, Big Data, IT-Security, EU-DSGVO, Datenschutz, Projektleitung, Product Owner, Design Thinking, Scrum, Lean

Freiberufler / Selbstständiger

Verfügbar ab: 21.08.2022

Verfügbar zu: 100%

davon vor Ort: 100%

Top-Skills

Künstliche Intelligenz

Deep Learning

IT-Sicherheitsarchitektur

GDPR

DSGVO

Sicherheitskonzept

SOC

SIEM

Big Data

IT Architektur

Enterprise Applications

Machine Learning

Robotic-Process-Automation

Produktdesign

Projektmanagement

Projektleitung

Sprachen

Deutsch

Englisch

Französisch

Latein

Einsatzorte

Städte

any (+200km)

Länder

Deutschland, Österreich, Schweiz

Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.

Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020

Weitere Länder: Attraktive Städte/Orte bevorzugt.

Remote-Arbeit

nicht möglich

Projekte

11 Monate

2019-04 - 2020-02

Konzeption eines Open Source SOCs

IT-Architekt, agiler Coach und fachlicher Projektleiter Java Constraint Library(JCL) IASolver YACS ...

Rolle

IT-Architekt, agiler Coach und fachlicher Projektleiter

Projektinhalte

Konzeption eines Open Source SOCs (Security Operations Center)

Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elastic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Verbesserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking
Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zunächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenarbeit.
Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), Wazuh, MozDef, OSSEC, Prelude OSS, Snort, QuadrantSec Sagan, Suricata, OpenStack Vitrage.
Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanagement/Product Owner Tätigkeiten.
Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führenden Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Websockets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Premium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
Konzeption der Einführung von Docker/Kubernetes für TensorFlow- und PyTorch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügbaren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Networks (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablösen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken.
Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Erklärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisierten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.

Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: ResNet, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgenden NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, GPT, GPT-2.
Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Logic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architecture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Product Keys, Deep (Double) Q-Learning, (SSL) Semi-/Self-Supervised Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
Konzeption der Deep Learning Architekturen für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen, Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufiger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, ggf. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netzwerk-Metadaten-Analyse, Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren, Erkennung von Verschlüsselung und von Schlüssel-Austauschen.
Detail-Konzeption der folgenden Solr-Aspekte: SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Rebalancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmotta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifier (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
Konzeption der Amazon AWS Cloud-Architektur mit Migrationskonzept in die Cloud und vom monolithischen Ansatz hin zu Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimiertem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Service (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athena, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), etc.
Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassisches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kibana-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachgebildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unregelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnliche API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam lernen:

Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabilistic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro oder Edward oder Microsoft Infer.Net
(SSL) Semi-Supervised Learning/Self-Supervised Learning
Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
SinGAN (Single Input GAN)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, logic/deduction systems, deductive databases, semantic networks, heuristics, collective intelligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, qualitative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum computing, analogy, pattern recognition/comparison, decision theory, cognitive science, control system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, optimization, goal-oriented systems, feature extraction/detection, utility/values/fitness/progress, formal grammars and languages, classifiers/concept formation, problem solving, argumentation/informal logic, common sense reasoning, coherence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, cooperation theory, systems theory.

Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
- Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
- Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- Für NLP Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Konzept für AIops (Artificial Intelligence Operations) / KI-Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
- Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
NLP-Analyse (Natural Language Processing) von Log- und Web-Inhalten:
- Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teilautomatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analyse & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
- Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).

DS-Ansatz (Data Science):
Eine Mischung aus Anomaly Detection, Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse + Seasonality Analysis, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke; TensorFlow+Keras sowie PyTorch – auch für semantische Sicherheits-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning. partielle Abhängigkeitsdiagramme [Modellleckagen, Entscheidungserklärungen in Reduction, STN-OCR, Scikit-learn, Pandas, Wowpal Wabbit.

Kenntnisse

Java Constraint Library(JCL) IASolver YACS Docker Kubernetes Scala Python Airflow Kubeflow CeleryExecutor RADOS + Ceph TensorFlow-Stack mit Keras AutoKeras oder PyTorch + Auto-PyTorch + AddOns Uber Horovod Apache Spark Stack mit Spark Streaming Spark SQL MLlib GraphX Alluxio TransmogrifAI Alluxio TensorFlowOnSpark PySpark mit Optimus Apache Flink Jupyter Zeppelin PyTorch MXNet Chainer Keras Horovod XGBoost CatBoost RabbitMQ ONNX Hydrosphere Serving (model management) Zephyr (Continuous Testing Agility) Red Hat OpenShift Elastic/ElasticSearch MS Azure Hybrid Cloud Kafka Kafka-REST Proxy KafkaCat Confluent Chukwa Ansible OpenTSDB Apache Ignite DB mit TensorFlow/ML-Integration CollectD Python 3.x Flask (Python Microframework: REST UI) Coconut Functional Programming für Python Robot Framework (Python acceptance test-driven development (ATDD)) CNTLM Red Hat Identity Manager / FreeIPA keycloak Samba Nginx Grafana Jenkins Nagios Databricks (Spark Kafka Connectors to R TensorFlow etc.) Snowflake RTLinux RHEL Ubuntu Kali Linux Scrum + Design Thinking + SAFe. Memory-Centric/IMDG: Apache Pulsar (schnellere Alternative zu Kafka) memcached Ignite GridGain Alluxio Redis Hazelcast Ehcache Red Hat JBoss Data Grid Pivotal GemFire ActiveMQ RabbitMQ mit AMQP MQTT. PenTesting-Tools: AutoSploit Metasploit Burp Suite NeXpose Nessus Tripwire CORE Impact Kali Linux Snort Bro Argus SiLK tcpdump WireShark parosproxy mitmproxy nmap Security Onion Bro Sguil Squert CyberChef NetworkMiner Silk Netsniff-NG Syslog-NG Stenographer osquery GRR Rapid Response Sysdig Falco Fail2Ban ClamAV Rsyslog Enterprise Log Search and Archive (ELSA) Nikto OWASP Zap Naxsi modsecurity SGUIL Mimikatz CORE Impact Kali Linux. Log-Processing-Toolsets: OpenSCAP Moloch ntopng Wireshark + plugins Fluentd Message Parser SQL-basierte Abfragen: SploutSQL Norikra + Esper (Stream /Event Processing) Cyber Grand Challenge (CGC) Tools: BinaryAnalysisPlatform bap angr s2e KLEE AFL (American fuzzy lop) Strace ZZUF Sulley BitBlaze Shellphish/Mechaphish Tools: how2heap fuzzer driller rex Protokolle: AES RSA SHA Kerberos SSL/TLS Diffie-Hellman DBs: HBase + Phoenix Hive PostgreSQL Druid Aerospike Hive Lucene/Solr/Elasticsearch SploutSQL NLP-Stack mit Google BERT/Sling spaCy GPT-2 Stanford CoreNLP AllenNLP OpenEphyra DELPH-IN PET Parser Enju Grammix Logik-/Semantik-Tools: Protégé LOOM RDF (Resource Description Framework)/ SPARQL OpenCog TinyCog Apache Jena OWL Frame-Logik OCR/ICR Libraries: Tesseract OCR engine OCRopus Formcraft Kofax KTM (Kofax Transformation Modules) Reinforcement Learning Convolutional Models/Learning Google Dopamine Policy Optimization (Policy Gradient A2C/A3C PPO TRPO DDPG TD3 SAC) Q-Learning (DDPG TD3 SAC DQN C51 QR-DQN HER) Deep (Double) Q-Learning Learn the Model (World Models I2A MBMF MBVE) AlphaZero Diverses: Learn to Grow / Catastrophic Forgetting Semi-Supervised Learning und/oder Self-Supervised Learning (SSL) SPNs (Sum-Product Networks) & VAEs (Variational Auto-Encoders) Hierarchical Temporal Memory (HTM) Bayes- bzw. Stochastik-Libraries / Probabilistic programming (PP) / Programmable Inference: Stan (mc-stan.org) PyMC3 Julia + MIT Gen Pyro Edward Microsoft Infer.Net Probabilistic Logic Networks (PLNs Pyro-Programmiersprache) Differentiable Programming Cloned Hidden Markov Models (CHMM) Logik-/Semantik-Tools: Protégé LOOM RDF (Resource Description Framework)/ SPARQL OpenCog TinyCog Apache Jena OWL Ontobridge Frame-Logik Graph-ConvNets (Graph Convolutional Networks) Case-Based Reasoning (CBR): CRATER ProCAKE COLIBRI etc. Theory of Constraints (TOC) Frameworks Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF) Java Constraint Library(JCL) IASolver BackTalk POOC YACS Integrity Classical/Probabilistic Rule Engines / Probabilistic Computer Vision

Kunde

Deutsche Bahn AG

Einsatzort

Frankfurt/Main + Homeoffice

5 Monate

2018-11 - 2019-03

Autonomous Driving Projekt

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Rolle

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Projektinhalte

Autonomous Driving Projekt: Self-Driving Cars

Agile Coaching: Scrum + Design Thinking mit Elementen aus dem Flow-Framework (Project to Product) sowie SAFe-Elementen, Verbesserung der Produktivität, Code-Stabilität und Zusammenarbeit.
Strategie zur Fokussierung und Optimierung der agilen DevOps-Team-Performance / Minimierung von Risiken: Die skalierbare Integration Dutzender komplexer teils unreifer Open Source Komponenten ist extrem komplex, weil sie oft je mehrere Hundert Konfigurations-Parameter haben (teils in Config-Files, teils über Aufrufe /Glue Code zu Scripten) und das Job- und Cluster-Situations-bezogen. Zusätzlich sind viele Workarounds oder Fallbacks nötig. Python ist die Risiko-behaftetste Sprach (z.B. weil interpretiert, Fehlerursachen manifestieren sich erst spät, kaum brauchbare Code Quality- oder Refactoring-Tools, wenig etablierte Best Practices, Entwickler kopieren Code von Internet-Trivial-Beispielen und versuchen, damit komplexe Systeme aufzubauen, …). Dann gibt es viele weitere Risiken: Mangelnde Dokumentation, zu wenig kooperative Zusammenarbeit, zu langes Warten auf nötige Inputs/Bottlenecks, zu unvollständig eingeführte Konzepte wie SSO (Single Sign-On) + persönliche Verantwortung, Sicherheits-Features, Logging-/Tracing-Features, stark divergierende wenig wartbare Implementierungen, zu spät bemerkte Limitierungen/Bugs der verwendeten Tools, in der Folge häufiges Umschwenken der Tools, mangelnde Bereitschaft zu Veränderungen (Prozesse, Gewohnheiten und Motivationen), etc.
Entwickelte Lösungsstrategien: Config-Management als Exzellenz-Disziplin + Data Governance / Data Catalogue, AIops (AI Operations), Serverless/Microservices (damit intelligentes automatisches Management und Skalierbarkeit), viele stringente und kontrollierte strategische, taktische und operative Vorgaben aufgrund von Grob-Architektur, Vision und klaren Prioritäten, vollständige Dokumentation, enge effiziente Zusammenarbeit, klare Aufgaben-Verteilung und Planung (strategisches Produkt Management / Portfolio-Management / Produktlinien-Architekturen) mit Berücksichtigung von Abhängigkeiten, Erkennung & Beseitigung von Bottlenecks, intelligentes Monitoring, KI-basiertes Testing (Anomalie-Erkennung in Kombination mit Logging/Tracing) mit mehreren Test-Umgebungen + professionalisierte CI/CD-Pipeline, Code Analyse & Refactorings (Gemeinsamkeiten extrahieren, Utility-Libraries, etc.), Einführung von mehr Code Quality Tools (Analyse/Refactoring/Testing/Tracing/Debugging), Standardisierung/Dokumentation eines jeden neuen Mechanismus (welche Implementierungsvarianten/Tools/Libs/APIs, Namespaces, Stati, Warn- und Fehlermeldungen, welche Diagnose- und Fallback-Mechanismen, Scheduling/Workflow mit strategischer Planung aller Ressourcen und Vermeidung von Deadlocks/Race Conditions, IT-Sicherheit), Erfassung und Nutzen aller Abhängigkeiten (zum Betriebssystem, zu sonstigen Tools/Libs), Definition + Implementierung von Workarounds zu Standard-Problemen wie Stale File Handles, Stale Sockets, Vermeidung von Out-of-X-Meldungen und Thrashing, Netzwerk-Problemen, Ausrichtung auf Veränderungen bei den Prozessen, den Gewohnheiten und den Motivationen, etc.
Security-Konzept für Docker/Kubernetes/K8s: kubectl, Docker Authentication on Kubernetes pods, AuthN/AuthZ Methods wie UMA 2.0 (Federated Authorization for User-Managed Access), OpenID Connect mit keycloak über Translations, Kubernetes RBAC & User Impersonation, Volume Type Whitelisting, SELinux/seccomp/AppArmor, System Call Filter, Kubernetes Helm Sicherheitslimits & Verbesserungen, DEX vs Keycloak, SSSD PAM module (POSIX) für MapR Filesystem/HDFS, MapR Container Location Database (CLDB), etc.
Vorschlag von Architekturen / Verbesserungen: Zero-Downtime-Architekturen, schnelleres Dateneinlesen, Autonomes-Fahren-Analysierer / robotic-drive analyzer (RDA), Messaging/Workflow und Containerisierungsarchitekturen.
Konzeption der Microservices/APIs, u.A. für die Metadatenverwaltung, Machine Learning Parameter, ...
Optimierung der Real-time Data Ingestion Verfahren für hochauflösende Self-Driving Car Video- und Sensor-Daten (TB-PB Datenmengen) in einen MapR Hadoop Datalake mit MapR-DB und Ceph Storage (Reliable Autonomic Distributed Object Store (RADOS)), etcd (distributed key value store) mit LoadBalancer (LB), Real-Time Monitoring mit Prometheus und Elastic/ELK.
Konzeption der Einführung von Docker/Kubernetes für TensorFlow-MachineLearning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Scheduling-Konzepte mit Airflow, LocalExecutor, Celery (Distributed Task Queue), CeleryExecutor, RabbitMQ, Dynamic Workflows mit DAGs/SubDAGs mit PythonOperator/BashOperator, upstream/downstream/X-COM, Backfill, Catchup, Kubeflow, Seldon Core.
Parallelisierung/Optimierung/Skalieren/Wiederaufsetzen/Fortführen von Deep Learning und speziell TensorFlow-Pipelines und supervised Optimierungszyklen, u.A. mit Spark: Horovod (Training + HorovodEstimator für TensorFlow, Keras, and PyTorch), TensorFlowOnSpark, TensorBoards, TensorFrames.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT: Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Review aller Security-Aspekte: Airflow, Kubernetes, Docker, Zeppelin, Spark, Java-Sicherheit mit Apache Shiro/Spring Security, sichere Speicherung von Anmeldeinformationen im Unix-Dateisystem, Github, Soft/Hard PSE (Personal Security Environment) mit z.B. SSO (Single Sign On with CA SiteMinder, PAI, OpenId Connect), CyberArk Password Vault + IAM + Privileged Threat Analytics (PTA), SSO oder GPG + Ansible Vault, etc.
Hilfe/Review bei Angular-basierten Visualisierungen, insbesondere für Grafana (zunächst in Angular, dann in React weil Grafana von Angular auf React migriert wurde).
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Konzeption eines Objekt-Erkennungsmoduls im Rahmen der Computer Vision: Erkennen von 2D-/3D-Objektteilen, Registrieren/Stitchen der Teile zu einem Gesamtobjekt und Objekterkennung: Z.B. Menschen, Verkehrszeichen, Fahrzeuge in verschiedenen (Teil-)Ansichten mit TensorFlow und PyTorch. Wesentliche Algorithmen des Hybrid-Verfahrens: Iterative Closest Point (ICP) with landmarks , Efficient SparseICP, Shape Registration, Depth Maps, Combined fusion approaches, 3D Regression, 3D (boosted) Decision Trees (XGBoost), 3D Pointcloud Triangulation/Voronoi & Surface Normals, Deformable 3D Object Matching, LIDAR+RGB Fusion, PointRCNN, ContFuse, Valeo Complex-YOLO, 3D YOLO, LaserNet++, Apple VoxelNet, Core Approximation Matching, Generating/Comparing 3D Voxel Exemplars (NEC), Data-Driven 3D Voxel Patterns for Object Category Recognition, Multi-Scale DenseNet (MSDNet), DensePose (real-time body pose estimation), RetinaNet, Aptiv/nuTonomy: PointPillars, SSD: Single Shot (MultiBox) Detector, ‘Residual Learning’ (Resnet) Variants, ResNeXt, VoteNet Deep Hough Voting, AVOD: Aggregate View Object Detection network, Baidu: Multi-view 3D networks (MV3D), Frustum PointNet Detection, Uber: ContFuse (Continous Fusion), 3D Labeling Tool LATTE.
Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den Projekten für den Lieferanten DXC und Weitergabe an den DXC-Vertrieb zur Akquise neuer Arbeitspakete oder direkter Vorschlag der Lösungen samt passenden Autonomous-Driving-Use-Cases an die relevanten Ansprechpartner in den Teilprojekten:
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene; Generieren von a) Beschreibungen für Fahrer, welche Art von Trainings-Situationen im Straßenverkehr anzustreben sind, b) Um welche Art von Fehlerursachen es sich bei gegebenen Symptomen handeln könnte als Liste oder Text.
- Tools/Algorithmen: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Style GANs, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices), EAST (Efficient and Accurate Scene Text Detector).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Machine Learning / Image / Video-Analyse-Tool Recherche und Integrationskonzepte für Sensor Fusion, sonstige Daten-Zusammenführung, Massendatenverarbeitung, UML-Software-Architektur: OpenCL (Computing Language für div. HW Plattformen), OpenCV (Computer Vision), OpenVX (Vision Cross-Platform), Vulkan, OpenGL (ES), CUDA, nVidia GPU Toolkits wie VulkanRT.
- Explainable AI (XAI) Techniques: Individual conditional expectation (ICE) Plots, Partial Dependence Plots (PDPs), SHapley Additive exPlanations (SHAP), Local Interpretable Model-agnostic Explanations (LIME), Counterfactual method, Causality, Leave One Covariate Out (LOCO), Layer-wise Relevance, Propagation (LRP), Generalized additive model (GAM), Learn to Explain, Anchors: High-Precision Model-agnostic Explanations.
- Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
  - Konzept für die Einführung eines CMS (Config Management System) zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
  - Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Chef/Puppet/Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
- Vorschlag, Ausarbeitung und Diskussion der geplanten/angebotenen Arbeitspakete zu Techniken, Tools und Innovationen mit Automobilherstellern und anderen Kunden.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).
Projektende: Daimler und BMW haben ihre Autonomous-Driving-Aktivitäten offiziell zusammengelegt mit entsprechender Re-Organisation.

DS-Ansatz (Data Science):

TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Visualisierung der Metadaten, KPIs mit Tableau.

Produkte

MapR Hadoop MapR-DB MapR Control System (MCS) MapR POSIX Clients MapR expandaudit Me-sos Hive Ceph RADOS TensorFlow Apache Spark Alluxio TensorFlowOnSpark Docker Kubernetes Airflow Kubeflow CeleryExecutor Jupyter Zeppelin PyTorch MXNet Chainer Keras Horovod XGBoost Keras PyTorch RabbitMQ ONNX Zephyr (Continuous Testing Agility) Red Hat OpenShift Elastic/ElasticSearch MS Azure Hybrid Cloud Kafka Kafka Kafka-REST Proxy Confluent Ansible mig-riert nach SaltStack OpenTSDB CollectD Python 3.x. DaSense 2&3 DaSense GPU Scheduler CNTLM Samba Nginx Grafana Jenkins Nagios Scrum mit Elementen aus dem Flow-Framework (Project to Product).

Kunde

DXC für Daimler und BMW

Einsatzort

Süddeutschland

1 Jahr

2017-12 - 2018-11

Aufbau des SOCs (Security Operations Centers)

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Rolle

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Projektinhalte

Aufbau des SOCs (Security Operations Centers) sowie die engere Verzahnung/Integration der Tools, Vulnerability Management, Security Assessments/Bewertungen/Security-Architektur und Vorgehens-Empfehlungen, insbesondere bei der Einführung von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) sowie SAP für Kernbanking (Deposits Management, Collateral Management, Loans Management, Financial Supply Chain Management, SAP Bank Analyzer) bei gleichzeitiger Betrachtung der DSGVO-/GDPR-Anforderungen.

Konzeption der Security-Maßnahmen für das neue SAP Core Banking System als Security Architect.
Überprüfung von Use Cases auf Relevanz für DSGVO/Datenschutz und Erstellung entsprechender Bewertungen, Ausfüllen von DSGVO-Formularen.
IAM (Identity and Access Management): SAP NetWeaver Identity Management (IdM) eingeführt mit SAML, OAuth, OpenId Connect, Kerberos; Konsolidierung der IAM-/IdM-Funktionalität, die vorher über verschiedene Technologie-Inseln verteilt waren wie LDAP, Active Directory (AD) Federation Services (ADFS), RACF, Oracle Enterprise Directory Server (OEDS), Lotus Notes Domino, etc.
Vorschlag von abgeleiteten IT-Security-Architektur- und DSGVO-Maßnahmen auf Basis der vorhandenen Grob-Architektur, Konzept für Privileged Account Management (PAM) und weitergehende Sicherheits-Maßnahmen.
Zukunftsvision der SOC-Architektur und Konzeption ihrer Komponentenarchitektur - mit möglichst vielen Open-Source-Tools, um Kosten zu sparen und neuesten KI/AI (Künstliche/Artificial Intelligence) und Machine Learning Frameworks: Spark + MLLib, XGBoost, ….
(Weiterer) Aufbau des SOCs (Security Operations Center) als Architekt/PM mit am Ende ca. 60 Security-Tools. Davon wurden ca. 15 Tools neu eingeführt. Deren Einführung sowie die Integration und Automatisierung eines Großteils der Tools habe ich insbesondere konzipiert und in Teilen programmiert: Automatisierte Echtzeit-Datenflüsse und Reduktion von False-Positives.
Red-Blue-Team Testing / Penetration Testing / PenTesting und Verteidigung, insbesondere bzgl. der Verwundbarkeit gegenüber aktuellen Exploits und den Indikatoren im SIEM und den Folgen/Risiken für die IT und der Optimierung der möglichst schnellen Erkennung mit wenigen False Positives.
Evaluierung der Risk Management Frameworks IRAM2, FAIR, OCTAVE, COSO gegen den MaRisk-Standard von 2017 und BAIT (Bankaufsichtlichen Anforderungen an die IT).
Erweiterung und Umsetzung von Vulnerability Management, Patch Management und Security-Standards-Compliance sowie Dokumentation dazugehöriger Risiken.
Patching-/Risk-Projektmanager Germany bzgl. Meltdown/Spectre (CPU Bugs).
Mitarbeit bzgl. IT-Sicherheit an der R3/Corda Blockchain Implementierung der HSBC in Kotlin mit über 100 anderen Banken und Vorbereitung der Herausgabe des Utility Settlement Coins (USC) der Großbanken sowie der Anbindung der Big Data basierenden Bank-eigenen Fraud Detection Lösung, z.B. bzgl. Security-Anbindung per BlueTalon + Ranger.
Integration von Security-Systemen per Serverless-Architektur über Google Cloud Functions per REST APIs mit Go: Automatisierte Integration von Configuration Management, Nessus- + Tripwire-Security Scans (Windows/Linux Datenbanken: Verwundbarkeiten und Compliance-Einstellungen) sowie der datenbankbasierten Auswertung der Scans (manuelle Gewichtungen) und Weiterleitung/Eskalation der Ergebnisse.
Mitentwicklung von Mobile-App- und Cloud Security Standards, insbesondere für Hybrid Clouds mit dem Google Cloud Stack, z.B. der Software-Defined Perimeter Ansatz.
Architektur obiger APIs nach Open Banking Standard mit Mulesoft AnyPoint Platform (API Gateway, App execution, API Repository & Portal, API Designer, Runtime Manager, CloudHub, Private Cloud, AnyPoint Studio).
Beratung der Architekten und Entwickler-Teams bzgl. sicherer Konzeption/Entwicklung, sicherer Anbindung von Security Libraries (z.B. Spring Security, SAML, OAuth, LDAP, OpenId Connect), Patchen von Library-Verwundbarkeiten (Vermeiden/Minimieren der Verwendung von anfälligen Versionen: Lösungen und Workarounds) und Security Code-Review mit Tool-Unterstützung (ConQAT + Teamscale von CQSE, Support Query Framework (SQF) und Code Inspector von SAP (ABAP), Micro Focus Fortify, LGTM, Semmle, FindBugs, PMD, SonarQube, Checkstyle, etc.) im Rahmen von TQE (Total Quality Engineering).
Beratung bei der Weiterentwicklung der Asset Management und Configuration Management Datenbanken/Systeme um priorisierte Risiko- und Gegenmaßnahmen-Einschätzung in Richtung des statistischen Common Criteria Ansatzes.
Internal Reviews/Assessments, Erstellen von Management Self-Identified Issue (MSII) Berichten als Vorbereitung für offizielle Reviews/Assessments.
Business Impact Analysis (BIA) und Global Application Security Risk Assessments (GASRA).
Business Process Definition / Optimization / Re-Engineering: Network Based Intrusion Prevention (NIPS), Vulnerability Management, Privileged Access Management, Testing & Patching, Anlegen/Anpassen von Beantragungs-/Entziehungs- und Überwachungsprozes-sen mit Neocase Advanced BPM Suite / NEO Process Manager.
Security-Architektur für einen Amazon-Cloud- und Serverless-PoC: AWS, Fargate, S3, EC2, VPC (Virtual Private Cloud), IAM, RDS, RedShift, Aurora, DynamoDB (Rel. DBs), Neptune (Graph DB), ElastiCache (In-Mem-DB), Elastic Beanstalk (Orchestration Srv), CloudTrail (Sec. Log), STS (Secure Token Srv), EKS (Elastic Kubernetes Service), EBS (Elastic Block Store), OpsWorks (Config Mgmt), SQS (Simple Queue Srv), CloudWatch (Billing/Metrics), Docker, Kubernetes, Kubeless, Go.
Security-Architektur für PoCs mit Blockchain for trade (We.Trade, Voltron, R3/Corda), Biocatch, Microplatforms, Eclipse Microprofile (Hammok, Red Hat Wildfly Swarm, Open Liberty/WebSphere Liberty), JWT, OpenTracing, MicroNaut, ThreatMetrix, UNSilo, Skytree, TidalScale, DataRobot, data iku, Ayasdi (AML), Quantexa, Seldon.io, gVisor.
Unterstützung bei der Einführung agiler Prozesse: Design Thinking (Empathie-Maps, Personas, User Profile Canvas, Value Proposition Canvas, Business Model Canvas, Business Ecosystem Canvas, Customer Journeys, HOOK (Trigger, Action, Variable Reward, Investment), SCAMPER (Substitute, Combine, Adjust, Modify, Put to other uses, Eliminate, Rearrange), MVP, MVE (Minimum Viable Ecosystem), Virtuous Loops, Systems Thinking, Business Ecosystem Design, Lean Canvas, NABC (Needs Approach Benefits Competition), SWOT) in Kombination mit DAD (Disciplined Agile Delivery) und SAFe (Scaled Agile Framework) – insbesondere Coaching und Halten von Präsentationen zu den Risiken agiler Verfahren – u.A. durch das Entfallen der Architektur-Phase (siehe meine Social Media Accounts), Mit-Einführen von WorkHacks (= LifeHacks für den Beruf).
Konzeption + (Teil-)Implementierung einer automatisierten Microservice/Serverless System-Security- und Vulnerability-Assessment und Reporting-Komponente in Python3 und JavaScript (mit PhantomJS, CasperJS, Bootstrap, a2ps), die automatisiert HTML- und PDF-Reports erzeugte aus Statistical Common Criteria Bewertungsergebnissen, Nessus- + Tripwire-Scan-Ergebnissen, CMDB-Infos (Config Mgmt DB namens ITDoku) etc. mit Integration zu diversen Systemen (Lotus Notes, CMDB, Excel-Dateien, Oracle-DB, CyberArk Password Vault + IAM + + Privileged Threat Analytics (PTA), Inventory-Systemen zum Check der Kritikalität (BIA/GASRA), Installationsstatus von Security-Tools, etc.) per REST APIs, SysCalls und OAuth.
Insgesamt ca. 50 Verbesserungsvorschläge unterbreitet/umgesetzt, vor allem zur Verbesserung des SOCs / der effizienten Erkennung, Priorisierung und Beseitigung von Risiken/Angriffen.
Erstellung/Erweiterung/Schärfung von ca. 150 QRadar SIEM Use Cases für zielgerichteteres Security-Monitoring mit weniger False Positives oder weniger manuellem Nachrecherche-Bedarf bei Alerts (Minimierung der manuellen Aufwände).
SIEM-Alternativen: Evaluation von
- ElasticSearch + Norikra Schemaless Stream Processing + Esper CEP (Complex Event Processing) + Apache Nifi + Kafka + Fluentd für SIEM Use Cases/Alerting, Datenextraktion aus Protokollen per WireShark-Plugins (z.B. bzgl. SMBv1 + v2 Exploits [EternalRomance, EternalBlue, EternalChampion, WannaCry]),
- Apache Metron (ex: Cisco OpenSOC) + Blitz Incident Response + Apache Nifi + Hadoop + Apache Solr/HDP Search + Ranger + Atlas, Technologie-Workshops. Konzeptionen zu:
  - Dokumenten-Id-Vergabe und expliziter Verteilung der Dokumente auf Shards/Replicas und dessen Tracking.
  - Parallelisiertem SolrJ-Client optimiert auf Antwort-Geschwindigkeit.
  - Loadbalancer-Switching-Logik.
  - Schutz gegen bösartige Ambari-Administratoren.
  - Integration der Lösung in das Single Sign On (SSO) Konzept mit Identity & Access Management per LDAP, SASL, explicit TLS.
Konzeption/Implementierung eines Apache Spark + MLlib + Kafka basierenden Data Science und Machine Learning Systems zur Erkennung von Incidents/Malware/Netzwerk Anomalien mit H2O.ai.

DS-Ansatz (Data Science):

zur Erkennung von Incidents/Malware/Netzwerk-Anomalien

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), C4.5, Assoziationsanalyse, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Visualisierung der mögl. Incidents, KPIs mit Tableau.

Produkte

Nearest Neighbor Methoden neuronale Netze Zeitreihenanalyse Anomalie-Erkennung Assoziationsanalyse Maximum-Likelihood-Schätzer Random Forest Gradient Boosting (GBM xgboost) Cubist (Erweiterung von Quinlan?s M5 model tree) C4.5 Assoziationsanalyse (Nicht)lineare Regression Multiple Regression Apriori-Analyse Überwachte Klassifizierung Link-Analyse-Netzwerke. SAP Basis FI/CO DM CM LM FSCM FS FS-BA SAP NetWeaver Iden-tity Management (IdM) IBM FileNet SAP Business Objects Mulesoft AnyPoint Platform (API Gateway App execution API Repository & Por-tal API Designer Runtime Manager CloudHub Private Cloud AnyPoint Studio) Symantec DCS Symantec DLP Symantec PGP Server Syman-tec SSLVA TrendMicro Deep Discovery + Antivirus (AV) Cisco Router ASA Switches CheckPoint Firewalls/IDS/IPS Barracuda WAF Windows & SAP PKI & IAM IBM QRadar IBM Resilient IBM InfoSphere Guar-dium (Monitoring: DB etc.) IBM Vanguard IBM RACF IBM EventAction Nessus Vulnerability-Scanner ForeScout (vulnerable IoT) Proofpoint (E-Mail Security) CrowdStrike (Endpoint Protection) McAfee (Antivirus + HIPS + Drive Encryption + E-Mail Gateway + ePolicy Orchestrator ePO) Skyhigh (Web Browser isolated in the Cloud Secure Cloud Services) MenloSecurity (DLP Absichern von E-Mail- und WebLinks) Cisco Open DNS BlueCoat Proxy/SSL Decryption/AV CyberArk Password Vault + Privileged Threat Analytics (PTA) Tufin (Network Security Policy + Firewall Management) Ivanti Application Control (ex: AppSense) En-case Endpoint Security/Forensics Lumension Endpoint Security Micro-soft Baseline Security Analyzer (MBSA) RSA enVision SCCM Windows Compliance Trustwave DbProtect DB SAT Avecto Defendpoint Centrify DirectAudit Dark Trace (UEBA: User & Entity Behavior Analytics / NGAV: Next-generation antivirus platforms / DER: Endpoint Detection and Response) DFLabs (SOAR: security orchestration automation and response) AutoSploit MetaSploit Cuckoo Malware Analysis (in virt. Sandbox) MS Visual Studio Eclipse + Java 1.8 Keycloak Snort Python 3.7 p0f Cluster SSH Open Workbench viele Open Source Tools (Fuz-zer Exploits Utilities ?) Vizolution Google Cloud Platform (GCP: Cloud Functions/Datastore/Storage Cloud Pub/Sub Endpoints RSocket Tools: gVisor (User Space Kernel) Apigee Cloud Dataflow BigTable BigQuery (DWH) BigQuery ML (BQML) Firestore Firebase Memo-rystore Datastore Cloud Spanner Cloud Launcher Cloud SQL BigCom-pute Cloud ML Engine Apache Beam bdutil Dataproc (Managed Hadoop) Stackdriver (Systems Management) AutoML Google Kubernetes Engine (GKE)) Apache Spark + MLlib + Kafka H2O.ai We.Trade Volt-ron R3/Corda) Biocatch Microplatforms Eclipse Microprofile (Ham-mok Red Hat Wildfly Swarm Open Liberty/WebSphere Liberty) JWT OpenTracing MicroNaut ThreatMetrix UNSilo Skytree TidalScale Da-taRobot data iku Ayasdi (AML) Quantexa Seldon.io gVisor.

Kunde

HSBC Trinkaus & Burkhard AG / HSBC Deutschland, größte Bank Europas, World?s Best Bank 2017 nach EuroMoney

Einsatzort

Düsseldorf, Homeoffice

4 Monate

2017-09 - 2017-12

Plattform- und Umgebungs-Aufbau

Coach: Big Data Architektur & Data Science Red Hat OpenShift Docker Kubernetes ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Plattform- und Umgebungs-Aufbau für diverse Predictive-Analytics Teilprojekte (insbesondere von Marketing-Effekten und Supply-Chain-Prognosen bzgl. benötigten Mengen/Preisen etc.)
Coach: Big Data Architektur, Data Science, Test Management
- Zwecks Einarbeitung & Coaching-Grundlage: Erhebung der Ist-Situation bzgl. Tools, Algorithmen und IT-Umgebungen; Mitarbeit bei der Erstellung von Ab Initio Graphen/Lineages als ETL-Pipelines unter Integration von Teradata BTEQs/ActiveBatch/SQL, R, Python, Spark, Hive, SAP, MicroStrategy.
- Big Data und Data Science Architekturberatung: R on Spark mit SparklyR vs. SparkR, Hive/Beeline Query Optimierung, Integration mit Teradata QueryGrid/Teradata Connector for Hadoop (basierend auf Sqoop).
- Konzeption/Entwicklung von AbInitio ETL-Pipelines mit GDE/TRMC/EME, Express>It (BRE), Conduct>It (CC), Query>It, Metadata Hub (EME).
- Vorschlag und Mit-Auswahl von BI & Analytics Use Cases: Promotions (Angebote/Preisveränderungen (PV)), Dynamic Pricing, Backschema, Category Management, Palettenfaktor, Kollisortierung, Shopping Missions, Einkaufs-Planung, Logistik-Planung, Rücksende-/Rückläufer-/Remittenden-Planung.
- Mitarbeit im Predictive Modelling von Marketing- und Logistik-Prozessen und der Vorhersage des Effektes von Sonderangeboten und diversen Werbemaßnahmen.
- Beratung zur Auswahl eines Workflow-Management-Tools Oozie, ActiveBatch, Azkaban (LinkedIn), Airflow (Airbnb), Scripting.
- Berechtigungskonzept mit Apache Ranger, Rechte-Datenbank & LDAP für Hortonworks Hadoop miterstellt.
- Erstellung von Cross-Platform Packaging-, Versioning-, Deployment- und Dependency-Management-Konzepten für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy mit Conda/Anaconda, Python, sbt, Java 9 Platform Module System (JPMS) = Project Jigsaw, etc.
- Virtualisierungskonzepte erstellt für alle Tools mit VMware, Docker, Rancher und Kubernetes, einschließlich Netzwerkkonnektivität, Debugging, Tracing und Monitoring-Funktionen.
- Erstellung eines 400-seitigen Test-Management-Konzepts incl. ETL- und BI-Testing mit IT-Security für 6 Test-Umgebungen sowie für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy, Continuous Integration/Deployment mit Jenkins und Sonar(Qube).

DS-Ansatz (Data Science):

Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan’s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), ML-Debugging/Explainable AI im Kontext von LIME, SHAP, partial dependency plots [model leakages, decision explanations in if-statements, …]; Model-Storage in PMML mit angepasstem OpenScoring.io (mit Spring) und Apache Phoenix, Propensity Modeling.

Kenntnisse

Red Hat OpenShift Docker Kubernetes Rancher R Big Data (Spark Hive Oozie etc.) Teradata SAP CAR (Customer Activity Repository 2.0) SAP HANA SAP BW (Business information Warehouse) SAP BO (Business Objects Business Intelligence) Bex Analyzer Analysis for Office (AfO) Ab Initio (GDE/TRMC/EME Express>It (BRE) Conduct>It (CC) Query>It Metadata Hub (EME)) MicroStrategy QlikView MS Visio Java 9 mit Java Platform Module System (JPMS) = Project Jig-saw maven Risk-Based Testing Apache Ranger Python: Airflow Nose2 test suite Egg packaging SparkR/SparklyR webMethods (ESB der Software AG) Scrum SoS (Scrum of Scrums) LeSS (Large Scale Scrum).

Kunde

Schwarz-Gruppe (Lidl & Kaufland), größter Europäischer Handelskonzern, BI & Analytik

4 Monate

2017-06 - 2017-09

Marketing-, Produkt- und Security-Analytics

Coach: Big Data Architektur & Data Science OpenShift Cloudera Hadoop Apache Spark ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala

Konzeption und Implementierung von Inspectrum, einem Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala: Über JSON/HOCON (Human-Optimized Config Object Notation) Konfigurationsdateien konnten am Ende beliebige Datenflüsse über Spark und sein Ökosystem (incl. Umsystemen) konfiguriert statt programmiert werden mit erheblicher Zeitersparnis. Anbindungen wurden konzipiert für Hive, HBase, Couchbase sowie eine Daten-Filter-Komponente und Virtualisierungen der Komponenten mit Docker, Kubernetes, Rancher.
Architekturberatung bzgl. Real-time Use Cases und deren Umsetzung mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT; Datenbanken, Data Science Algorithmen; Architektur von HBase-Datenstrukturen; Pro-Contra-Beratung zum Einsatz von Apache Kudu, Impala, HBase, Cassandra, Scylla DB, MariaDB, PostgreSQL, Druid, Aerospike.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io, Apache OpenNLP (Natural Language Processing), NLTK (Natural Language ToolKit: tagging/chunk parsing), Apache UIMA (Unstructured Information Management architecture/applications).
Data Science Beratung: Vorschlag von Verfahren zur Informationsgewinnen fürs Marketing, für Produkt-Analyse und Security-Analysen sowie für den Avira Boot Optimizer. Vorschlag von Algorithmen für die Nutzung/Analyse der gewonnenen Infos, etwa durch das In-Product-Messaging, den Antivirus, etc.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Integration von SailPoint IAM mit Big Data über Apache Sentry.

DS-Ansatz (Data Science):

Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Assoziationsanalyse, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Propensity Modeling.

Kenntnisse

OpenShift Cloudera Hadoop Apache Spark Couchbase HBase R Python SparkR CentOS Intellij IDEA git Github Docker Kubernetes Apache Sentry Scrum-Prozess.

Kunde

Avira Operations

Einsatzort

Tettnang, München, Homeoffice

4 Monate

2017-05 - 2017-08

Make or Buy Entscheidungs-Vorbereitung

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case RedHat OpenShift Red Hat 3scale API Management IBM Watson ...

Rolle

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case

Projektinhalte

Make or Buy Entscheidungs-Vorbereitung im Marketing bzgl. einer In-House Customer Intelligence (CI) und Programmatic Advertising Lösung für Cross-Selling über verschiedene Kunden-Touchpoints hinweg, Dynamic Offering, Net Promoter Score (NPS) Optimierung und Data-driven Sales (DDS) per Data Management Platform (DMP).

Marketing-Strategie Beratung per Design Thinking mit Customer Journey Mapping und Dokumentation der Kunden-Firmen-Touchpoints bzw. Interaktionen, Vermittlung des relevanten Wissens zu den neuesten Programmatic Marketing Ansätzen und den entsprechenden Data Science Grundlagen. Einführung in Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP). SWAT-Diskussionen (Strengths/Weaknesses/Opportunities/Threats) dazu initiiert und geleitet.
Recherche von möglichen Anbietern in obigen Bereichen mit Schwerpunkt auf Customer Intelligence (CI), Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP) und Kontaktieren der Anbieter: IBM Interact, Oracle Real-Time Decisioning (RTD), SAS Customer Decision Hub, Pega Customer Decision Hub, Adobe Marketing Suite/Cloud, Prudsys, SC-Networks Evalanche, PIA/Dymatrix DynaCampaign, DynaMine, CrossSell, ComArch, FIS Global, DMP-Produkte (AdForm, The Adex, Annalect, Otto, Xaxis Turbine, Acxiom, ...).
Erarbeitung der Use-Cases nach Use Case 2.0 Ansatz (inclusive MVP – Minimal Viable Product) mit dem Marketing-Fachteam (besonderer Fokus auf mögliche Echtzeit-Anforderungen/Use Cases) und Bewertung der möglichen Cash Flows sowie der verschiedenen KPIs wie ROI, NPV (Net Present Value), IRR (Internal Rate of Return), WSJF Verspätungskosten (Weighted Shortest Job First), NPS (Net Promoter Score), NBI (Net Banking Income). Anschließende Einführung von weiteren Lean-Startup-Prinzipien sowie Microservices, Evolutionary Architecture, Mobile App Anbindung und passendem Versioning.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Erstellung einer Baseline-Hadoop-Architektur mit Aufwands-Schätzungen als mögliche Make-Lösung auf Basis von Apache Spark mit Streaming, Alluxio Caching, QBit Microservices, Aerospike DB, Cassandra DB, jBPM, Drools, Oryx 2, WEKA, MOA, Sqoop 1/2, SAS. Diese diente dann auch dem Einkauf zur Preis-Verhandlung.
Beratung zu möglichen Data Science Algorithmen rund um das KNIME-System zur Kundensegmentierung und der Ableitung von Produkt- bzw. Marketing-relevanten Affinitäten/möglichen Kundeninteressen und Kundenpfaden: DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, etc.
Beratung des Parallelprojekts „Corporate Data Hub“ (Digital Transformation / Digital eXperience (DX) Plattform) auf Basis von Spark, Cassandra DB, PostgreSQL und Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, insbesondere bzgl. Anbindungs-Möglichkeiten mit den Marketing-Lösungen und wie diese als PoC (Proof of Concept) für den Data Hub verwendet werden können.
Konzeption einer Dynamic Offering Erweiterung HintLog für Dymatrix DynaCampaign: Mit minimalem Aufwand konnten so alle Teilnehmer an Bonus- oder Marketing-Programmen Nachrichten erhalten, wenn irgendwelche Fehler auftauchten oder sie aufgrund von Detail-Regelungen Gefahr liefen, aus dem Programm herauszufallen: Kunden haben dann meist Nachfristen bekommen und so konnte durch das Vermeiden ärgerlicher Situation der NPV-Wert (sprich: die Kundenzufriedenheit) stark gesteigert werden.
Review der bestehenden BPM-Modelle in Camunda und Erweiterung dieser Modelle in Camunda um neue Marketing/Kampagnen Use Cases.
Konzept erstellt zum semantischen Analysieren und Steuern von Marketing-Kampagnen nach z.B. Kundeninteressen, Kundensituationen, aktuellen Markttendenzen sowie Firmen-Interessen, z.B. als kombinierte/konzertierte Rabattaktionen über verschiedene Teile des Angebots hinweg oder um übergeordnete Marketing-Aussagen in untergeordneten Aktionen immer wieder zu re-iterieren und insgesamt Konsistenz und Stringenz in den Aussagen zu erreichen. Erkannte Kunden-Sitationen/Segmente, Interessen und Unterstützungsbedarf kann so möglichst zielgenau eingesetzt werden, so dass es von den Kunden als hilfreich geschätzt wird und später aus einer Vertrauensbasis heraus (Produkt-/Service-)Empfehlungen gegeben werden können.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io in Python (Net Promoter Score (NPS) Erhebung und Verbesserung).
Mitarbeit beim Digital David Projekt als Technologie- und NLP-Berater, der Erstellung eines Chatbots mit IBM Watson Technologie (mittlerweile bei consorsbank.de im Kundenbereich online): Vision: Chatbot der alle Invest- und Banking-Präferenzen der Kunden kennt incl. Konto-, Depot- und WKN-/ISIN-Nummern mit Charts/Trends/Abhängigkeiten und alle Suchen nach Anlagemöglichkeiten durchführt (mit RoboAdvisor im Hintergrund) und daher hohe Kundenbindung und hohe Verkaufskennzahlen erzielt. Meine Arbeit: Analyse der zu erwartenden Text-Dialog-Scripting Aufwände (aufgrund der technisch veralteten Funktionalitäten für Chatbot-Entwickler) und der Total Cost of Ownership (TCO) der IBM-Watson-Lösung und Gegenüberstellung mit einer neuen DLNLP-Architektur (Deep Learning Natural Language Processing) basierend auf Open Source zwecks Preisverhandlungen der Beschaffung: Elemente meiner Open Source Chatbot-Architektur mit DLNLP Tools (Deep Learning Natural Language Processing): OpenEphyra, Seq2seq, word2vec, ULM-FiT, ELMo, OpenAI Transformer / GPT, Transfer Learning, OpenAI Transformer, spaCy, Stanford CoreNLP, AllenNLP und Virtualisierung mit Docker/Kubernetes zum Training in der Cloud.

DS-Ansatz (Data Science):

Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, Propensity Modeling.

Kenntnisse

RedHat OpenShift Red Hat 3scale API Management IBM Watson Cloudera Hadoop Apache Flink Apache Spark mit Streaming und MLlib Cassandra DB und PostgreSQL Aerospike KNIME DynaMine SAS DynaCampaign MS Visio Sparx Enterprise Architect Camunda JBoss Drools Scrum-Prozess LeSS (Large Scale Scrum.

Kunde

BNP Paribas Personal Investors (Consorsbank, DAB)

Einsatzort

Nürnberg, München, Homeoffice

4 Monate

2017-02 - 2017-05

Erstellung eines bankweiten Cloudera-Hadoop

Chief System und Big Data Architekt sowie SPOC Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib ...

Rolle

Chief System und Big Data Architekt sowie SPOC

Projektinhalte

Projekt:

Erstellung eines bankweiten Cloudera-Hadoop basierenden Business Transaction Stores (Speicher für alle Finanztransaktionen als Digital Transformation / Digital eXperience (DX) Plattform) mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den folgenden Bereichen: Kontobewegungen, Aktien, Zinsinstrumente, Derivate, ETFs, Fonds (d.h. beliebige “Securities” bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Übersichten für’s Wealth Management sowie Steuern, Reporting, Betrugserkennung und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.

Review und Verbesserung der vorgeschlagenen Grob-Architektur, Ausarbeitung des FeinArchitektur-Dokuments auf Basis zahlreicher Meetings und E-Mails mit dem Fachbereich;
Konzeption von Datenmodellen zur redundanzfreien Konvertierung/Speicherung/Aufbereitung und Auswertung aller bestehenden Bank-Transaktionen mittels logischer/physischer Datenmodelle.
Konzepte erstellt für Back-Office-Verarbeitungsverfahren (Reconciliation, Transaktions-Bäume/Graphen als Struktur und bzgl. Aufbau aus zeitlich versetzt und nur teilweise eintreffenden Informationen, Link-Resolution auf dieser Basis); POCs bzgl. komplexer Punkte selbst in Java/Scala programmiert.
Konzeption einer IT-Basis für Finanz-Planungs-Modelle/Investment-Strategien incl. Steueroptimierung für Wealth Management, Investment-Manager sowie strategische Investitionen.
Konzeption der initialen Amazon AWS-Umgebung (benötigt solange die Bank-Umgebung nicht fertig war) und Umsetzung mit AMInator.
Security: Anbindung von Apache Sentry an das zentrale IAM-System (Identity & Access Management) der Bank bzw. initial an LDAP. Härtung der Systemkomponenten bzgl. IT-Sicherheit.
Konzeption der Spark/Kafka Exactly-Once Verarbeitungsfunktionalität sowie der Gesamt-Business Continuity Funktionalität.
Recherche/Evaluierung von Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, ...
Erstellung eines Data Mapping und Versionierungskonzepts mit Umsetzung über ein Switchboard-Pattern: Abwägen der Möglichkeiten der Konvertierung/des Upgrades von Datenformaten/Protokollen/Microservices vs Lazy/Eager Migration von Daten; HBase-Avro-basiertes Versionieren, Bitemporale Logik, Semantisches Versonieren, versionierte lokale/verteilte Microservices mit QBit/Lagom/Spring Boot; DDD-Datenmodelle mit Bounded Context, Context Maps, Self Contained Systems (SCS). Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

Typ/Dauer:

Weil CS zum 2. Mal hintereinander einen Verlust von ca. 2,5 Mrd. CHF eingefahren hatte, wurde das Projekt kleiner als geplant umgesetzt und es sollte der Rest Offshore umgesetzt werden. Durch professionelles Coaching sollte nur das professionelle Aufgleisen und Ausrichten des Projekts sichergestellt werden incl. Etablierung einer professionellen Kommunikationsstruktur.

Eigene Rolle:

Couch mit Schwerpunkt Big Data Architektur, IT Projektmanagement und teilweise SPOC–Funktionalität (single point of contact) zum Erlangen des Überblicks für alle Fragen zwischen den CS-Fachbereichen und dem Offshore IT-Team und zum professionellen Aufsetzen der Kommunikation bzw. deren Optimierung zwischen jeweils passenden Personen.

DS-Ansatz (Data Science):

Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Überwachte Klassifizierung, Apriori-Analyse, Gradient Boosting, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Assoziationsanalyse, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).

Kenntnisse

Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib Alluxio Kafka mit Camus/Goblin HDFS Hive Flume Impala PostgreSQL Zookeeper YARN Hue Grafana Cloudera Manager Apache Sentry Solr Splunk IBM WebSphere MQ Oracle Weblogic Sparx Enterprise Architect Visio Informatica Data Integration IBM Integration Bus (IIB) Graphical Data Mapping Editor JT400/JTOpen MS Office Scala Java Python

Kunde

Credit Suisse

Einsatzort

Zürich

2 Monate

2016-12 - 2017-01

Konzeption einer Microservice-Strategie

Architekt/Entwickler Microservices/mobile Apps/Big Data Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] ...

Rolle

Architekt/Entwickler Microservices/mobile Apps/Big Data

Projektinhalte

Eigene Rolle:

Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.

Projekt:

Konzeption einer Microservice-Strategie und eines Architektur-Blueprints für alle SW-Entwicklungsprojekte bei AOK Nordost und AOK Systems incl. Dienstleistern sowie auch für Mobile Apps mit Big Data Integration für Datenaustausch und Data Science.

Zusammentragen der führenden publizierten Techniken und Tools zu Microservices und Mobile Apps & Big Data sowie der integrativen Erstellung von Software mit allen Aspekten in Form eines ca. 250-seitigen Architektur Blueprints mit folgenden Inhalten: Architekturziele, Architekturprinzipien, Architekturstandards, Patterns, Neuentwicklung von Konzepten für lokale und vereinfachte Microservices (Neukonzeption eines Code Generierungs-Modells, um viele Microservices in Java/Scala als ein JAR/WAR/EAR oder als mehrere Deployment-Module bauen und debuggen/tracen/testen zu können), Microservice Best Practices, API Management, Datenkonvertierung/Serialisierung, Logging/Tracing, IT-Sicherheit/IAM, Modellierung per Domain-Driven Design (DDD) mit Bounded Context, deren Building Blocks und Responsibility Layers, Self Contained Systems (SCS) und Integration der Mobile-App Komponenten, KPI (Key Performance Indicators), Migrationsschritte von Monolithen hin zu Microservices, Software Load-Balancing, Infrastructure as Code, DevOps-Praktiken wie Continuous Integration und Continuous Deployment.
Im praktischen Teil wurde der Code-Generator entwickelt für die Kombination mehrerer Versionen eines oder verschiedener Microservices in ein Deployment-Paket oder in je ein JAR-Paket. Die unten genannten führenden Microservice-Bibliotheken für Java, Scala und Node.JS mit AngularJS 2 und Ionic Framework (Mobile Apps) wurden getestet/evaluiert.

Kenntnisse

Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] Lagom (Microservices in Scala) Akka Apache Gearpump (real-time big data streaming engine over Akka) Apache Flink (actor model hierarchy Deathwatch mit libs: CEP Table FlinkML Gelly) spray (HTTP/REST) Spark HashiCorp Nomad (Clustermanager & Scheduler) SenecaJS swagger-codegen Scraml RAML tools wie JAX-RS Codegen API Designer JHipster (yeoman.io Java & AngularJS microservice generator mit BrowserSync Liquibase Generator for Ionic framework) Axon Framework (Java Microservices) OData Microservices mit Apache Olingo Zipkin/OpenZipkin OpenTracing HTrace Fluentd (data collector for unified logging) DropWizard Hashicorp-Tools wie Serf Consul Nomad (Clustermanager & Scheduler) DevOps- und Continuous Integration/Deployment Tools wie Jenkins Sonar(Qube) Git Github Docker Kubernetes Rancher Chef Puppet Prometheus (Monitoring) Ubuntu. Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar memcached Ignite GridGain Alluxio Redis Hazelcast Ehcache Red Hat JBoss Data Grid Pivotal GemFire ActiveMQ RabbitMQ mit AMQP MQTT etc. Big Data Stack: Thrift Avro Spark Flink HBase Cassandra Hadoop Cloudera Hortonworks Grafana Hue VMware kvm. Netflix-Stack: Hystrix (Failure Isolation Circuit Breaker) Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access) Netflix Conductor (microservices orchestrator) Nebula Gradle plugins Governator (Guice extensions) Zuul (dynamic routing monitoring resiliency security) Genie (job orchestration) Dyno Dynomite (storage layer for key-value storage engines) Dyno Queues (Task Queues on Dynomite) Hollow (caching for small read-only in-memory datasets) Astyanax (resilient Cassandra client) EVCache (AWS EC2 memcache) Atlas (In-memory dimensional time series database) Spectator (instrumenting code to record dimensional time series) Vector (performance monitoring framework) Chaos Monkey/Simian Army (failure testing and resilience tools) Spinnaker (continuous delivery platform) Message Security Layer (MSL) Falcor (represent remote data sources as a single domain model via a virtual JSON graph) Restify (node.js/NodeJS REST web service API framework) RxJS (reactive programming library for JavaScript) Aminator (create custom AMIs - Amazon Machine Images) RxNetty (reactive extensions for Netty: asynchronous event-driven network application framework) Ribbon (IPC with software load balancers) Stethoscope (Security analysis). Zalando Mosaic9.org Stack: Tailor (assembling GUI fragments) Skipper (extendable HTTP router for service composition) Shaker (UI components library) Quilt (template/layout storage for Tailor) Innkeeper (RESTful API that stores routes for Skipper).

Kunde

Cisco Systems mit AOK Nordost und AOK Systems als Endkunden

Einsatzort

Berlin

3 Monate

2016-10 - 2016-12

Digital Windfarm

Big Data Architekt Cloudera Hadoop mit Spark (SQL DataFrames ...

Rolle

Big Data Architekt

Projektinhalte

Digital Windfarm: Konzeption einer "on premise" und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern (Alterung, Regen, Leistungsoptimierung am jeweiligen Standort) basierend auf den GE-Flex5-Tools.

Fachlich:
- Analyse der bestehenden Flex5-Tools in Pascal/Delphi sowie der zugrundeliegenden Mathematik, insbesondere bzgl. Parallelisierungs-, Verteilungs- und Caching-Möglichkeiten.
- Sammlung und Erarbeitung von evolutionären Verbesserungsmöglichkeiten der bestehenden Flex5-Lösung, z.B. durch mehr In-memory Processing und explizites Caching von Zwischenergebnissen.
- Erstellung einer Zielarchitektur basierend auf im Kern Spark mit Alluxio sowie Ergänzungen für den Einsatz im Intranet (on premise) und in AWS (Amazon Web Services, EC2) mit entsprechenden IT-Sicherheitsmaßnahmen und mit Migrationsstrategie.
- Abstimmung der Anbindung der parallel erarbeiteten AngularJS 2.1 Web-Benutzeroberfläche an das Backend.
- Analyse der Performance der bisherigen Lösung unter Windows/Linux mit procmon.exe sowie eigenem Win-API-Hooking-Tool und Python-Auswerte-Skripten. Export nach Excel in Excel-Pivot-Tabellen und Erstellung VBA-basierter komplexer Auswertungen.
- Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
Technisch:
- Ad 3: Darin enthalten war auch eine kurze Betrachtung der besten Alternativlösungen (Flink, YARN, Storm + Trident, FastR, etc.) und Beschreibung von deren Vor- und Nachteilen.
- Bzgl. IT-Sicherheit war neben dem Schutz gegen Hacker durch ein Bündel von Maßnahmen vor allem die korrekte Autorisierung und Zuordnung der Daten und Datenflüsse wichtig, was über Virtualisierung mit VMware oder Docker, Kubernetes, Rancher sowie über die Security-Toolkits Apache Sentry/Shiro, Knox, Falcon, Atlas erfolgte.
- Die Migrationsstrategie basierte Bottom-Up auf verschiedenen Loop-Unrolling bzw. Schleifen-Parallelierungs-Strategie über Thread-Parallelisierung und das Herausziehen und Caching von Zwischenergebnissen, aufgeführt prototypisch am Beispiel der Delphi nach Scala Portierung für die Datenverarbeitung mit Spark.
- Ad 5: Da procmon.exe aber für längere verteilte Läufe mit einigen GBs an Daten abstürzte: Entwicklung einer Zeus-Rootkit basierenden API-Hooking-Methode für Win-API-Methoden wie ReadFile, WriteFile, Process Start, Process Exit, Thread Start, Thread Exit, CreateFile, MapViewOfFile und direkte Auswertung nur der relevanten Daten. Daraus Ableitung der Optimierungspotentiale und des Skalierungsverhaltens.
- Ad 6: Etablierte Verfahren der Wirtschaftlichkeitsberechnung wie Discounted Cashflow, ROI/ROSI (Return on [Security] Investment), NPV (Net Present Value), Internal/External Rate of Return (IRR/ERR) können nicht-lineare Verläufe der zugrundliegenden Faktoren nicht berücksichtigen. Hier ging es jedoch neben eher konstanten Werten wie Inflationsrate, Interner Zinsfuß, Prozent pro Jahr veränderter Quelltexte durch CRs(Change Requests), effektive Firmen-Steuer-Rate weitgehend um Konjunktur- und Technologie-Wellen-abhängige Kosten- und Risiko-Faktoren wie (auf engl.): Hardware Upgrade/Repair, Scaling / Bigger data amounts, Administration, Inflexibility (e.g. no virtualization, no mandator capability), Development of Extensions/CRs, Errors due to Knowledge/People Loss, Time to hire Contractors, Training Time for Team Members, CPU/IO Utilization Inefficiencies, End User waiting Time, Reputation cost due to old Technology, Immature Technology/Toolset, Old Technology/Toolset, Lack of Motivation due to old Technology / old Age of Employees, Not being able to take advantage of latest Tech's Features in CRs, Poor interoperability, Workarounds due to technological deficiencies, Sudden technological dead End and Cost of immediate Technology Switch, Revolutionary sudden change costs.
- Hierzu habe ich sehr aufwändige nichtlineare Kosten-Nutzen-Analysen für Keep-/Replace-/Modernization-Szenarien erstellt nachdem ich den Stand der Wissenschaft recherchiert hatte. Kern war die Approximation/Schätzung der Eingangsfaktoren über Datenreihen und Interpolation mit kubischen Splines. Dann wurde die Zeit in Tages-/Monats-/Quartals-/Jahres-Schritten hochgezählt und die Eingangswerte entsprechend per Spline-Interpolation geschätzt, kumuliert, abgeschrieben, abgezinst und zwischen den Keep-/Replace-/Modernization-Szenarien verglichen – jeweils mit Best-, Medium- und Worst-Case-Analyse in VBA. Ich habe eine graphische interaktive Auswertung hierzu mit TreeView und Pivot-Tabellen erstellt. Es ist eine wissenschaftliche Publikation hierzu geplant, denn das Verfahren kann generell für die Wirtschaftlichkeitsberechnung solcher nicht-linearer Keep-/Replace-/Modernization-Szenarien verwendet werden, insbesondere für Big-Data-Projekte.
Projektende:
- GE entschied sich schließlich, die Alt-Architektur selbst evolutionär mit In-Memory-Processing Technologien weiterzuentwickeln und wegen der Amortisierung erst nach 5-7 Jahren in diesem Projekt noch nicht Big Data zu nutzen.

Kenntnisse

Cloudera Hadoop mit Spark (SQL DataFrames MLlib) + Alluxio (ex: Tachyon) SMACK (Spark Mesos Akka Cassandra und Kafka) Amazon AWS mit Spark testweise Apache Flink PuTTY VMware Ubuntu.

Kunde

GE (General Electric) Renewable Energies

Einsatzort

Frankfurt/Main

8 Monate

2016-02 - 2016-09

GET ONE BI

Architekt/Entwickler Spark, Hive, Java, Scala Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration ...

Rolle

Architekt/Entwickler Spark, Hive, Java, Scala

Projektinhalte

GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3

Fachlich: Erstellung einer Architektur für ein Corporate Memory als Digital Transformation / Digital eXperience (DX) Plattform, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
Subtask 1: Erstellen eines Tools für die effiziente unbürokratische Anlage von durch Benutzer/Analysten zur Laufzeit neu eingefügten Datenbank-Strukturen (neue Tabellen und Attribute in Tabellen bzw. als Graph) für neue analytische Ansätze wie Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention/Fraud Detection und Machine Learning.
Subtask 2: Erstellen von Markt-Analysen und Zusammentragen von Best Practices für einen Corporate Memory.
Subtask 3: Konzeption/Implementierung von Bonitäts-Alerting Use Cases: a) Auskunftei wie Creditreform/Bürgel meldet Bonitätsreduktion, b) Leasing- oder Kreditrate konnte nicht abgebucht werden, c) geändertes Nutzungsverhalten des Autos (Connected Car Daten), die z.B. auf Bewerbungsgespräche schließen lassen (bei zuvor 9-to-5-Bürotag) oder langes Ausschlafen zuhause (Arbeitslosigkeits-Indikator), d) Geänderte Daten aus sozialen Netzwerken wie vermehrt Kontakte zu Festanstellungs-Recruitern, e) Infos aus der computerlinguistischen Analyse (Bedeutungsextraktion aus Texten/Dokumenten) von E-Mails, Verträgen, Memos, Handelsregistern und sonstigen textuellen Infos mit Apache Stanbol und Apache OpenNLP.
Subtask 4: Konzeption/Implementierung von Anti-Money Laundering (AML) und Anti-Fraud Use Cases auf Basis von Data Science Techniken sowie Computerlinguistik.
Technisch:
Konzeption eines effizienten Speicher-Formats für Graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases. Dazu Implementierung verschiedener Use Cases mit Hive, Spark SQL, als Hive Makro und als Hive UDF mit Java/Scala und Messen/Vergleichen der Performance.
Marktanalyse und Proof-of-Concept (PoC) Konzeptionen/Entwicklungen zu
- Hadoop-ETL-/BI-Technologien und Tool-Kombinationen, insbesondere Sqoop/JDBC, Falcon/Oozie, Hortonworks Dataflow, StreamSets, syncsort, Flume/Kafka/Flafka, Chukwa, Talend BD, Pentaho BD, IBM InfoSphere with IBM DataStage for BD, Trifacta, Informatica BD, Waterline Data Science, Rapid Miner, Intelligent Miner, Datameer, Paxata, platfora, Trillium, SploutSQL/Pangool, Apache Drill + Arrow, Cascading, Crunch, Twill, REEF, RHadoop, SAS, H2O, KNIME, Tableau, SAP Business Objects, Zoomdata,
- Hadoop XML Verarbeitungs-Technologien und Tool-Kombinationen: Talend, Relational/ORC, JSON, Avro, Protobuf/Protostuff, XML->Relational, Graph-DB-Addon, Hive + ORC/Parquet, XML->HBase-Attribute, HyperJAXB, Relational DBs, HBase Phoenix, HAWQ, Simplified XML, Datanucleus, PostgreSQL.
- Auswertung unterschiedlicher Persistenzbibliotheken hinsichtlich (De) Serialisierungsgeschwindigkeit, komprimierte Größe und wie effizient sie mit den verschiedenen Technologien integriert werden können: Avro, Profobuf, Protostuff, JSON mit Jackson & Alternativen, BSON, ...
- Anbindungsmöglichkeiten (Spark-Driver, Storm-Driver, Flink-Driver, etc.) für Datenbanken/Caches/Query-Engines wie Hive, HBase, Cassandra, Cloudera Impala, Drill, Scylla DB, Aerospike, Alluxio, Druid, Splout SQL.
- Daten-Bereinigung (Data Cleansing) und Performance der Hadoop-Tools speziell im Bereich Graph-basierter Daten: Spark mit GraphX, Storm-Graph mit Trident, Flink Graph (Gelly) sowie die relevantesten der zuvor analysierten weiteren Tools.
Konzeption und Implementierung der oben genannten Kern-Use Cases mit Spark & GraphX, Avro, Alluxio sowie Talend for Big Data sowie mit Hive-Graph-Addon als UDF-Implementierung (User-Defined Function).
Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

DS Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration Hive mit Tez HCatalog Beeline Shell PuTTY VMware Spring Boot SAP FS-BA SAP HANA SAP BO (Business Objects) Cloud Foundry OpenStack Ubuntu

Kunde

Deloitte Consulting mit Daimler Financial Services (DFS)

Einsatzort

Berlin, Stuttgart, Homeoffice

5 Monate

2015-09 - 2016-01

Konzeption des pace Systems

Technischer Architekt Production Lines Error Handling Versions-/ Konfigurations-Management Logging ...

Rolle

Technischer Architekt Production Lines

Projektinhalte

Konzeption des pace Systems als zentrales IT-System der Marktforschung und Ablösung von StarTrack zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte mit Perspektive auf andere Märkte wie Optik-Produkte, Media, etc.

Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bi-temporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/ Prüfung/ Korrektur/ Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) mit einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools (Mahout, WEKA/MOA, Geode mit MADlib + HAWQ, LIBSVM, Spark mit MLlib + Oryx 2). Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen zu erkennbaren Aufgabenstellungen. Konzeption von Logging, Monitoring und Reporting. Agiler Crystal Clear Prozess.
Projektende: Die Zielarchitektur wurde fertigkonzipiert. Das Requirements Engineering konnte – wegen fachlicher Komplexitäten und Abstimmungsprozessen - nicht genügend Input für die Weiterentwicklung bereitstellen und aufgrund stark rückläufiger Geschäftsentwicklung bei GfK wurde in 2015 weniger Budget für Externe in 2016 genehmigt.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Error Handling Versions-/ Konfigurations-Management Logging Tracing XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Lucene LIBSVM Oryx 2 ELKI Deeplearning4j Elasticsearch Solr Nutch Gora Apache Tika MOA WEKA Mahout HAWQ HBase Pivotal-Tools Geode Tez Crunch Trident Cascading Storm Hibernate LDAP-Anbindung MySQL Jboss Axon Ivy Grafana BPM Exasol DB Cognos BI Icinga System Management Redis Puppet ActiveMQ ELK-Stack Java/JavaScript Logging-/Tracing-Framework Kendo-Framework AngularJS HTML5 Jackson Java-Entwicklung UI Sparx Enterprise Architect Konfig.-Serialisierung git gerrit gradle IntelliJ IDEA Caching HBase RocksDB Oozie Tachyon HDFS Docker DataFrames RDDs Spark SQL Spark mit Streaming und MLlib Cloudera Hadoop Crystal Clear

Kunde

GfK ? Gesellschaft für Konsumforschung

Einsatzort

Nürnberg, Homeoffice

3 Monate

2015-07 - 2015-09

Einführung eines Archiv-Systems

Software Architekt Logging Tracing Error Handling ...

Rolle

Software Architekt

Projektinhalte

Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell

Business Process Optimization Konzept erstellt für den SW-Entwicklungsbereich.
Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2.
Konzeption eines Tools zur stark automatisierten Verarbeitung von Kündigungen.
Einführung des Archiv-Systems T-Systems ImageMaster.
Modernisierung/Upgrade-Planung des OpenText Metastorm Business Process Management Systems (MBPM). Teilfunktionalität portabel mit Camunda BPM realisiert.
Verbesserung der IT-Sicherheit & des Datenschutzes bei VitaClic.ch, der elektronischen Patientenakte der KPT/CPT.
Projektende: Die KPT-Manager / Verwaltungsräte (Vorstandsvorsitzender und dessen Vertreter) Bosch und Liechti wurden kurz vor meinem Start zu 3 Jahren Haft wegen Untreue und versuchter persönlicher Bereicherung verurteilt (siehe Google). Dies führte – auch aufgrund des Reputationsverlusts und des erwarteten negativen Geschäftsverlaufs – zum Stoppen aller nicht sofort rentablen IT-Projekte. Ich wurde daher – statt als Architekt einer großen vitaclic.ch-Erweiterung – nur als Coach zur Optimierung der Geschäftsprozesse bzw. einiger Funktionalitäten eingesetzt.

DS-Ansatz:

Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), Maximum-Likelihood-Schätzer, Apriori, Gradient Boosting.

Kenntnisse

Logging Tracing Error Handling Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA KTM Enterprise Architect MS Office Puppet Visio OpenText MBPM Camunda BPM ASP.NET BizTalk SharePoint T-Systems ImageMaster MS Visual Studio 2013 mit C# C++ Scrum

Kunde

KPT/CPT Krankenversicherung (führende Schweizer Online-Krankenversicherung) mit Online-Patientenakte, -Versicherungsakte und Gesundheitsportal

Einsatzort

Bern, Schweiz

2 Monate

2015-05 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Big Data Projekt im Bereich zielgerichtete Online- und Mobile-Werbung durch Erstellung von Kundenprofilen. Konzeption einer Data Management Platform (DMP) in Kooperation mit TheADEX, Berlin. Datenaustausch mit diversen Medienpartnern und Zusammenführen dieser Daten zu Nutzerprofilen, Ableitung von Kunden-Interessen sowie Negativ-Merkmalen offline und in Echtzeit (Lambda-Architektur); Kanban.

Konzeption der Hadoop-Landschaft mit Anbindung an SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle erstellt, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen. Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; Web Scraper konzipiert/entwickelt mit node.js/NodeJS, CasperJS, PhantomJS, Sli-mer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten).
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

Typ/Dauer:

Aufgrund der starken Konkurrenz im DMP-Bereich (Google, Facebook, MS und mehr als 100 weitere DMP-Anbieter) und weil TheADEX ein Startup war, war von Anfang an nicht mehr als ein professionelles Aufgleisen des Projekts durch mich als Coach geplant.

DS-Ansatz:

Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Apriori, Gradient Boosting, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil der Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CasperJS PhantomJS Slimer.js Greasemonkey Ganglia Sigar Zookeeper ORC Puppet Parquet node.js Spark Streaming Cascading Tez KNIME Weka Oozie Chukwa Pig Avro Sqoop2 Mahout Kafka Spark Entwicklung/Konzeption unter Windows Produktionsumgebung unter Linux Kanban

Kunde

Havas Media Gruppe (Siebtgrößte Medienagentur Europas)

Einsatzort

Frankfurt/Main, Berlin, Homeoffice

7 Monate

2014-12 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Big Data Projekt im Bereich Predictive Maintenance von Medizin-Geräten mit zentraler SCADA-Komponente, vor allem im Radiologie-/Röntgen-Bereich (CTs, MRTs, C-Bogen, Spect-CTs, etc.), d.h. es sollen Service-Techniker möglichst vor dem Versagen einer Komponente diese austauschen, um maximale Verfügbarkeit für die Patienten sicherzustellen, wurde später Teil von MindSphere; Scrum.

Konzeption der Hadoop-Landschaft mit Anbindung an Teradata und SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle portabel umgesetzt mit Datanucleus, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen sowie Monitoring und Reporting.
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART, Apriori, Gradient Boosting. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CAN-Bus Qualcomm-Tools Ganglia Sigar Chef Zookeeper ORC Parquet Cascading Tez KNIME Weka Oozie Chukwa Sqoop1/2 Mahout Kafka Spark / Spark Streaming SAP PowerDesigner Pig Avro Teradata QueryGrid/TDCH Entwicklung/Konzeption unter Windows Produktionsumgebung unter Scrum

Kunde

Siemens Corporate Technology / Healthineers (ex: Healthcare) IT

Einsatzort

München, Erlangen, Homeoffice

3 Monate

2014-10 - 2014-12

Konzeption/Implementierung

Sicherheits-Architekt und Entwickler MS Office MS Project MS Word ...

Rolle

Sicherheits-Architekt und Entwickler

Projektinhalte

Konzeption/Implementierung der Integration des Fingerabdruck-Scanners in einen Geldautomat / ATM, Schwerpunkt auf sichere Datenaustauschprotokolle zwischen Sensor, Automat und Backend. Dazu Erstellen eines Sicherheitskonzepts für die Nutzung von Fingerabdruck-Scannern für Bank-Automaten (ATM) und Mobile Banking, Umsetzung von Kernelementen dieses Konzepts im Rahmen eines Prototyps für Kunden-Showcases; Scrum.

Erstellen eines Sicherheitskonzepts basierend auf der eigenen statistischen Sicherheits-Datenbank zu Gefährdungen/Gegenmaßnahmen (nach BSI/Common Criteria), erweitert um Gefährdungen/Gegenmaßnahmen im Bank und Fingerabdruck-Sensor-Bereich, insbesondere nach ISO 27745 2011 und ISO 19092.
Implementierung des Showcases für sichere Übertragung (ATM/Mobile Banking) mit Schlüsselverteilung, sicherem Schlüsselspeicher, PKI, RSA / IDEA, AES-GCM, DiffieHellman / FHMQV-C, SHA-2 / SHA-3, scrypt / bcrypt / PBKDF2, Ubuntu.

DS-Ansatz:

Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices MS RegExp Puppet XML/XML Schema (XSD)/XSLT WS-* Standards WADL http(S) CAN-Bus Qualcomm-Tools RESTful Webservices PBKDF2 bcrypt scrypt SHA-3 SHA-2 FHMQV-C DiffieHellmann AES-GCM IDEA RSA PKI MS Visual Studio und C++ boost Library Scrumk Windows Embedded Embedded Linux

Kunde

Bio-Identification Firmen Dermalog/FingerPayment, Anwendungen im mobilen und stationären Banking

Einsatzort

Hamburg

2 Monate

2014-09 - 2014-10

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung

Konzeption & verbesserung der neuen Werbesteuerung MS Office MS Project MS Word ...

Rolle

Konzeption & verbesserung der neuen Werbesteuerung

Projektinhalte

Projektziele:

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung, d.h. jedem Besucher der Webseite möglichst viel passende Werbung einzublenden und dabei eine möglichst hohe Klickrate zu erzielen (Online-Werbung, Affiliate Marketing, Profil- und Interessenanalyse).

Aufgaben

Erfassen der Kundenanforderungen, der diversen technischen Browser-Features (Flash, Adblocker, HTML5, etc), Ansätze der Kundenprofilierung und Auswertung der Klickraten.
Darauf aufbauend Erstellen eines Konzeptes für eine Werbesteuerung abhängig von Visitor-Interessen/-Profilen.
Test-Automationskonzept mit JavaScript, Scala und Docker Containern.

Kenntnisse

Kunde

Chip Digital GmbH

Einsatzort

München

3 Monate

2014-07 - 2014-09

Allianz Data Center Consolidation / Data Center Migration

Konzeption der Big Data und der SAS Migration MS Office MS Project MS Word ...

Rolle

Konzeption der Big Data und der SAS Migration

Projektinhalte

Projektziele:

Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.

Aufgaben

Erfassen der Kundenanforderungen, Durchführung von Kundenworkshops.
Technische Analyse der zu migrierenden Systeme (ca. 6000 Systeme) auf Dokumentationslücken, Migrierbarkeit und mögliche Migrationsprobleme.
Erstellen der detaillierten technischen Migrationspläne (Word-Dokumente) unter Berücksichtigung der jeweiligen Best Practices in der Migration und im Betrieb von SAS und IBM Big Insights / Hadoop.
Planung des Einsatzes zusätzlicher IBM Tools (Blue Wash)
Dokumentation und Weitergabe des Wissens.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards http(S) OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL Puppet IBM SPSS SAP PowerDesigner IBM Migrationstools VMware IBM Integration Broker IBM QRadar SIEM IBM Appscan IBM Integration Bus Identity Manager / Access Manager Security/IAM/ISMS IBM Tivoli mit TADDM RUP/EUP

Kunde

Allianz Versicherung

Einsatzort

München

8 Monate

2013-11 - 2014-06

Neuentwicklung eines MS Azure basierten internen Backend API

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalität MS Office MS Project MS Word ...

Rolle

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalität

Projektinhalte

Projektziele:

Neuentwicklung eines MS Azure basierten internen Backend API für RESTful Webservices für das „Connected Car“ Projekt im After-Sales-Markt für europäische Märkte basierend auf einer bestehenden Version aus den USA, der zugehörigen iOS/Android App Backends sowie der APIs der On-Board-Units für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.

Aufgaben Fachlich:

Konzeption von Geräte-APIs der On-Board-Units (OBU) unter Nutzung des OBD-II-Protokolls und von AUTOSAR für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Architektur von MS Azure basierten internen Backend APIs für RESTful Webservices für europäische Märkte basierend auf einer bestehenden Version aus den USA.
Architektur von MS Azure basierten externen Cloud-Backend APIs für iOS/Android App Entwicklung für beliebige App Entwickler.
Architektur von MS Azure basierten externen Backend APIs für den Daten- und Kommandofluss sowie diverse Mehrwertfunktionen zwischen OBUs und Cloud-Backend (Car-to-Cloud-Kommunikation), Kompatibilität zu den eCall-Standards, Anbindung von Vodafone’s M2M-Plattform z.B. für das Durchleiten von SMS sowie Billing-Funktionalität.
Ausarbeitung der Architekturen für die Use Cases: Eco Driving, Car Health (Trouble Diagnostics) mit der Einholung von Reparatur-Angeboten in Echtzeit, Predictive Maintenance/Planen von Wartungsterminen, Erkennen von Diebstahl-Versuchen, Driving Log (Fahrtenbuch), Verkehrs- und Wettermeldungen bzw. Warnungen dazu, Behaviour-based Insurance, Augmented Reality (es werden weitere Infos angezeigt z.B. virtuelle Stadtführungen bzw. intelligente Mehrwert-Navigationsfunktionen bis hin zur Parkplatzsuche und -Reservierung, aktuelle / historische Gebäude, Menschen, Ereignisse in Abhängigkeit von der aktuellen Position des Autos), Benzinpreis-Infos/nächste Tankstellen, Personal Radio bzw. personalisierte Musik, Heatmaps/Hotspots zu Events/Lokalitäten, Teilen von Daten auf unterschiedlichen Geräten, sonstige Fahrerassistenzsysteme, Personalisierung all dieser Dienste nach Nutzerinteressen, Nutzung für After-Sales-Services sowie weiterer ähnlicher Funktionen wie angeboten durch Apple CarPlay, Android Auto / Google Android Open Automotive Alliance (OOA), Windows Embedded Automotive, Qualcomm Adreno SDK, VW Car-Net, mercedes.me, GM Onstar, Automatic Link, MirrorLink, GENIVI Alliance.
Spezifikation / Proof-of-Concept für HTML5/Ajax-GUI (Dojo mobile, jQuery mobile, Bootstrap, Lo-Dash, DozerJS, d3.js) und node.js Backend (npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, CoffeeScript).
Steuerungen erstellt für das automatisierte Aufbringen der Software auf die asiatischen Geräte und Fehlerdiagnose als EMSR (Elektrisches Messen, Steuern und Regeln) System.
Ausarbeitung der Sicherheitskriterien und Vorbereitung der Safe Harbour Datensicherheits-Zertifizierung. Kernelemente dabei waren die Trennung der Nutzer-Id von deren Nutzungsdaten sowie Datensparsamkeit bzw. Anonymisierung sobald und soweit möglich.

Technisch:

Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, sowie .NET Messaging Anwendungen (MSMQ), Firmware Over-The-Air Update (Firmware-OTA, FOTA). Erstellung von API-Konzept-Dokumenten und UML-Diagrammen zu oben genannten APIs. Implementierung durch Lieferanten: Lieferantenmanagement, Testmanagement und Experte für Nachfragen.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene und Betriebssystems-Ebene nach statistischen Gewichtungen. Damit konnten die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert werden innerhalb eines gegebenen Budgets.
Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Technische Begleitung von Referenzprojekten (Scrum) mit Kunden (ADAC, niederländischer ANWB, Vodafone, Telefonica/O2/EPlus) als Architekt und später als technischer Projektmanager/Testmanager. Nutzung der Qualcomm Tools QxDM (eXtensible Diagnostics Monitor) und QPST (für den UMTS Chipset) sowie PuTTY & WinSCP.
Über die eigenen und die Netzwerk-Segmente der Partner hinweg Abgleich von anonymisierten Nutzer-Daten sowie domänen-übergreifende Autorisierung mit OAuth (kompatibel mit Safe Harbor Vorgaben der EU).
Connected Car Web Interface sowie Mobile App Interface (HTML5) konzipiert/prototypisch erstellt mit Apache Cordova/PhoneGap, Ionic Framework / Lab / ngCordova, NW.js (ex: Node-Webkit), NACL, Dojo mobile, jQuery mobile, Node.js, npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, TypeScript, CSS3.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Handlebars.js TypeScript CSS3 Node.js npm Backbone.js Lo-Dash Ember.js NW.js NACL Dojo mobile jQuery mobile Ionic Framework / Lab / ngCordova Apache Cordova/PhoneGap MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL http(S) Intel E-Mail Protection / Server Security Suite Puppet McAfee Embedded Control Intel/McAfee Web Gateway 7.x Qualcomm QPST Qualcomm Tools QxDM TFS Sparx Enterprise Architect SAP PowerDesigner MS Visual Studio Microsoft Biztalk MS Visio MS Office Win64 C# Microsoft .NET Framework 4.5 MS Azure SCrum

Kunde

Delphi

Einsatzort

Großraum Hannover, Niederlande, USA, UK und Homeoffice

3 Monate

2013-08 - 2013-10

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit MS Office MS Project MS Word ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption einer Certificate Authority (CA) sowie einer PKI (Public Key Infrastruktur) zu Testzwecken und mit Unterstützung für Testautomatisierung.

Technisch:

Requirements Engineering für Certificate Authorities (CA)/ Public Key Infrastructures (PKI).
Erstellung und Präsentation einer Entscheidungsvorlage bzgl. teilweisem/vollständigem Make-or-Buy.
Architektur der CA/PKI im Rahmen der Make-Lösung unter besonderer Berücksichtigung von Test-Anforderungen zur Erzeugung diverser Klassen von Fehlern, Echtzeitfähigkeit, RESTful WS Schnittstelle.
Konzeption und Implementierung fehlender Features im Bereich Elliptical Curve Cryptography (ECC), Card Verifiable Certificates (CVC) sowie Gematik-spezifischer Standards für Smartcards/eGK sowie die Telematik-Infrastruktur (TI) für die gewählte EJBCA. Implementierung von Features wie sie von der Nexus CA bekannt waren und bislang genutzt wurden.
DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.
Spezielle Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Versions-Management Logging Tracing Error Handling Debugging IT Security SOAP XML DTD XSD XSLT XPath XQuery SOA EAI SQL OOA OOD OOP Domain-Driven Design WebServices COBIT ITIL UML/UML2 RegExp JAX-WS JAXB Apache CXF AXIS2 slf4j/logback http(S) XML/XML Schema (XSD)/XSLT WS-* Standards JDBC WSDL Eclipse Subversion/SVN JBoss Jama Contour Win32/Linux Java JBoss EAP/AS Apache CXF WebServices Scrum

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

7 Monate

2013-02 - 2013-08

Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement.

Architekt und teilweise Entwickler

Rolle

Architekt und teilweise Entwickler

Projektinhalte

Projektziel:

Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement. Konzeption und teilweise Umsetzung diverser Erweiterungen eines Eclipse-RCP- und LibreOffice-basierten Dokumenten- und Text-Baustein-Verwaltungssystems.

Aufgaben Fachlich:

Konzeption einer neuen zentralen Business-Logik- und Entity-Klassen-Schicht zum flexibleren Management von Änderungen, Versionen, Baselines, Releases sowie entsprechender Migrationsstrategien. Verbesserung der IT-Sicherheit sowie konzeptionelle Umsetzung diverser Change Requests.

Hintergrund: Die BG Phoenics ist zentraler IT-Dienstleister der Dt. Berufsgenossenschaften und deren 100%ige Tochter. Die weiterentwickelte Software dient hauptsächlich der komfortablen graphischen Verwaltung von juristisch korrekt formulierten Textbausteinen, die dann über viele Hierarchie- und Wiederverwendungsebenen zu Musterbriefen zusammengebaut werden. So wird sichergestellt, dass Sachbearbeiter keine großen Schulungen und juristische Kompetenzen benötigen, um dennoch rechtssichere Briefe ohne nennenswerte nachgelagerte Prüf- oder Korrekturaufwände erstellen zu können. Da es häufig um sechsstellige Summen im Zusammenhang mit Betriebsunfällen und Berufsunfähigkeit geht, was später nicht selten vor Gericht verhandelt wird, ist entsprechende Rechtssicherheit bei geringen Verwaltungskosten sehr wichtig.

Technisch:

Konzeption der Architektur mit dem MID Innovator 2012, LibreOffice Designer sowie bouml - Architekturbeschreibung mit MS Word bzw. LibreOffice.
Umsetzung eines Proof-of-Concept (POC) zur Umstellung der Office-Integration von OpenOffice 3.1 mit NOA-Library (Nice Office Access) auf LibreOffice 4.1 mit UNO-Library (Unified Network Objects, eine CORBA-ähnliche Library mit IDL-Syntax). OpenOffice bzw. später LibreOffice waren auch die Editoren des Dokumenten- und Text-Baustein-Verwaltungssystems.
Umstellung vom ins Produkt integrierten alten OpenOffice 3.1 auf LibreOffice 4.1 entsprechend des POC.
Automatisiertes Erzeugen von Logging- und Trace-Statements mittels eines selbstentwickelten Tools.
Verbesserung der IT-Sicherheit, der Speicherungs-, Archivierungs- und Migrationsmechanismen sowie der Erkennung von Inkonsistenzen und Verbesserung der Usability.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing IT Security Versions-Management XML DTD XSD XSLT SOA EAI OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Hibernate slf4j/log4j Tomcat Dojo Spring 3.x XML/XML Schema (XSD)/XSLT WS-* Standards JAX-RS JAX-WS JDBC WSDL http(S) Bouml Atlassian Fisheye & Crucible Puppet Maven Tycho (RCP-Integration) Jenkins Sonar MS Visio Eclipse IBM Clearcase Subversion/SVN Maven Open Office LibreOffice Scrum Remote Desktop MS SQL Server Eclipse RCP Win32 Java/JEE Scrum

Kunde

BG Phoenics

Einsatzort

Hannover, DE

4 Monate

2012-09 - 2012-12

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge

Integrations-Architekt

Rolle

Integrations-Architekt

Projektinhalte

Projektziel:

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.

Aufgaben Fachlich:

Konzeption von Migrationsstrategien zur Einführung eines neuen Fall-Management-Systems (Case Management System) für den Patent-Lebenszyklus, Analyse der Vor- und Nachteile schwer- und leichtgewichtiger Java Enterprise Architekturen (SOA/ESB und REST) und Definition von Standards, Tools/Komponenten und Methodiken zur Ausgestaltung der Nutzung dieser Technologien. Konzeption einer Zwischenschicht (Mediation Layer) zur Entkopplung der Legacy-Systeme gegenüber dem Case Management System und zur Durchführung der Migration von 90% der Legacy-System-Funktionalität hin zu Komponenten im Case Management System.

Technisch:

Aufnahme von Anforderungen (Requirements Engineering) und darauf basierend Evaluation von Technologie-Alternativen, insbesondere REST vs. SOA/ESB (MuleSoft, OpenESB/Java CAPS, Apache ServiceMix), API Management Systeme (Apigrove, Vordel, Layer7, Apigee), Java Libraries (Spring REST, RESTlet, RESTEasy, Jettison, Apache CXF).
Erstellung eines RESTful Coding Styleguides mit Schwerpunkt auf Spring REST und JBoss RESTEasy.
Erstellung einer SOA-Strategie (basierend auf TOGAF), einer REST-Strategie, von Konzepten & Design Guidelines für den Mediation Layer, einer Enterprise-SOA-Architektur und Migrationskonzeption.
Basierend auf einer selbst erstellten Typologie der bestehenden Systeme, Konzeption einer Master-Architektur und einer Migrationsstrategie je Typus mit Wrapper-/Konvertierungskomponenten mittels JET (Java emitter templates) erweitert durch einen JavaCC-Parser und Talend OpenStudio.
Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Voldemort, Accumulo, HCatalog, Hive mit Shark /Stinger, Cloudera Impala/Drill, Sqoop2, HDFS, Pig, Oozie, Cascading mit Multitool, Giraph, Zookeeper, BookKeeper, Nagios, Flume, Kafka, Sawzall, Hue, RabbitMQ, Elephant Bird, Ganglia, Spark/Spark Streaming, GraphX, MLlib, Mahout, Kafka, Ambari/Ganglia, Whirr, Mesos.
Aufwandsschätzung nach COCOMO2.
Konzeption eines Code Analyse (Parsing) und Code Generierungs-Ansatzes zum Einlesen bestehender Java und COBOL Interfaces und zur Generierung von Java RESTful/SOA Web Services bzw. von Facaden daraus. Konzept zur graphischen Erstellung/Generierung von Adapter-Klassen über die Modellierung mit TalenD Open Studio. Integration von Facade und Adapter-Klassen in Wrapper-Libraries und Nutzung zur Entkopplung, Datenanalyse (Flüsse, Formate) und Systemmigration.
Konzeption der verlustfreien XML <-> JSON Konvertierung und Integration in JEE-Apps über Annotations mit selbstentwickeltem Order-Maintaining Badgerfish-Algorithmus.
Konzeption von REST HATEOAS (Hypermedia as the Engine of Application State) über standardisierte Content Rel(ations) sowie das Atom Publishing Format.
Erstellung eines Versioning-Konzeptes mit maximaler Robustheit gegen Änderungen in APIs: Neue Annotationen wie @LastSemanticChangeInVersion und @Since konzipiert und integriert in Maven Dependency Checking für nur inhaltliche/semantische (und sonst nicht erkennbare Änderungen) und offensichtliche Änderungen, deren Einführungsversion festgehalten wird. Verwendung von XPath und JSON-Path-basierten automatisierten Marshallern mit Spring 3.x zur Zuweisung von REST-Input-Parametern an Java-Methoden-Parameter.
Sicherheits- und Verfügbarkeits-Konzeption, IT-Security mit OAuth 1.0a/2.0 (alternativ teilweise SAML 2.0) sowie SPNEGO/Kerberos als bestehendem Mechanismus, Content Security, Logging/Tracing/Monitoring, Governance, Code Injection Checking Library mit BeanValidation Interface, ESAPI, Antisamy, CSRFGuard, AppSensor und Embedded SQL (ESQL).
Erstellen eines Logging/Monitoring/Tracing-Konzeptes basierend auf einem zweigleisigen Mechanismus über Java Instrumentation oder alternativ Code Generierung, die die bedarfsorientierte effiziente DB-/Text-Ausgabe, Analyse und visuelle Darstellung (Sequenz-Diagramme) aller Parameter aller Methoden mit allen ihren Embedded Types ermöglicht. In Kombination mit obigen Sicherheitstools sind so auch alle Teile eines übergeordneten verteilten Code Injection Angriffs erkennbar, auch wenn gegen einen einzelnen RESTful Service nur Fragmente eines Angriffs eingesetzt werden. Weiterhin lassen sich so Root Causes (ursprüngliche Ursachen) von Fehlern automatisiert erkennen und missbräuchliche Nutzungen (z.B. Massen-Download von verteilten IP-Adressbereichen) erkennen. Nutzung der Tools Nagios, splunk und HP ArcSight.
Identifikation und Vorschlagen von Komponenten/Techniken zur Umsetzung von Anforderungen an RESTful Systeme, die wegen der REST-Einschränkungen nicht direkt umsetzbar sind: Transaktionen, asynchrones/Event-basiertes Messaging, Routing, komplexe Content Transformationen, Format/Content/Protocol Mediation, gleiche und detaillierte Fehler-Behandlung, Unterstützung von Nicht-HTTP-Protokollen, Auditing/Monitoring/Logging/Tracing/Analytics, sicheres Schlüssel-/Token Management & Verteilung, komplexe per Regeln beschriebene Prozesse mit asynchronem Fremd-Input, komplette Testbarkeit mit Time-Travelling, Standard Kommunikations-Patterns (wie fire-and-forget, publish-subscribe,...), Batch Jobs / Scheduled Tasks mit Ausführungs-Kontrolle, ReliableMessaging.
Konzeption/Review/Beratung zu den neues GUIs der Systeme auf Basis von JSF und/oder HTML5: jQuery, Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS, Mustache, TypeScript, CSS3.
DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.

Produkte

MS Project MS Outlook MS PowerPoint MS Excel Error Handling Debugging Testing MS Office Versions-Management Logging Tracing XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA angularJS Mustache TypeScript Underscore.js d3.js Node.js npm Backbone.js Tomcat Apigrove OpenESB/Java CAPS Jettison Jackson Mule ESB Apache Camel slf4j/logback Wordnik Swagger. JBoss ESB Spring 3.x RESTEasy Apache CXF JDBC WSDL http(S) XML/XML Schema (XSD)/XSLT WS-* Standards JAX-RS JAX-WS angularJS Mustache TypeScript CSS3. Node.js npm Backbone.js Underscore.js d3.js Kafka Ambari/Ganglia Whirr Mesos Ganglia Spark/Spark Streaming GraphX MLlib Mahout Flume Kafka Sawzall Hue RabbitMQ Elephant Bird Cascading mit Multitool Giraph Zookeeper BookKeeper Nagios Cloudera Impala/Drill Sqoop2 HDFS Pig Oozie Voldemort Accumulo HCatalog Hive mit Shark /Stinger Hypertable HBase Cassandra Redis Confluence Unit Tests Integration Tests Subversion Puppet Jira Intel E-Mail Protection / Server Security Suite Git Intel/McAfee Web Gateway 7.x McAfee Embedded Control Nagios splunk HP ArcSight SAP PowerDesigner MS Visio TalenD OpenStudio Jama Contour ErWIN Sparx Enterprise Architect Maven Jenkins Sonar Atlassian Fisheye & Crucible Eclipse/SpringSource Tool Suite (STS) Subversion/SVN Java/JEE JBoss EAP/AS Win32 Linux Scrum

Kunde

European Patent Office

Einsatzort

Den Haag, NL

5 Monate

2012-04 - 2012-08

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit Java JBoss EAP/AS Apache CXF WebServices ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption der Konnektor-Funktionalität auf Anwendungs-Ebene: Verschlüsseln, Signieren, Hashen, Verifizieren für die Datenformate binär, PDF/A, XML, S/MIME, Text unter Anbindung von Kartenterminals, Smartcards.
Zuarbeit bzgl. Sicherheit zur Konnektor-Funktionalität auf Netzwerk-Ebene.
Konzeption der IT-Sicherheit (Gefährdungen/Gegenmaßnahmen) und Sicherheits-Test-Konzeption, Vorbereitung der Zertifizierung nach BSI Grundschutz mit dem BSI.

Technisch:

Aus-Spezifikation der Nutz- und Kontroll-Datenflüsse und Datenformate bis ins letzte Bit für alle denkbaren Krypto-Operationen: Verschlüsseln, Signieren, Hashen, Verifizieren, Anbindung an PKI unter Nutzung der existierenden Standards: PKCS#7, CMS, XaDES, XML-DSig, S/MIME, PC/SC, PDF-Crypt, PDF-Sign, Signaturgesetz (SigG) und Signaturverordnung (SigV), GnuPG/GPG.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungsszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM).
Sicherheits-Konzeption unter Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.

Produkte

MS Project MS Word MS Outlook MS PowerPoint MS Excel Error Handling Debugging Testing MS Office EAI IT Security Versions-Management Logging Tracing SOAP XML DTD XSD XSLT XPath XQuery SOA SQL OOA OOD OOP Domain-Driven Design WebServices COBIT ITIL UML/UML2 RegExp JAX-WS JAXB Apache CXF AXIS2 slf4j/logback JDBC WSDL http(S) XML/XML Schema (XSD)/XSLT WS-* Standards. Eclipse Subversion/SVN Jama Contour

Kenntnisse

Java JBoss EAP/AS Apache CXF WebServices Scrum Win32/Linux

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

6 Monate

2012-03 - 2012-08

Erstellung einer Sicherheitsarchitektur für das Projekt PostPaket 2012

Sicherheits-Architekt

Rolle

Sicherheits-Architekt

Projektinhalte

Projektziel Erstellung einer Sicherheitsarchitektur für das Projekt PostPaket 2012, Schwerpunkt Handscanner-Integration (HASCI) vom Zusteller beim Kunden bis hin zur Backend-IT, Umsystemen und der Paket-Verfolgung mit Microsoft-Technologien. Aufgaben Fachlich: Erstellen von sicherheits-relevanten Vorschlägen für die Architektur des Systems sowie Erstellung des Sicherheitskonzeptes unter Berücksichtigung zahlreicher Konzern- und Sicherheitsstandards. Durchführen von Sicherheits-Workshops und Beantwortung von sicherheitsrelevanten Fragen für alle Ansprechpartner im Projekt. Technisch: 1. Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, Windows Mobile/Windows Phone sowie .NET Messaging Anwendungen (MSMQ) sowie der Web Frontends mit Microsoft Ajax, jQuery, RESTful WebServices mit Backbone.js. 2. Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM), Attack-Tree-Erstellung und darauf aufbauende Analysen, Schutzbedarfsanalysen, End-to-End-Systemübersicht, Sicherheitskonzept und Analyse. Aufstellung von Assets, Vulnerabilities, Attacks, Threats, Mitigations, Policies nach Common Criteria/BSI GS und Ermittlung verbleibender Schwachpunkte sowie deren Ranking nach Wahrscheinlichkeiten/Erwartungswerten. Security-Maßnahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenmaßnahmen mit dem besten Kosten-Nutzen-Verhältnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. Für jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenmaßnahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert. Nach der endgültigen Entscheidung über die Maßnahmen, wurde das Restrisiko berechnet. Gegenmaßnahmen gegen neue Bedrohungen wurden in ähnlicher Weise neu bewertet und verwaltet. 3. Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact,, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity. 4. Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Tracing Error Handling Debugging Testing Konfigurations-Management Logging Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML2 SQL OOA UML MS RegExp XSLT WS-* Standards XSD XML XML Schema WSDL SAP PowerDesigner Puppet Microsoft Biztalk MS Visual Studio TFS ALM Versionsmanagement SSIS TSQL T-SQL Windows Mobile Windows Phone SQL Server 2008 R2/2012 C# Microsoft .NET Framework 4.0 .NET Compact Framework 3.5 Win64 Scrum

Kunde

Deutsche Post/DHL

Einsatzort

Darmstadt/Bonn/Homeoffice, DE

1 Jahr

2011-04 - 2012-03

Modernisierung der Unternehmens-IT

Enterprise/System Architect/Solution Designer Logging Tracing Error Handling ...

Rolle

Enterprise/System Architect/Solution Designer

Projektinhalte

Projektziel Modernisierung der Unternehmens-IT, Integration der verschiedenen IT-Welten aus der Zeit vor der Fusion, die Umsetzung gesetzlich geforderter Änderungen Aufgaben 1. Hauptaufgaben: Enterprise-/System-Architect/Solution Designer für Verbesserungen und neue Lösungen, z. B. das Schreiben von Architekturen für Ausschreibungen/Lieferanten-Vorgaben (Outline Solution Design, OSD), die bei Lieferanten verfeinert werden. Wo möglich, war die Implementierung der Arbeitspakete Offshore ausgelagert mit entsprechendem Lieferantenmanagement durch mich. Ein angepasster PRINCE2-Standard wurde für das Projektmanagement eingesetzt. 2. Dokumentation der bestehenden Enterprise-Architektur per UML und anschaulicher Beschreibungen. Konzeption eines eTOM-Modells (electronic Target Operating Model) unter Berücksichtigung von TOGAF. Erstellung und Erweiterung von Datenmodellen mit Sparx Enterprise Architect. Integra-tion/Anpassung von SOX-und GxP-konformen Prozessmodellierungen mit BizAgi. Erarbeitung eines Corporate Dokumenten-Management-Prozesses und eines Architektur-Nutzungs- und Architektur-Update-Prozesses. Recherche und Dokumentation von Anforderungen in Bezug auf die IT-Systeme von Banken und Versicherungen, z. B. von MA Risk-VA, SOX (Sarbanes Oxley), GxP. Auf dieser Grundlage Erstellung von Vorschläge für die LBG-Architektur. Evaluation / Review von Architekturen sowie von Vorschlägen von Lieferanten. 3. Business Prozess-Analyse und Prozess-Optimierung mit dem Ziel der Kostenersparnis: Alle Systeme (HW/SW), Kontroll- und Datenflüsse, die relevant für geplante Änderungen waren, wurden auch auf Optimierungspotential betrachtet und Optimierungen konzipiert, z.B. anhand der "IT Cost Saving" Checklisten der Universitäten Cornell und Princeton. Häufige Maßnahmen: Virtualisierung oder Ablösung von Systemen, Vereinheitlichungen (HW/SW), Verfolgen des Flusses der Papier-Dokumente und deren Automatisierung z.B. durch DMS/Collaborative Editing/Workflow Management, Streamlining von Prozessen durch Automatisieren/Vereinfachen von Prozessketten oder die Delegation höherer Entscheidungskompetenz an Mitarbeiter. Technisch konnte dies z.B. häufig über den Einsatz von Echtzeit-Messaging (statt Batch-Jobs), Automatisierung, Konverter-Tools/Checker-Tools, De-Scoping sowie Offshoring stattfinden. 4. Erstellung eines Business Continuity Management (BCM) und Disaster Recovery Management (DRM) Konzeptes für den Desaster-Fall: Konzeption von Redundanz-Mechanismen mit Abhängigkeitsdiagrammen und einen physischen Disaster Recovery-Standort, also mit insgesamt 2 Standorten, mehreren Clustern, Failover-Mechanismen, VPNs, Zoning-Konzept (Access / Service / Backend / Admin-Zonen), WAF (Web Application Firewalls), IPS (Intrusion Prevention Systeme), selektive Fehlererkennung und Recovery-Mechanismen. 5. Konzeption / Transition-Management für ein Corporate eLearning-System basierend auf ILIAS 4.1.5 bzw. dem SCORM-2004-Format, Sicherheits-Bewertung von ILIAS und Argumentation der Sicherheit bzgl. der Konzern-IT. 6. Konzeption von / Transition-Management für ein firmeneigenes Intranet auf Basis von SharePoint 2010 Enterprise Edition. Verwenden von SharePoint, Integration von Mitarbeiter-/Gruppen-Suche, Newsletter, Interner Marktplatz, geschützter Bereich für Manager, Buchung von Geschäftsreisen, Taxis, etc. Extraktion von Daten aus dem alten Intranet und Beratung bei der Konvertierung in die SharePoint-Formate. 7. Konzeption des "Annual Statements Projekts" (jährliche Auskunft über das Versicherungskonto), das eine aktualisierte Version des Kunden-Reportings in Bezug auf die Werte ihrer Verträge, die Performance ihrer Fonds, die zu erwartenden Leistungen, etc. liefert. 8. Konzeption und grundlegende Umsetzung einer Quellcode-Analyse-Lösung mit spezieller Unterstützung für die Analyse von SQL / DDL, Perl, Java, C # und Cold Fusion Quelltexten zu UML-Klassen-und UML-Sequenzdiagrammen (als Teil der Gesamt-Architektur-Dokumentation). 9. Konzeption des Kommissions-Projektes, um die Provisionen für unabhängige Makler zu berechnen in einer neuen und optimierten Art und Weise mit SAP-CD (collection/disbursement), Oracle GL (Hauptbuch), Life/400 und COR & FJA LF3/LF4 sowie einem Partner-Management-System. 10. Konzeption eines SAP-Upgrade-Projekts und Diskussion / Ausarbeitung mit ConVista (SAP Beratungsfirma) von 4.6 auf 6.0.4 bezüglich hauptsächlich FI/CO, CD mit SEPA und Riester-Rente Anpassungen. 11. Konzeption des SEPA/EBICS/ISO20022 Zahlungs-Projektes, um die neuen XML-basierten Zahlungen in 27 europäischen Ländern zu unterstützen mit IBAN / BIC bzgl. SDD (SEPA-Lastschriften; Direct Debit), SCT (SEPA Credit Transfer), EBICS (CCC, CCT, CDD, CDB), ETEBAC (Frankreich), DTA als grundlegende Format und erweitert um IBANs (Schweiz), MT940, CSV-, R-Transaktionen (Rückruf, Rücküberweisung, Absagen, Erstattungen, Ablehnungen, Retouren / revocations, reversals, rejections, refunds, refusals, returns) Management, die Fehlerbehandlung und Mandats-Management (Nachfolger Einzugsermächtigungen). Voraussetzung war der SAP-Releasewechsel und die Integration mit Oracle-GL (General Ledger, Hauptbuch), Life/400 und COR & FJA LF3/LF4/ZUL/TaxConnect. 12. Konzeption + Umsetzung aktualisierter/erweiterter Berechnungen in SQL unter Einbeziehung von Änderungen/Anpassungen und Interpretationen bzgl. der österreichischen Versicherungssteuer für die Systeme Life/400 und die Tarifberechnungs-Engine (Rechen-Kern + BIPRO Web-Services / Web-Frontend). Besondere Herausforderungen waren eine kurze gesetzliche Zeitspanne für viele Steuer-Varianten und steuerlichen Modelle für verschiedene flexible Versicherungsbedingungen, vielleicht die Flexibelsten Bedingungen auf dem österreichischen Markt (z. B. hinsichtlich der Aussetzung von Zahlungen, Zuzahlungen, Entnahmen und anderer Vertragsänderungen). 13. Architektur eines DMS-Addons für die konsistente Konsolidierung verschiedener Dokumente und Versionen unter Nutzung von Liferay als Portal-System sowie von Etherpad / TinyMCE als Rich-Text-Editoren. Das Addon erlaubt links das Laden/Erstellen/Bearbeiten/Speichern einer inhaltlichen Struktur für das Zieldokument sowie die Darstellung der Quelldokumente mit ihrer Struktur. Durch Anklicken wird jeweils das entsprechende Kapitel im Rich-Text-Editor angezeigt. Satz-, Absatz- oder Abschnitts-weise können Inhalte per Drag & Drop in die Ziel-Dokument-Struktur abgebildet werden. Bereits vorhandene Passagen werden farblich markiert zur Erkennung von Doppelungen oder Unterschieden zwischen Versionen. Auch das direkte Editieren der Passagen im Zieldokument ist möglich. So konnten hunderte Entwicklungs-Dokumente aus verschiedenen Teams bzw. von älteren Ständen schnell und kostengünstig integriert werden. 14. Konzeption einer SIP-/VoIP-Callcenter-Integration mit Asterisk / Sipgate und einer Homeoffice-Integration mit DD-WRT/OpenWRT und Asterisk. Konzeption / Programmierung gegen eine TAPI-Schnittstelle in C++ / C # unter Verwendung von SIP TAPI / AstTapi. Evaluierung von Yate, Asterisk, Sipek2, Twinkle, Starface, Si-phon, PJSIP, JSIP, Jain, SIP.NET, Konnectic SIP. Umsetzung der RFCs 3261, 3265, 3515, 3665, 3725, 3853, 4235, 4320, 4916 direkt oder durch Nutzung von Bibliotheken z. B. für TAPI. Telefonate können vom PC/Laptop aus gestartet werden und werden kostengünstig über SIP abgewickelt und direkt im web-basierten CRM-System zugeordnet, auch wenn sie direkt über das Telefon gestartet wurden oder es sich um eingehende Anrufe handelt. So werden 100% der Kundenkontakte erfasst. 15. Konzeption / Erstellung eines Prototyps zur interaktiven Eingabe von Zahlungen in Online-Banking-Schnittstellen (im Konzept ähnlich sofortueberweisung.de) zum Einrichten von klassischen oder SEPA-Zahlungen für einen Vertrag für die einfache und interaktive Auflösung von R-Transaktionen. Dies war Teil der schlanken Prozess-Management-Initiative. Die JEE / Grails App verwendet HBCI4Java, Web Mining/Scraping und Groovy / Grails mit jQuery, YUI, Hibernate, Captcha, Spring Security. 16. Co-Konzeption des italienischen Anti-Money-Laundering (AML) und Betrugserkennungs-Projektes mit NameSafe, KYC (Know Your Customer), WinTar und Listen von PEPs (politisch exponierten Personen), Blacklists und maßgeschneiderten Regel¬sätzen. Analyse in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen. DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden. 17. Beurteilung / Co-Konzeption / Erweiterung für eine Dynamic Hybrid Versicherungs-Vertrags-Line für alle drei Stufen (Basisrente / Rürup, Riester-Rente, private Rentenversicherung). Dies bedeutet, dass Garantien für Mindestleistungen bzw. des Grades des Erhalts der Kunden-Einlage gegeben werden, aber zusätzlich eine wesentliche Beteiligung an steigenden Aktienkursen vereinbart wird: Sicherheit für investiertes Geld kombiniert mit der Teilnahme an steigenden Börsentrends (bessere Leistung). 18. Als Testmanager/Projektmanager (PRINCE2) Erstellung eines konzernweiten Last- und Performance-Testing-Konzeptes: Lieferanten-Management, Evaluation der Produkte/Tools: Linux Test Project (LTP) für OS Load Testing; JMeter, The Grinder, HP Quick Test Professional/HP Quality Center für (Web-)Anwendungs-Last-Testen; DBMonster für Datenbank-Last-Tests; Spezial-Test-Programmen/Plugins für LDAP- E-Mail-, SSL-/JDBC-/ODBC-/FTP-/Security-Testing. Evaluation der weiteren Tools MS Visual Studio Test Professional/Visual Studio Test Manager, Perl Testing Modules (Test-Harness, Test-DBIx, Test-C2FIT, Test::FIT), Fitnesse, Test Code-Generierungs-Tools. Erstellung und Halten von Präsentationen zu den Best Practices, Prinzipien, Herausforderungen und Lösungen im Last-/ Performance-Testing. DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.

Produkte

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Scala ScalaCheck C# Cold Fusion Eclipse Konfigurations-Management Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design Web-Services SOAP UML2 SQL OOA UML Apache Tomcat .NET 4.0 XSLT LDAP SSL TLS BIPRO Webservices XSD XML XML Schema JDBC WSDL Lipper Hindsight Sun Accounts TLQ Stars PAPS ACE Advoline Schufa Bürgel Reuters BIPRO PAWS RAN GALA Nera Boxman Boxlink TaxConnect Progress ZUL LF4 LF3 FJA Cor 400 Life Text M Multiversa Multicrash SAP CD Oracle AP GL Cash Management Profit & Loss Confluence Unit Tests Integration Tests Server Security Suite Git Subversion Jira McAfee Embedded Control Intel E-Mail Protection McAfee Web Gateway 7.x Citrix Kofax Alchemy VNC Cold Fusion Intel Sox Express DMS Quality Center WinRunner QTP TOAD SquirrelSQL DB Visualizer HP Quality Tools Eclipse MS Active Directory Bizagi SAP PowerDesigner Puppet MS Project MS Visual Studio Visio Sparx Enterprise Architect Tomcat MS Visual Studio 2010 Perl Python ASP PRINCE2 JEE ALM Java Versionsmanagement TFS SSIS TSQL T-SQL DB2 C# MS Access SQL Server 2008 R2 Unix Win32 SharePoint 2010 PRINCE2

Kenntnisse

Logging Tracing Error Handling Debugging Testing

Kunde

Llyods Banking Group

Einsatzort

Heidelberg, Frankfurt/Main (DE), Bristol (EN), Luxemburg (L) uvm

1 Jahr 4 Monate

2010-07 - 2011-10

De-Mail-Projekt

oftware-/Netzwerk-/Infrastruktur-Architek, später Test Manager DLIES ECIES Elliptical Curve ...

Rolle

oftware-/Netzwerk-/Infrastruktur-Architek, später Test Manager

Projektinhalte

Projektziel: Konzeption, Abschätzung der Machbarkeiten und Zusammenhänge, Realisierung, Test; Delivery und Zertifizierung eines E-Mail- und Dokumenten-Speicherungs-Systems nach De-Mail-Gesetzesvorlage & Security-Vorgaben von der Behörde BSI. Hierdurch erlangen De-Mails gleiche Beweiskraft wie eingeschriebene Briefe und können für die verbindliche Behördenkommunikation verwendet werden. Aufgaben 1. Hauptaufgaben: Software-/System-Architekt: Netzwerkstruktur (Zonenkonzept: Access-, Service- und Backend-Bereiche, Admin-LAN), Security, Storage, Datenbanken, VPN, Konnektoren, Gateways, Application Server, Services, Applikationen, Frontends, Krypto-Konzept (Schlüssel-Lebenszyklus, Algorithmen, Zertifikatsprofile, OTP, Secure Tokens, Smartcards); Host-/Network-based Intrusion Detection Systems (HIDS/NIDS) mit Active Bypass Units (ABPU), Nutzer- und Rechte-Konzepte, Prozessentwurf/Prozessdesign, Prozessimplementierungen bzgl. Krypto-Material, Disaster Recovery, Compliance (mit gesetzlichen und Security-Auflagen), Anbindung Elektronischer Personalausweis (ePA/nPA), IAM/IdM mit NetIQ Access & Identity Manager, Zuarbeit Projektmanagement: Schnüren von Arbeitspaketen, Zeit- und Kostenschätzungen; Technologie der Web-Applikationen: GWT, ExtGWT/GXT/Vaadin RIA frameworks, HTML5 (canvas, SVG, etc.), BST media player (video support), GWT graphics, Gwtrpc-spring, Spring (lightweight IOC container), GWTEventService, Hibernate (ORM), Envers (Auditing), Lucene (fulltext search), Apache CXF (webservices), EhCache, Dozer (object mapping), JasperReport (reporting), Jasypt (encryption), JBoss Drools (workflow and rules engine), Atomikos Transaction Essentials (JTA manager), Apache Tomcat. 2. Erstellung eines Big-Data / Clustering-Architektur-Konzeptes mit günstiger Standard-Hardware nach Vorbild von Google und LinkedIn (Search, Network, Analytics SNA): Hadoop, Google File System (GFS), Google Distributed Systems, verteilte Datenbanken Voldemort und Sensei; wesentliche Algorithmen & Datenstrukturen: HBase, Cassandra, Redis, HCatalog, Hive, Shark /Stinger, Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Zookeeper, Nagios, Kafka, Hue, RabbitMQ, Protobuf, Ganglia, Kafka, Ambari/Ganglia, Mesos, Map-Reduce, Compression, Encryption. Proof-of-Concept-Umsetzung mit Anderen auf einigen PCs. Das Konzept wurde letztlich nur deshalb abgelehnt, weil in diesem Bereich nicht genügend Kompetenz im Konzern bzw. Einarbeitungszeit/-Budget vorhanden war. Ab 2014 wurde es dann umgesetzt. 3. SW- und GUI-Architektur bzw. Review der Architektur-Dokumente, darunter ein Schwerpunkt im Java-Backend-Bereich sowie im Vaadin-/JavaScript-Frontend-Bereich mit den Libraries Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS mit Jake-Builds. 4. Projekt-Management (Scrum): Abstimmung der Lösungsideen und Vorgehensweisen als Architekt im Core-Team mit ca. 20 anderen Teams innerhalb der Telekom sowie von Software- und Hardware-Lieferanten, insgesamt ca. 300 Mitarbeiter umfassend. Organisation von Meetings, Telkos, Präsentation und Abstimmung von Lösungen, Führen von Diskussionen bei diversen Zielkonflikten zu Lösungen: am schnellsten umzusetzende, am schnellsten laufende, sicherste, am leichtesten zu zertifizierende, preisgünstigste, kompatibelste, risikoarmste, aus renommiertesten Komponenten bestehende, mit bestem Support versehene. Umgehen mit hohem Arbeits- und Zeitdruck unter Erzeugung möglichst weniger Desillusionierungen, Verlusten an Produktivität und mit minimaler Notwendigkeit bereits erarbeitete Teilergebnisse verwerfen zu müssen. 5. Transition Management Entwicklung -> Betrieb: Konzipieren/Mitumsetzen der Entwicklungs-, Test- und Produktivumgebungen nach TSI-Standards (z.B. Hitnet, Blade, eTOM (Enhanced Telecom Operations Map), TOGAF, GDM (Group Domain Model)?) sowie mit neuen Komponenten als zukünftige Betriebsstandards; Prozessoptimierung, Begleitung Testmanagement, Changemanagement, Releasemanagement. 6. Erstellung von Security-Zertifizierungs-Unterlagen nach BSI-Grundschutz/ Common Criteria, z.B. Attack-Tree-Erstellung und darauf aufbauende Analysen, Schutzbedarfsanalysen, End-to-End-Systemübersicht, Sicherheitskonzept und Analyse. Aufstellung von Assets, Vulnerabilities, Attacks, Threats, Mitigations, Policies nach Common Criteria und Ermittlung verbleibender Schwachpunkte sowie deren Ranking nach Wahrscheinlichkeiten/Erwartungswerten. Security-Maßnahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenmaßnahmen mit dem besten Kosten-Nutzen-Verhältnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. Für jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenmaßnahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert. Nach der endgültigen Entscheidung über die Maßnahmen, wurde das Restrisiko berechnet. Gegenmaßnahmen gegen neue Bedrohungen wurden in ähnlicher Weise neu bewertet und verwaltet. 7. Erstellen eines Sicherheitskonzeptes für Web-Frontends allgemein nach dem Baukastenprinzip basierend auf den wesentlichen Frontend-Komponenten: WebApp allgemein, JavaApp, GWT-App, JavaScript-/AJAX-App. Das konkrete Sicherheitskonzept umfasste insgesamt das Vaadin-GWT-basierende Frontend (mit den JS-Libraries: Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS mit Jake-Builds) sowie die Backend-Anbindung, das alle sinnvollen detaillierten Vorgaben/Bewertungen auf Management- und Technik-Ebene in separaten Excel-Eingabefeldern berücksichtigt. Nach abschließender Entscheidung über die Maßnahmen kann das verbleibende Restrisiko berechnet werden und die guten Ergebnisse für das Marketing der Lösung verwendet werden. Nach Umsetzung/Implementierung der Gegenmaßnahmen kann im Zuge von Qualitäts- und Penetration-Tests ein Re-Assessment durchgeführt werden und Verbesserungsmaßnahmen und Gegenmaßnahmen gegen neue Bedrohungen wieder gleich exakt bewertet und gemanagt werden. 8. Konzeption/Überwachung der Implementierungen der identifizierten Gegenmaßnahmen im Rahmen eines Sicherheitskonzeptes nach Common Criteria (CC). Anspruch, des De-Mail-Systems ist, das sicherste IT-System in Deutschland zu sein, denn bei einer Kompromittierung würde damit auch das vom Grundgesetz geschützte Postgeheimnis verletzt. Schließlich werden auch besonders brisante Inhalte wie Steuer- und Strafbescheide, Krankenberichte, etc. über De-Mail zugestellt werden. Die Zertifizierung erfolgt nach den höchsten BSI-Standards in breitest-möglicher Auslegung, wie dies wohl noch nie für ein solch großes System geschah. Eine besondere Tätigkeit war die Analyse erfolgreicher Hacks, wobei insbesondere die Analyse/die Hintergrundrecherche des Diginotar-Hacks (Niederlande) zeigte, dass der Abgleich unter den HSMs per SSL unzureichend bzgl. Session-Refresh-Angriffen gesichert war. 9. Erstellung von (Schulungs-)Unterlagen für den Betrieb; Kompetenztransfer. 10. Konzeption und Implementierung einer Validierungslibrary für Client- und Server-basierte Validierung sowie anschließendes Testmanagement; clientseitig mit Unterstützung für GWT (GXT+Vaadin) sowie in einem Modus nur mit JavaScript (Programmierung einer Validierungskomponente in JavaScript) bzw. mit GWT-JavaScript-Anbindung via JSNI aus Performance-Gründen, weil GWT die JavaScript-RegularExpressions nicht direkt unterstützt. Serverseitig in Java implementiert und GWT-konform gehalten. Ergänzung um Check-Funktionen in Scala sowie ScalaCheck. Einzelne Admin-Komponenten in Node.js, npm, Backbone.js, Underscore.js (utilities), d3.js (Data-Driven Documents), angularJS mit Jake-Builds. 11. Security-Testmanagement: Erstellen eines Web-Application-Testkonzeptes, das die ca. 50 wichtigsten Angriffstechniken insbesondere mit allen wichtigen Arten von XSS/XSRF, Code Injection und sonstigen Angriffsvarianten in möglichst vielen Darstellungsvarianten explizit aufführt. Nutzung der Security Scanner & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, Advanced Persistent Threats (APT) und Gegenmaßnahmen über Threat Intelligence, Cisco/Sourcefire (Adaptive) IPS und Enterprise Threat Management (ETM), Windows Credential Editor (WCE), gsecdump, Mimikatz. 12. Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen. 13. Evaluation von Techniken/Toolkits/Standards für die Konsolidierung von Dokumenten sowie für Dokumenten-Management-Systeme (DMS) sowie Portale. Evaluiert als DMS: Liferay, Alfresco, OpenCMS, Drupal, WordPress, Joomla, Typo3, Polarion 2011, Logicaldoc, phpwcms, Booki.cc; als zentrales Dateiformat: XML, RTF, HTML, DocBook, DITA, ODF, OOXML, Wiki Formate (MediaWiki, DocBookWiki); als Ajax-RichText-Editoren: Etherpad, Telerik RadEditor, TinyMCE, CKEditor, FreeTextBox, (j)HTMLArea, Xinha, BitFluxEditor, Dijit Editor, jQuery Rich Text Editor (RTE), Ekit.; als Kollaborative Plattformen: TWiki, LaTeXLab, TeamLab, Feng Office, Nuxeo, EXo Platform, OpenKM, Telligent evolution/enterprise, Zoho Writer/Zoho Docs, Ramius Engagement, ShowDocument, DocScape, MindTouch Core, TmsEKP; als Konvertier-Tools: Herold, HTML2DocBook.xsl, ROBODoc, Pod-2-DocBook, DocBook Tools, Apache FO, XES, LaTeX2RTF, L2HTML, RTFConverter, UnRTF, WVware, Drupal Import/Export; als Terminologie/Translation Memory Systeme: openTMS, opentm2, Anaphraseus, OmegaT+, SUN Open Language Tools, Transolution XLIFF Editor. 14. Architektur eines DMS-Addons für die konsistente Konsolidierung verschiedener Dokumente und Versionen unter Nutzung von Liferay als Portal-System sowie von Etherpad / TinyMCE als Rich-Text-Editoren. Das Add-on erlaubt in einem linken Bereich das Laden/Erstellen/Bearbeiten/Speichern einer inhaltlichen Struktur für das Zieldokument sowie die Darstellung der Quelldokumente mit ihrer Struktur. Durch Anklicken wird jeweils das entsprechende Kapitel im Rich-Text-Editor rechts angezeigt. Satz-, Absatz- oder Abschnitts-weise können Inhalte per Drag & Drop in die Ziel-Dokument-Struktur abgebildet werden. Bereits vorhandene Passagen werden farblich markiert zur Erkennung von Doppelungen oder Unterschieden zwischen Versionen. Auch das direkte Editieren der Passagen im Zieldokument ist möglich. So konnten hunderte Entwicklungs-Dokumente aus verschiedenen Teams bzw. von älteren Ständen schnell und kostengünstig integriert werden. 15. Erstellen des Krypto-Konzeptes nach BSI-Standard: Konzeption aller Maßnahmen bzgl. Verschlüsselung, Signatur, Hashing, Integritätsschutz und Authentifizierung. Nutzung von Hardware Security Modules (HSMs, Safenet Luna SA, Thales TEMS), TCOS Smart Cards (Telesec), DKIM, weiterentwickelt zu DMARC, Oracle Identity Manager, Telesec One-Time-Password (OTP), Web Application Firewalls (WAF, Barracuda), Intrusion Detection und Prevention Systemen (IDS/IPS), Firewalls, Virtual Private Networks (VPN, Cisco ASA), Verbindungsverschlüsselung (SSL/OpenSSL/Java-SSL/IPSec), Schlüsselaustausch (Diffie-Hellman), Schlüssel- und Zertifikatserzeugung, Verwaltung, Entsorgung (gesamter Krypto-Material-Lebenszyklus), Definition erlaubter Krypto-Verfahren und deren Parametrisierung, Maßnahmen zum Integritätsschutz wie z.B. der Erkennung von Manipulationen oder Malware (tripwire). 16. Erstellung eines Business Continuity Management (BCM) und Disaster Recovery Management (DRM) Konzeptes sowie Test-Manager für das Testen der Umsetzung: Single Point of Failure (SPoF) Analyse und Konzeption von Redundanz-Mechanismen, um Anforderungen nach Null-Daten-Verlust und Verfügbarkeiten von mindestens 99,99% zu erfüllen. Nutzung von Abhängigkeitsdiagrammen & weiteren Business Continuity Institute (BCI) Good Practices Guidelines (GPG), 2 Standorte, mehrere Cluster, Oracle DataGuard zur Umsetzung synchroner und verzögerter Daten-Replikation, Konzeption von Failover-Mechanismen einschließlich 4-fach redundantem Datenspeicher (DB/Filesystem) mit Redo-Logs und Snapshot-Support, HSMs (Hardware Security Module), VPNs, Zonenkonzept (Access-/Service-/Backend-/Management-Zonen), WAF (Web Application Firewall-Wände), IPS (Intrusion Prevention-Systeme), selektive Fehlererkennungs- und Recovery-(Rückaufsetzungs-)Mechanismen. 17. Review der (Security-)Test-Konzepte sowie Management der Tests und der Umsetzung (Projekt-Management) in meinen Kompetenzbereichen.

Produkte

Scala ScalaCheck MS PowerPoint MS Excel OTP CRL LPAR LUN ESP Debugging Testing MS Office MS Project MS Word MS Outlook Konfigurations-Management Logging Tracing Error Handling Versions-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML2 SQL OOA UML Atomikos Transaction Essentials Apache Tomcat JasperReport Jasypt JBoss Drools GWTEventService Envers Lucene EhCache Dozer Jake-Builds BST media player Gwtrpc-spring Spring angularJS Underscore.js d3.js Node.js npm Backbone.js Drools jBPM Selenium EasyMock CSP OpenSSL HTML5 GWT graphics RIA frameworks Spring Dozer Batik Atomikos GXT Vaadin SoapUI jMeter Selenium GWT ExtGWT JAX-WS JAXB Apache CXF Hibernate BigIP Traffic Manager Load Balancer RAID-Systeme Juniper Firewalls Fortinet Checkpoint RSA RKM Certificate Authority BladeSwitch Barracuda WAF 860 IBM Proventia Network Intrusion Luna SA Thales TEMS Cisco ASA Fujitsu RX300 Primergy Brocade Encryption SAN Switches HP Blade 460 G6 HP Power 750 Systems Jira Confluence Unit Tests Integration Tests Storage Manager Oracle Identity Manager Git Subversion Atlassian Jira Bamboo Fisheye & Crucible IBM Tivoli Oracle Text Diagnostic Pack Tuning Pack) Scala ScalaCheck Advanced Security Database Vault Advanced Compression Puppet Hitachi Storage Navigator Hitachi Device Manager Hitac MS Project Eclipse Elliptic Curve Cryptography Visio Sparx Enterprise Architect SAP PowerDesigner Identity Manager Server Security Suite NetIQ Access McAfee Embedded Control Intel E-Mail Protection McAfee Web Gateway 7.x TCOS 3.0 Triple Key Zertifikate Scrum Intel Advanced Mezzanine Card NAT-Traversal DMZ Soft-PSE HDA HSM LB LIMS Lifetime Key Management OTP IBM Tivoli mit Storage Manager Mail Transfer Agents SAN-Systeme NSD NIDS managed Security Information and Event Management IDES WAF Viren- & Malware Scanning VMware & Citrix Virtualisierung Oracle Coherence Luna Box Utimaco LIMS mit Gateway Brocade Encryption Switch Thales TEMS Sun XFS Oracle RAC strongSwan Cisco ASA JEE mit Glassfish Apache CXF WebServices IBM GPFS IBM AIX Win32 Java SuSE Enterprise Server 11 Red Hat Enterprise Linux

Kenntnisse

DLIES ECIES Elliptical Curve DSA ECDSA RSA SHA-2 Hashing Diffie-Hellman DMARC G10-Schnittstelle DKIM CRL DER DNSCurve ZFS NFSv3 NFSv4 X.509v3 mit Extended Usages SSL TLS S/MIME DNSSEC POP3 SMTP LMTP IMAP LDAP IPSec OCSP XSLT WS-* Standards XSD XML Schema XML JDBC WSDL Oracle JDK 6/7 Oracle 11gR2 mit RAC Partitioning Squid Exim James Liquibase Oracle Glassfish TrueCopy Oracle Database Oracle OpenDS HP ArcSight Tools Brocade Data Center Fabric Manager

Kunde

Dt. Telekom/T-Systems

Einsatzort

Homeoffice, Großraum Frankfurt/Main, DE

8 Monate

2010-08 - 2011-03

Analyse und Verbesserung der Architektur sowie der IT-Sicherheit

GWT-/AJAX-Security-Spezialist & Architekt, später Testmanager

Rolle

GWT-/AJAX-Security-Spezialist & Architekt, später Testmanager

Projektinhalte

Projektziel: Analyse und Verbesserung der Architektur sowie der IT-Sicherheit (Security) eines Praxis- & Tumor-Dokumentationssystems basierend auf JEE, Google Web Toolkit (GWT), GXT, Hibernate, Spring, Dozer, Batik, Atomikos, Drools sowie Testautomatisierung mit JMeter, Selenium und EasyMock. Aufgaben 1. Ausarbeitung eines Sicherheitskonzeptes für Architektur, Entwicklung und die Test-Automatisierung, basierend auf Common Criteria, BSI Grundschutz sowie diversen ISO-Standards. Umsetzung der wichtigsten Security-Maßnahmen auf Ebene von Architektur und Entwicklung, z.B. umfangreiche Daten(fluss)-Validierungen, Ergreifen der Gegenmaßnahmen mit dem besten Kosten-Nutzen-Verhältnis gegen die 250 wichtigsten Angriffstypen nach den 10 wichtigsten Security-Portalen wie OWASP.org, WebAppSec.org, cwe.mitre.org, etc. Für jeden der 250 wichtigsten Angriffe Sammeln/Konzipieren der Gegenmaßnahmen mit allen Details. Bewertung jedes Szenarios nach den oben genannten Kategorien. Dann wurden die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert. Nach der endgültigen Entscheidung über die Maßnahmen, wurde das Restrisiko berechnet und die Ergebnisse wurden für die Vermarktung der Lösung verwendet. Nach der Implementierung von Gegenmaßnahmen wurde auf Basis der erzielten Qualität trotz Budget-Kürzungen z.B. bzgl. Penetration Tests eine erneute Bewertung vorgenommen und mögliche Verbesserungsmaßnahmen priorisiert. Gegenmaßnahmen gegen neue Bedrohungen wurden in ähnlicher Weise neu bewertet und verwaltet. 2. Pen-Test- und Acceptance-Test-Konzeption sowie anschließendes Testmanagement basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity. Dabei erfolgte die Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen. 3. Design, Implementierung und Testmanagement einer Validierungs-Bibliothek für die Client-und Server-basierte Validierung der Client-Seite mit Support für GWT (GXT) in einem Modus mit JavaScript (Programmierung einer Validierungs-Komponente in JavaScript) oder mit GWT-JavaScript-Verbindung via JSNI für aus Performance-Gründen, weil JavaScript bzgl. Regular Expressions nicht direkt von GWT unterstützt wird. Auf der Serverseite dies ist in Java implementiert und wird GWT-konform gehalten. Andere JavaScript libraries: Backbone.js, d3.js, Jake. 4. Erstellung eines Web-Anwendungs-Test-Konzepts, das explizit die 250 wichtigsten Angriffs-Techniken auflistet, insbesondere mit allen gängigen Arten von XSS / XSRF, Code-Injection und andere Arten von Angriffen in so vielen Beispielen/Varianten wie möglich. Dieses Konzept wird zum Testen der Validierungs-Library und der sonstigen Sicherheitsmaßnahmen eingesetzt. 5. Design / Überwachung der Umsetzung der identifizierten Gegenmaßnahmen und Eindämmungsmaßnahmen im Rahmen der Umsetzung des Sicherheitskonzeptes gemäß Common Criteria (CC). 6. Erstellung einer Java Security Library unter Nutzung/Integration der Best-Practice-Sicherheitsbibliotheken, z. B. von OWASP sowie ScalaCheck (über Java und Scala). 7. Datenkonvertierungs-Konzept für klinische/onkologische Daten / Coaching bzgl. Talend Open Studio (ETL). 8. Steuerung/EMSR der Dosierungen für Medikamenten-Mischungen. 9. Verwendung von UML Lab, ein Eclipse-basiertes UML Round-Trip-Tool von Yatta in einem freundlichen User Test basierend auf Open ArchitectureWare (OAW): Verwendung / Anpassung von Analyse / Generation-Vorlagen in OAW: Xtext, Xpand, JET.

Produkte

JBoss Drools Atomikos Transaction Essentials Apache Tomcat Envers Lucene EhCache Dozer JasperReport Jasypt Spring GWTEventService d3.js Jake BST media player Backbone.js Drools jBPM Selenium EasyMock OpenSSL HTML5 GWT graphics RIA frameworks Spring Dozer Batik Atomikos GXT Vaadin SoapUI jMeter Selenium GWT ExtGWT JAX-WS JAXB Apache CXF Hibernate SSL TLS JDBC WSDL XML XSLT XSD XML Schema WS-* Standards Eclipse Tomcat Apache CXF WebServices JEE Java Win32

Kunde

Alliance Boots Group

Einsatzort

Bonn, DE und Zug, CH

3 Monate

2010-06 - 2010-08

Verifikation von Reisepapieren

Coach, teilweise Testmanager in der anfänglichen Analyse- und Pr Criteria API RichFaces Ajax4JSF ...

Rolle

Coach, teilweise Testmanager in der anfänglichen Analyse- und Pr

Projektinhalte

Projektziel: Wiederaufnahme zweier eingestellter Software-Entwicklungen für die Echtheitserkennung von Reisedokumenten, eine in C++ mit Qt und gSOAP, eine in Java/JEE. Analyse/Verstehen/Debuggen des bestehenden Codes, Integration der Systeme, Erstellen von GUI-Prototypen, Coaching des Entwicklerteams bzgl. der Technologien JEE, JBoss EAP/AS, Seam, RichFaces, Drools, jBPM, Hibernate, Ajax, SmartClient, Groovy & Grails, Lucene. Aufgaben Fachlich: Coaching, Einarbeitung und Anleitung des neuen Teams zur Weiterentwicklung der Gesamtanwendung in JEE, Seam, Hibernate, Ajax, Grails. Neben allgemeinem Coaching, Konzeption/Implementierung von WebServices/Ajax-Schnittstellen zur Kommunikation zwischen den Anwendungsteilen, Erstellen von Tool-Marktübersichten und Diskussion der Entwicklungsrichtung mit dem Management, Erstellen von GUI-Prototypen und Besprechen der Ergebnisse/weiterer Strategie mit dem Management. Technisch: 1. Einrichten/Konfigurieren der Entwicklungsumgebungen für die C++ und die JEE-Anwendungsquelltexte. 2. Analyse der bestehenden Anwendungsdokumente und Quelltexte in C++ (SQL Server 2008 R2, Transact-SQL(T-SQL/TSQL), SQL Server Integration Services (SSIS), TFS (Team Foundation Server) für Versionsmanagement/ALM)sowie in Java/JEE. 3. Konzeption der zukünftigen Architektur des JEE-Systems zur Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern. Umsetzung auf Grails-Basis bei möglichst hoher Wiederverwendung bisherigen Codes und voller Kompatibilität zum JMRTD (Java Machine Readable Travel Documents) Standard. DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren für verschiedene Gültigkeitsanzeigefunktionen. 4. Konfiguration, Debugging, Logging/Tracing: Coaching und eigenes Debuggen/Fixen der wichtigsten Fehler, vor allem in der JEE-Applikation. 5. Automatisches Einfügen eines systematischen Tracings/Loggings in die JEE-Applikation zum Verständnis der Daten- und Kontrollflüsse sowie zum Trouble-Shooting und zur Einarbeitung/Anpassung des Systems. 6. Erstellen/Anpassen von WSDLs/WebServices zur Integration der Systeme und zum Datenaustausch mit den GUIs mit Apache CXF unter Nutzung von JAXB bzw. XMLBeans (alternativ auch mit Apache AXIS2). 7. Erstellung von Marktübersichten zu GUI Rapid Prototyping Tools, Java/JEE GUI Frameworks sowie Ajax Frameworks. 8. Coaching und eigenes Erstellen von GUI-/Funktions-Prototypen in verschiedenen Technologien: Ajax: jQuery, Underscore.js, SmartClient, SmartGWT, Tersus, ExtJS, Adobe Flash/Flex, Grails sowie Seam/RichFaces. 9. Dokumentation, Einarbeitung/Schulung des Teams.

Produkte

MS Office MS Project MS Word MS Outlook MS Excel Logging Tracing Error Handling Debugging Testing SOA EAI IT Security Versions-/ Konfigurations-Management SOAP XML DTD XSD XSLT XPath XQuery JMRTD UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices Eclipse Drools Subversion SVN JBoss JSF RichFaces Ajax4JSF Adobe Flash Flex Smart Client SmartGWT jQuery MS Powerpoint Underscore.js Tersus ExtJS Groovy Grails SpringSource Tool Suite ZK-Framework ZKOSS SQL Server 2008 R2 Transact-SQL SQL Server Integration Services TFS ALM

Kenntnisse

Criteria API RichFaces Ajax4JSF CXF AXIS2 log4j dom4j Hibernate JMRTD RegExp JAX-WS JAXB Apache XSLT XML JDBC WSDL Scrum Win32 Red Hat Enterprise Linux CentOS Java C++ gSOAP JBoss Drools jBPM Seam Apache CXF WebServices

Kunde

Government

Einsatzort

Hannover und teilweise Berlin, DE

5 Monate

2010-01 - 2010-05

Konzeption neuer WebServices im Rahmen eines ESB/SOA-Konzeptes für das Internationale Bausparkassenpaket

Architekt/Projektleiter, Team-Mitarbeiter Java iSeries/POWER6-Systeme AS/400 ...

Rolle

Architekt/Projektleiter, Team-Mitarbeiter

Projektinhalte

Projektziel: (insbesondere für Partner-/Tochterunternehmen, davon viele in Osteuropa), beispielhafte Implementierung, Anbindung von Cobol-basierten Backends, Verallgemeinerung bis hin zur Definition von Templates und darauf aufbauend Code-Generierung von Java/Cobol-Quelltexten. Einbau in ein JBoss-basiertes System vorgeschaltet vor SAP DMS (Dokumenten-Management-System) und Data Mining/Business Intelligence (SAP BI). Aufgaben Fachlich: Bausparkassen den Austausch von Informationen (via WebServices, JMS) zu Kunden und Verträgen ermöglichen zwischen den Abteilungen über den ESB sowie auch Informationen mit der Konzernmutter Schwäbisch-Hall. Diese Anbindung zwischen Java-Clients und Java- bzw. Cobol-Backends ist ein wichtiger Schritt zur Nutzung eines ESB (Enterprise Service Bus) im Rahmen eines dabei weiterentwickeltes SOA-Konzeptes. Einsatz des Frameworks in einem JBoss-basierten JEE-System zur Disposition und Lagerverwaltung für den Einkauf. Insbesondere Integration der WebService-Funktionalität in Dokumentenmanagement-System (SAP DMS) und Data Mining/Business Intelligence System (SAP BI); Entwicklung der relevanten JEE-Applikations-Funktionalität von GUI bis hinunter zur Datenbank. Technisch: Erstellen generischer Client- und Server-Implementierungen unter direkter Nutzung von XML, http, etc. als Fallback-Lösungen. Definition von WSDL mit ws-* Standards, z.B. ws-addressing, ws-enumeration, ws-security. Code-Generierung mit JAX-WS unter Nutzung von JAXB und XJC. Cross-Validierung und Testing sowie Ausloten von Features unter Nutzung von Tools/Implementierungen auf Basis von SoapUI, tcpmon, SoapMon (AXIS2) sowie Apache CXF/XmlBeans. Direkte Anbindung von AS/400 und iSeries-Systemen mit Implementierungen in Cobol unter Nutzung von IBM WebSphere Development Studio Client (WDSC). Anbindung der Authentifizierung/Autorisierung an RACF mit DB2 auf Host-Seite. Konzeption/Entwicklung von Tracing/Logging/Monitoring/Fehler-Diagnose-Tools für Entwicklung und Betrieb. Konzeption/Entwicklung einer Persistierungsschicht mit HyperJAXB sowie TraceTool gegen XML-Dateien, Datenbanken, Textdump und binäre Datenstrukturen. Entwicklung einer Java-Cobol-Integrationsschicht für die IBM-Server auf Basis von jt400/jtopen mit Programcallbeans (Java->Cobol) unter Nutzung von PCML und Cobol Copystrukturen. Muster-Implementierung als Vorlage für Code-Generierung. Hilfe bei der Integration in Web-Client-Komponenten auf Basis von Spring und JSF (RichFaces und PrimeFaces). Hilfe bei der Migration der neuen WebService-basierten Aufrufe in das bestehende internationale Bausparkassen-Paket. Konzeption weiterer ESB-basierter Kommunikationsstrukturen in Form von WebServices/JMS (Definition der Schnittstellen und Datenformate) für die gesamte in Backend/Frontend benötigte Funktionalität. Definition von Datenmappings/ETL mit WebSphere Transformation Extender bzw. Talend Open Studio. Erstellen von Vorlagen für die Codegenerierung mit open Archictectureware (OAW). Unterstützung von UML, annotierten Java-Klassen, WSDL/XSD sowie von XMI als Masterformate. Hilfestellung bei der Integration in das Code-Generierungs-Systems auf Basis von OAW: Entwicklung von Templates und Anpassungen für die Generierung aller für Clients und Server nötigen Artefakte (Cobol, Java, PCML). Einbindung von WebService-Client und Server-Funktionalität in das JBoss-System für SAP DMS (Document Management System) und SAP Data Mining/Business Intelligence (SAP BI) unter Nutzung einer SAP NetWeaver-Schnittstelle (SAP NetWeaver Development Infrastructure, NWDS). Konzeption und Entwicklung des gesamten Applikations-Stacks unter Nutzung von JBoss RichFaces, Hibernate mit Criteria API, EJB, named Queries, HQL, EJB-Stack für Services (EJBs), DTOs, DAOs, Entities/POJOs, Konzeption der HQL-Queries sowie der JavaScript-basierten AJAX-Funktionalität mit Ajax4jsf. Dokumentation, Einarbeitung/Schulung der Kollegen.

Produkte

Apache CXF AXIS2 log4j dom4j RichFaces Ajax4JSF Libraries/Frameworks:RegExp JAX-WS JAXB Eclipse IBM WebSphere Rational Tools javadoc Subversion Talend Open Studio Lotus Notes 7 JBoss JSF RichFaces Ajax4JSF XML XSLT WS REST

Kenntnisse

Java iSeries/POWER6-Systeme AS/400 Win32 Unix AIX Linux z/OS CICS RACF DB2 RMF SMF IMS DB2 JCL WebSphere Oracle SAP NetWeaver Development Infrastructure SAP BI SAP DMS

Kunde

Schwäbisch-Hall/Kreditwerk, Marktführer Deutschland/Osteuropa

Einsatzort

Schwäbisch Hall

Aus- und Weiterbildung

6 Jahre 5 Monate

1992-10 - 1999-02

Informatik, Nebenfach Nachrichtentechnik, Elektrotechnik (ähnlich Dipl.-Ing.)

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.), Uni/TU Kaiserslautern

Abschluss

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.)

Institution, Ort

Uni/TU Kaiserslautern

Schwerpunkt

Software Engineering
Datenbanken
Betriebswirtschaft
Computergrafik/CAD, Nachrichtentechnik (ISDN, GSM, UMTS)
Robotik
Datenkompression
Künstliche Intelligenz
Computerlinguistik
Thema: Gerne auf Anfrage

Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.

1978-1982

Institution: Grundschule

1982-1991

Institution: Gymnasium

Ausbildung: mehrmonatige Schüleraustausche mit Frankreich & Kanada

Abschluss: Abitur

1994-1996

15-monatiges Existenzgründertraining an der Uni KaiserslauternIn dessen Rahmen Nebenfach Wirtschaftswissenschaften (zusätzlich & freiwillig; alle Prüfungen durchgeführt und bestanden)
Ergänzungsstudium Technisches Englisch (2 Jahre)
Ergänzungsstudium Technisches Französisch (2 Jahre)

1992 ? 1998:

Ausbildung: Studium

Schwerpunkte:

Abgeschlossenes Studium mit KI- und NLP-Schwerpunkt am DFKI (Dt. Forschungszentrum für Künstliche Intelligenz, einzige Dt. KI-Spitzenorganisation und größtes KI-Forschungszentrum der Welt, TU Kaiserslautern + Saarbrücken), Semantische Suche, NLP, Büroautomatisierung (OCR + ICR), Information Retrieval, KDD (Knowledge Discovery in Databases), BI.
Key Skills:
- NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Business Intelligence (BI) mit relationalen und objektorientierten DBs, Büroautomatisierung (OCR + ICR), KDD (Knowledge Discovery in Databases).
Arbeiten:
Diplomarbeit/DFKI + Startup:
- Gerne auf Anfrage
DFKI (Dt. Forschungszentrum für KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmentierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauß-Verteilung. Dies wurde von der DFKI-Ausgründung Insiders-Technologies in deren kommerzielle Produkte eingebaut.
DS-Ansatz:
- Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score für die Dokumenten-Segmentierung.
DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung für Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
DS-Ansatz:
- Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Themen meines KI/NLP-Studiums:
- Konnektionismus/Neuronale Netzwerke (CNN, Perzeptron, Kohonen-Karten,...), Einschränkungen/Constraints, Expertensysteme, Computerlinguistik/NLP (HPSG, LFG, MRS, Syntax, Semantik, Pragmatik, generatives Lexikon, lexikalische Regeln, Chart Parsing), Ontologien, Rahmenlogik/Frame Logic, DAML+OIL, Information Retrieval, semantische Suche, phonetische Suche, Spracherkennung (gehalten durch IBM ViaVoice Forscher), Planung, intelligentes Konfigurationsmanagement (mit Constraints), Robotik, Computer Vision, intelligentes Workflow-Management (mit Constraints), deduktive Logik, induktive Logik, deduktive/induktive/semantische Datenbanken, fallbasierte Logik, visuelle Krebserkennung mit CNN/RNNN/Kohonen-Karten, Statistik/stochastische/Ähnlichkeitsmaße, Aktivierungsfunktionen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen).

Position

Big Data, Computer Vision, Data Science, IT-Sicherheit

Kompetenzen

Top-Skills

Künstliche Intelligenz Deep Learning IT-Sicherheitsarchitektur GDPR DSGVO Sicherheitskonzept SOC SIEM Big Data IT Architektur Enterprise Applications Machine Learning Robotic-Process-Automation Produktdesign Projektmanagement Projektleitung

Schwerpunkte

Airflow

Aufgabenbereiche

MS Project

Produkte / Standards / Erfahrungen / Methoden

ActiveMQ

AES-GCM

Ajax4JSF

Apache

Apache Cordova/PhoneGap

Apache CXF

Apache CXF WebServices

Apache Tika

Avro

AXIS2

Axon Ivy

Backbone.js

bcrypt

Bex Analyzer

BizTalk

boost Library

bower

BPM

Brocade Data Center Fabric Manager

Caching

Camunda BPM

CAN-Bus

Cascading

CasperJS

Chef

Chukwa

Cloudera Hadoop

COBIT

Cognos

Conduct>It (CC)

CRL

Crunch

Crystal Clear

CSS3

CXF

DataFrames

Debugging

Deeplearning4j

depend

DER

Diffie-Hellman

DiffieHellmann

DKIM

DLIES

DMARC

DNSCurve

DNSSEC

Docker

Dojo mobile

dom4j

Domain-Driven Design

Drools

DSA

DTD

EAI

ECDSA

ECIES

Eclipse

Egg packaging

Elasticsearch

ELK-Stack

ELKI

Elliptical Curve

Ember.js

Enterprise Architect

Entwicklung/Konzeption unter Windows

Error Handling

Exasol DB

Express>It (BRE)

FHMQV-C

G10-Schnittstelle

Ganglia

gerrit

git

Google Analytics

Gora

gradle

Grafana

Greasemonkey

grunt

gSOAP

HAWQ

HDFS

Hibernate

Hive

HP ArcSight Tools

HTML5

http(S)

IBM Appscan

IBM Integration Broker

IBM Integration Bus

IBM Migrationstools

IBM QRadar SIEM

IBM SPSS

IBM Tivoli mit TADDM

Icinga System Management

IDEA

Identity Manager / Access Manager

Intel E-Mail Protection / Server Security Suite

Intel/McAfee Web Gateway 7.x

IntelliJ IDEA

Ionic Framework / Lab / ngCordova

IPSec

iSeries/POWER6-Systeme

IT Security

ITIL

Jackson

Jama Contour

James

Java/JavaScript

JBoss

JBoss EAP/AS

jBPM

JMRTD

jQuery mobile

Kafka

Kanban

Kendo-Framework

KNIME

Konfig.-Serialisierung

KTM

Kubernetes

LDAP

LDAP-Anbindung

LIBSVM

Liquibase

LMTP

Lo-Dash

log4j

Logging

Logging-/Tracing-Framework

Lucene

Mahout

maven

McAfee Embedded Control

Microsoft .NET Framework 4.5

Microsoft Biztalk

MicroStrategy

MOA

MS Azure

MS Excel

MS Office

MS Outlook

MS PowerPoint

MS RegExp

MS Visio

MS Visual Studio

MS Visual Studio 2013 mit C#

MS Visual Studio und C++

MS Word

mustache

NACL

NFSv3

NFSv4

Node.js

npm

Nutch

NW.js

OBD-II

OCSP

OOA

OOD

OOP

Oozie

OpenText MBPM

Oracle 11gR2 mit RAC

Oracle Glassfish

Oracle JDK 6/7

Oracle OpenDS

ORC

Oryx 2

Parquet

Partitioning

PBKDF2

PhantomJS

Pig

Pivotal-Tools Geode

PKI

Produktionsumgebung unter Linux

Puppet

QlikView

Qualcomm QPST

Qualcomm Tools QxDM

Qualcomm-Tools

Rancher

RDDs

Red Hat OpenShift

Redis

RegExp

RESTful Webservices

RichFaces

Risk-Based Testing

RMF

RocksDB

RSA

RUP/EUP

S/MIME

SAP BI

SAP BO (Business Objects Business Intelligence)

SAP BW (Business information Warehouse)

SAP DMS

SAP HANA

SAP NetWeaver Development Infrastructure

SAP PowerDesigner

Scrum

Scrumk

scrypt

Seam

Security/IAM/ISMS

SHA-2

SHA-2 Hashing

SHA-3

SharePoint

Sigar

slf4j/logback

Slimer.js

SMF

SOA

SOAP

Solr

Spark / Spark Streaming

Spark mit Streaming und MLlib

Spark SQL

Spark Streaming

SparkR/SparklyR

Sparx Enterprise Architect

Sqoop1/2

Squid

SSL

Storm

Subversion/SVN

T-Systems ImageMaster

Tachyon

Teradata QueryGrid/TDCH

Testing

Tez

TFS

TLS

Tracing

Trident

TrueCopy

TypeScript

UML/UML2

Versions-/ Konfigurations-Management

Versions-Management

Visio

VMware

WADL

WebServices

WebSphere

Weka

Windows Embedded

WS-* Standards

WSDL

X.509v3 mit Extended Usages

XML

XML Schema

XML/XML Schema (XSD)/XSLT

XPath

XQuery

XSD

XSLT

zanox

ZFS

Zookeeper

Profil:

Eigene haftungsbegrenzte Firma (mit 2 Partnern), damit kein Risiko der Scheinselbständigkeit.
Weltweit einsetzbar; Wegen meiner Familie ziehe ich nicht zu den Kunden um, sondern reise jeweils montags an und donnerstags/freitags ab per Zug/Auto/Flugzeug und benötige daher etwa 125 Euro/h zzgl. Reisekosten + 50% der Reisezeit als Stundensatz. Ich kann auch etwa 135 Euro/h all-exclusive anbieten und dann im Zug/Flugzeug für den Kunden arbeiten. Ein anderer Weg für den Endkunden, Geld zu sparen, besteht darin, dass sie ihre Unternehmens-Rabatte bzgl. Zügen / Flügen / Hotels an mich weitergeben (so muss ich weniger auf den Stundensatz aufschlagen). Ich wohne nahe 2 Flughäfen (Karlsruhe/Straßburg), 2 Autobahnen und 2 schnellen Zugstrecken (ICE, französ. TGV). Weiterhin arbeite ich bei Vor-Ort-Einsätzen Di-Do lieber 10 Stunden pro Tag bei entsprechender Bezahlung der Mehrarbeit.

Wehrdienst:

1991-1992:

Grundwehrdienst: Elektronische Kampfführung / Fernmeldetechnik

Beruflicher Werdegang:

2010 - heute:

Aufgaben:

Fast 30 Jahre KI-Erfahrung (Künstliche Intelligenz/AI ? Artificial Intelligence):
Deep Learning, Data Science, Big Data
Key Skills: Deep Learning (CNN, RNN, TensorFlow, PyTorch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), hybride Modelle (vorgegebene Strukturen + neuronale Netze + Gewichte/Stochastik, z.B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, Speicherung von Deep Learning Zwischenständen + Modellen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen), Semantik, Virtualisierung, Management mit Docker, Kubernetes, Airflow, etc.
KI-Projekte:
- DXC für Daimler + BMW, Autonomous Driving Programm, 2018-heute: Deep Learning für selbstfahrende Autos: Logisch/zeitlich konsistente virtuelle 3D-Stadtgenerierung, Deep Labelling für semantische Bildsegmentierung mit Keras/TensorFlow, Design Patterns für Deep Learning Architekturen, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning Agents), Horovod (verteilte Trainingslibrary für TensorFlow, Keras, PyTorch), Sparse Blocks Network (SBNet, TensorFlow Algorithmus), Google Dopamine Reinforcement Learning Framework auf Basis von TensorFlow, OpenAI GPT-2, Facebook XLM + PyText, Google BERT.
- HSBC Trinkaus & Burkhard AG: Größte Europäische Bank, World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security- und SOC-Architekt (Security Operations Center), SOC der 5. Generation: Erweiterung der SOC-Features um KI und Data Science: Ca. 60 kommerzielle Security-Tools. Data Science/KI zur Erkennung von Sicherheitsvorfällen: Neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke.
- Schwarz-Gruppe (Lidl & Kaufland): Machine-Learning zum Einkaufsverhalten der Kunden: Wirkungsanalyse & Optimierung von Marketingaktionen, Optimierung der Supply-Chain: Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist.
- Avira, 2017: Machine-Learning zur Optimierung der Konversionsraten von Freemium zu Paid, Abhängigkeitsanalysen auch zur Optimierung der Boot-Zeiten.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark: Kunden-Segmentierung z.B. nach Personas mit KNIME, Chatbot mit IBM Watson und Open Source DLNLP Tools; DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
- Credit Suisse, 2017: Business Transaction Store zur Analyse jeglicher Finanz-Transaktionen: Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung.
- Cisco Systems mit AOK als Endkunde, 2016-2017: Microservice Blueprints für Data Science Anwendungen wie Maximierung des Erfolgs von Gesundheits-Förderprogrammen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Make vs Buy vs Improve Analysen mit Machine Learning und ca. 50 Einfluss-Faktoren.
- Deloitte Consulting für Daimler Financial Services (DFS), 2016: Erstellung einer Architektur für ein Corporate Memory, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen, Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention mit Machine Learning).
- GfK Marktforschungsunternehmen, 2015: BI-Analysen; Werbe-Effizienz-Analysen, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf.
- KPT/CPT Krankenversicherung, Schweiz, 2015: Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und Analyse/Optimierung der Marketing-Aufwendungen, Betrugserkennung z.B. bzgl. der Begünstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Vorschläge erstellt für Auswertungen im Data Science Bereich für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips; Integration mit DMPs / DSPs, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse.
- Havas Media Gruppe (Medienagentur Nr. 7 in Europa) in Kooperation mit TheAdex, 2015: a) Semantic Ad Targeting mit Real-time DMP, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels; c) Analyse der Kunden-Reisen (Customer Journey) durch Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption einer vorausschauenden Instandhaltungs-Lösung (Predictive Maintenance) für die Siemens-Medizinprodukte: GMM (Gaussian Mixture Models); Überwachtes Lernen / Supervised Machine Learning, Association Rule Learning.
- Dermalog / FingerPayment, 2014: Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.
- Allianz, 2014: Intelligente Data Center Migrationen mit Millionen von Abhängigkeiten ohne Betriebsunterbrechung.
- Klingel / KMO-Gruppe: 2014-2015: Verbesserung der Erkennung von betrügerischen Fällen; Erstellung von Vorschlägen für Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Betrugserkennung.
- BG-Phoenics (IT-Tochter der Dt. gesetzl. Unfallversicherungen (DGUV)/Berufsgenossenschaften), 2013: Vorschlagen von Textbausteinen zur rechtssicheren Erstellung von berufsgenossenschaftlichen Bescheiden und der rechtssicheren Beantwortung von Briefen auf Basis von OCR + ICR (Optical Character Recognition + Intelligent Content Recognition).
- Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur): 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur, Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Betrugserkennung.
- Lloyds Banking Group / Heidelberger Leben, 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen, Machine-Learning auf dieser Basis.
- Deutsche Bundesdruckerei, 2010: Konzeption / Implementierung einer Softwarekomponente für die Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern.

1999 ? heute:

Rolle: Unternehmensberater

Aufgaben:

Unternehmensberatung
Architektur, IT-Security, Entwicklung und Projektmanagement großer IT- und Organisationsprojekte in der Finanzwirtschaft, Automobil-/Technologie- und Pharma-Branche.

Erfolge:

Architekt in den wohl 4 wichtigsten deutschen IT-Projekten der letzten Jahre: Elektronische Gesundheitskarte (Gematik), elektronischer neuer Personalausweis nPA (Bundesdruckerei), De-Mail (sichere vertrauliche E-Mail mit gesetzlicher Signaturfunktion und Gleichstellung zum eingeschriebenen Brief, Dt. Telekom) und das Mobile-Security-Projekt SIMKO der Bundesregierung.
8 erteilte Software-Patente im Security-Bereich (sichere unscheinbare Kommunikation/Textbasierte Wasserzeichen, z.B. für eBooks). Die Patente wurden in allen wichtigen Industriestaaten erteilt (USA, Kanada, Europa) und von IBM, Sybase, Amazon, Intel, Microsoft, Nuance, Fuji Xerox, AT&T, Certicom (wichtigster NSA-Crypto-Lieferant z.B. in der ?NSA Suite B Cryptography?) und vielen anderen als wichtiges Basispatent

Zwei CeBIT-Messehighlights im Security-Bereich (sichere unscheinbare Kommunikation/Textwasserzeichen, Integration der HBCI-Kartenfunktionalität als Software für die Geldkarte).
Jedes professionell finanzierte Projekt zum Erfolg gebracht.

1998 ? 2010:

Aufgaben:

Frühe Berufstätigkeit während der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence

Key Skills:

Stochastik-, Statistik- und Data-Science-Libraries, Semantic Web, semantische Suche mit Ontologien/Thesauri/strukturierten lexikalischen Daten mit stochastischen Ähnlichkeitsmaßen über Begriffe/Inhalte, OWL, DAML+OIL, NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Data Mining, Business Intelligence (BI) mit relationalen und objektorientierten DBs, Helpdesk-Automatisierung, Büroautomatisierung (OCR + ICR: Z.B. Prüfung von medizinischen Abrechnungen, Versicherungsfällen, Vorschlagen von Textbausteinen zur Beantwortung von Briefen).

Projekte mit KI-Anteilen:

Deutsche Telekom / T-Systems, 2007-2008: Aufbau eines Tracking & Tracing-Systems für Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenflüsse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
Thales Gruppe / Thales Defence, 2001-2003: Data Science / Statistische Auswertung von Manöver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualität von IT Komponenten und der menschlichen Befehle/Aktionen.
Fraunhofer IESE + Startup: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
DS-Ansatz:
- Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
Fraunhofer IESE + Startup:
- Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
Data Science (DS)-Ansatz:
- Die Tiefe / DOM-Pfad-Ähnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen für Tabelleninhalte.
Fraunhofer IESE + Startup:
- Konzeption der Algorithmen/Wahrscheinlichkeitsformeln für die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
DS-Ansatz:
- Head-driven Phrase-Structure Grammar Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere Möglichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Schätzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
Fraunhofer IESE + Startup:
- Extrahieren der statist. Charakteristika persönlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile für Text Watermarking und Steganographie.
DS-Ansatz:
- Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten für die Kopf-Tochter Selektionen. Speichern für jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (Häufigkeiten) aus den bekannten Synonym-Sätzen basierend auf Zusammenhänge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Schätzer.
Diplomarbeit/DFKI + Startup:
- Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier (GAL) + Veröffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
DS-Ansatz:
- Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente.

Beratung:

Big Data / Hadoop und Data Science: Alle Tätigkeiten außer Support und Administration (Cloudera, Hortonworks, IBM Big Insights, Microsoft Azure Integration HDInsight).
Business Intelligence (BI): Modellierung, SQL, Datenextraktion, Star- und Snowflake-Schema; alle gängigen Tools incl. IBM, Oracle, Teradata, Power BI.
Software-/System-/Infrastruktur-Architektur
IT Security
Projektmanagement und Testmanagement
Agile Coaching (Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking), Schulungen (Sicherheit, Big Data, BI, KI)
Entwicklung und Umsetzung branchenspezifischer Geschäftsmodelle/Strategien (Markt, Produkte, Personal, Finanzen, Organisation, Vertrieb, IT)
Konzeption und Management komplexer Entwicklungs- und Veränderungsprojekte auf strategischer und operativer Ebene
Strategische/operative Entwicklung und Bewertung von IT- und Facharchitekturen
HTML5, Ajax, Node.js, viele Libraries.
Mobile Apps (Native, Cross-Platform, HTML5) für iOS, Android, Windows Phone.

Know-how:

Tiefes fachliches Know-how in Bank-Systemen/Versicherungs-Vertriebsportalen/Webportalen, in IT-Systemen im Backend (Zahlungen, Bestandsführung, Prämienberechnung, Besteuerung), im Projektmanagement, Datenabgleich, Datenveredelung, IT-Sicherheit und Datenflüssen zwischen IT-Systemen
eCommerce, Bonus-Systeme, Kundenbindung/Digitale Werbung/Online-Communities
Geschäftsprozesse: Finanzwesen, Pharma, eHealth, Automotive, öffentliche Hand, Transport, Energie, Verlage

Methoden und Verfahren:

OOA, OOD, Domain-Driven-Design, Code-Generierung, Reverse Engineering, Code Reading
Projektmanagementmethoden und -verfahren
Software-Entwicklungsverfahren: V-Modell, RUP, SE-Book, PM-Book, Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking, XP, Crystal Prozesse, ITIL

Software/Werkzeuge:

MS Project, MS Office
Eclipse, Netbeans, MS Visual Studio
UML: Enterprise Architect, Together, RSA, Umbrello, Jude, Innovator
IT Security: Common Criteria, BSI Grundschutz, SIEM, mSIEM, SSH, SSL, VPN, L2TP, PPTP, Krypto-Algorithmen, Smartcards, Security Scanner & Penetration Testing/Hacking Tools.

Methoden und Verfahren:

Facharchitekturen, Softwarearchitekturen
Requirements Engineering
Security Engineering und Assessment
Objektorientierte Analyse & Design

Meine Erfahrung mit Serverless (Tools/Platforms):

Amazon AWS Lambda, AWS Step Functions
Microsoft Azure Functions
Google Cloud Platform (GCP), Cloud Functions/Datastore/Storage, Cloud Pub/Sub, Endpoints, gVisor, Apigee, Cloud Dataflow, BigQuery, Cloud ML Engine
Google App Engine
Google Kubernetes Engine (GKE), Serverless add-on
Serverless Functions for Docker/Kubernetes/Rancher
Fission.io by Platform9
Iron.io (pur kommerziell)
Knative (Kubernetes/Docker building, serving, eventing utilities)
OPNFV (Open Network Function Virtualization)
OpenStack, Kata Containers
Istio.io
Apache OpenWhisk (by IBM)
Nabla Containers (by IBM, only 9 system calls, best security and performance)
OpenShift

Gelegentlich, in freier Zeit zwischen Großprojekten, abends/am Wochenende:

Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen großen Überblick über aktuelle Real-World-Architekturen.

Smartclip
- Cross-Platform-Video-Werbung, Teil der Mediengruppe RTL, Teil von Bertelsmann, 2015: Performance-Optimierung eines Hadoop-Clusters für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support für IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbemaßnahmen (Click-Through-Rate Optimierung (CTR)).
- DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Schätzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Vodafone, 2015
  - (Urlaubs-Vertretung wegen Unterbesetzung): API-Architektur und Konzeption von OAuth- und OpenId Connect basierenden Identity und Access Management Lösungen in der API-Factory bzw. dem New Integration Layer (NIL) auf Basis von Apigee für Geräte-Diagnostik, Integrated Unified Communication, Connected Car, Migration der Endnutzer-Cloud-Daten, OneDevice, OneLine, OnePOS, Wallet, USSA, Integration von OpenStack-Komponenten/-Diensten.
  - Kiwigrid Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015: Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource für Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter für Mandanten-Daten, OpenVZ, Docker & Kubernetes für Hadoop, Management/Deployment mit Serf und Consul, Apache Slider, vert.x, SequenceIQ.Klingel-Gruppe / KMO (klingel.de/.at, mona.de, cornelia.ch, Wellsana, Wenz, Amara, Babista, Casserole, Diemer, Happy Size, Jungborn, Jan Vanderstorm, Vamos Veillon), 2014-2015: Architekt für JEE-Shopprojekte und WebSphere: Neu-Einführung IBM IIB, Anpassung diverser Shop- und Warenwirtschafts-Backends an IBM IIB, Kundenverhalten-Analyse mit Hadoop, Hive und Mahout. Sicherheitsanalysen. Architektur zur Integration des Akka-Play-Stacks einer Tochterfirma. Vorbereitung und Durchführung von Strategie-Workshops zu verschiedenen Java/Scala/Node.js-Entwicklungs-Stacks incl. OpenStack, Cloud Foundry, Kanban.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
  - Trost SE:
  - Autoservice Fahrzeug-Teile-Großhandel, 2014: IT Systemarchitektur analysiert und kurz-/mittelfristig optimiert, Big Data Ziel-Architektur mit Hadoop sowie Virtualisierungs-Konzept erstellt (MS Hadoop Integration); Scrum.
TecAlliance mit Fraunhofer IESE, 2016:
- Konzeption der Basisarchitektur für ein Connected Car System auf Basis von Big Data/IoT-Platformen, die ich dazu recherchiert habe.
- Parfümerie Douglas, 2016: Migration des Rechenzentrums/Erweiterung Quelltexte auf Kundenkarten-Anbingung/Absicherung des Online-Shops, implementiert in Java und Scala. Vorschlag von Big Data basierenden Kundenanalysen und Bandit-Tests (in Ergänzung zu A/B-Tests). Ablösung der Anbindung an SAP Hybris
- Visteon Electronics, 2016: Konzeption der Sicherheitsarchitektur der neuen Smartcore Cockpit Electronik-Systeme basierend auf Renesas-Hardware mit den Sicher-heitsdomänen VIP (Vehicle Information Processor), DI (Driver Informa-tion) und IVI (In-Vehicle Infotainment) sowie Anbindung an Apple Car-Play und Android Auto (über Smartphones). Erstellen eines umfangrei-chen Sicherheitskonzeptes mit einem Common Criteria Toolkit und Ab-stimmung mit Daimler. Spezialanalysen bzgl. SELinux und Alternativen, (darunter AppArmor und grsecurity), DAB+, Bluetooth, CAN/LIN, IP Multimedia Subsystem (IMS), Security Coding Style Guides und Code Checker, Vulnerability Management, PKI, Secure Boot, Secure Updates. ISO 26262/ASIL-relevante Konzeptionen, Projektmanagement bzgl. Um-setzung, Pen Testing und Security Intelligence Konzept, Lieferantenbe-treuung und Entwickler-Betreuung.
- Tools/Libraries: SELinux, Embedded Linux, AUTOSAR, Integrity OS by GreenHillsSoft-ware, GNU Toolchain, IBM/Rational Toolchain (incl. DOORS and RTC ? Rational Team Concert), FileNET, Visio, Common Criteria Tool-kit/Verinice, Doors, Rhapsody, AppArmor, grsecurity, BSI Grundschutz Toolkit.
Bundesarchiv, 2014:
- Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
- Auswärtiges Amt, 2014: Konzeption der SOA-Strategie als Berater des IT-Architekten incl. Hadoop, insbesondere zu den diversen Anwendungen, die die zentralen IT-Systeme des Auswärtigen Amtes ausmachen sowie deren sichere und effiziente Anbindung (Datensparsamkeit/Kompression, Latenz, Caching) an die vielen hundert Botschaften; Scrum.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betrügereien und Sicherheitsverletzungen für das Management und die Polizei/Staatsamwaltschaft.
- DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.

Meine Erfahrung mit Hadoop/Big Data/Data Science:

DXC für Daimler + BMW
- Autonomous Driving Programm, 11/2018-heute: Architekt und Technical Lead Meta Data Management (MDM) & Ingest: Virtualisierung/Containerisierung mit Kubernetes + Docker unter MapR; API-/Microservice-Konzeption; Deep Learning for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber?s QALM (QoS Load Management), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), AresDB (Uber?s GPU-powered real-time analytics engine), Uber?s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow.
- DS-Ansatz (Data Science): TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Tableau.
HSBC Trinkaus & Burkhard AG / HSBC Deutschland (größte Europäische Bank)
- World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security-Architekt für die Erweiterung des SOC (Security Operations Center) mit QRadar und Security-Analyse-Use Cases im Kontext von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) und SAP, ca. 60 kommerzielle Security-Tools mit entsprechenden Outputs, die zu Alerts führten, deren False-Positive-Zahl minimiert werden musste.
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 mo-del tree), C4.5, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Tableau.
Schwarz-Gruppe (Lidl & Kaufland)
- größter Europäischer Handelskonzern: Online und offline, 2017: Konzeption für Plattform-, Umwelt- und Methoden-/Prozess-Setup für verschiedene Predictive Analytics Teilprojekte (insbesondere für Marketingeffekte und Supply-Chain-Prognosen hinsichtlich Bedarfsmengen/Preise etc.): Big Data Architekturberatung, Test-Management Konzept erstellt, Entwicklung plattformübergreifender Verpackungs- und Versionierungskonzepte, Tools: für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP BW, SAP HANA, Ab Initio, Microstrategy, (Ana)Conda, Python, sbt.
- DS-Ansatz: Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Avira, 2017:
- Konzeption und Implementierung eines Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala, Beratung bzgl. möglichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Tableau.
Nordex Acciona (Pamplona, Hamburg, Rostock), 2017:
- Erstellung eines Migrationskonzeptes vom Acciona Big Data System zu einem integrierten Big Data System zur Überwachung von Windparks.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der Lösungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA). Beratung bzgl. möglichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5.
Credit Suisse, 2017:
- Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Über-sichten für?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
- DS-Ansatz (Data Science): Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Anomalie-Erkennung, Überwachte Klassifizierung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung, Tableau.
Cisco Systems mit AOK als Endkunde, 2016-2017:
- Konzeption eines Microservice Blueprints mit Schnittstellen zu Big Data Systemen zwecks Datenaustausch und Data Science Anwendungen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Konzeption einer ?on premise? und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern mit Spark mit MLlib, Alluxio sowie Erstellung einer Bottom-Up-Migrationsstrategie bestehender Quelltexte von Delphi nach Scala. Web-Benutzeroberfläche mit Angular 2.1; Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
- Deloitte Consulting für Daimler Financial Services (DFS), 2016: Erstellung einer Architektur für ein Corporate Memory, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
- Technisch: Konzeption eines effizienten Speicher-Formats für graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases (Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention und Machine Learning). Umsetzung verschiedener Anwendungsfälle mit Hive, Spark-SQL, Hive Makros und als Hive-Funktionen mit Java / Scala und Messung / Vergleich der Performance: Zugriff auf Datendateien (ORC / Parkett / CSV) mit Scala und Import / Export in HBase, Hive, Cassandra, Scylla DB und dann in SAP Bank Analyzer. Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausreißerelimination und grundlegende Kreditwürdigkeit-Schätzalgorithmen. Recherche und Bewertung von Technologien / Tools für Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow, Tableau.
- Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala, ORC- / Parquet-Dateien, Cloudera-Exhibit, Cascading, Crunch, Twill, REEF.
- Hadoop Sicherheitsstrategie konzipiert mit Kerberos, LDAP / Active Directory, Apache Knox (REST API Gateway, SSO / LDAP), Ranger (Berechtigungs-, Überwachungs- und Sicherheitsmanagement), Apache Sentry/Shiro (feinkörnige rollenbasierte Berechtigung), Apache Falcon, Apache-Atlas (Data Governance).
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, ...
GfK Marktforschungsunternehmen, 2015:
- Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten der GfK als neues System ?pace? (Nachfolger von StarTrack) zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte. Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bitemporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/Prüfung/Korrektur/Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) auf einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools. Realisierung mit Cloudera Hadoop, Spark mit Streaming, MLlib, Oryx 2, RDDs, Spark SQL + DataFrames + Caching, HBase, RocksDB, Oozie, Alluxio (ex: Tachyon), HDFS, Docker, git, gerrit, gradle, IntelliJ IDEA, Sparx Enterprise Architect, Konfig.-Serialisierung mit Jackson, Java-Entwicklung, UI: HTML5 + Angular + Kendo-Framework; einheitliches Logging-/Tracing-Framework in Java/JavaScript mit ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis, ActiveMQ, Icinga System Management, BI mit Cognos + Exasol DB, Monitoring mit Grafana, BPM mit Axon Ivy, externe Services mit Jboss + MySQL/Percona + Hibernate, LDAP-Anbindung; Evaluierung von Alternativen mit Storm + Trident + Clojure DSL, Flink, Cascading auf Basis von Tez, Crunch + HBase, Pivotal-Tools Geode + HAWQ, Tableau.
- DS-Ansatz: Eine Mischung aus aus Stetigkeiten, Verteilungen mit Mittelwerten und Standardabweichungen (zur Fehler-Erkennung), Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer
KPT/CPT Krankenversicherung, Schweiz, 2015:
- Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2, c) Betrugserkennung z.B. bzgl. der Begünstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- DS-Ansatz: Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt)
  - Maximum-Likelihood-Schätzer.
  - Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Performance-Optimierung eines Hadoop-Clusters sowie Vorschläge für Auswertungen im Data Science Bereich für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support für IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbemaßnahmen (Click-Through-Rate Optimierung (CTR)).
  - DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Schätzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Kiwigrid, Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015:
  - Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource für Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter für Mandanten-Daten, OpenVZ, Docker & Kubernetes für Hadoop, Management/Deployment mit Serf, Consul und Terraform, Apache Slider, vert.x, SequenceIQ.
  - Havas Media Gruppe (Siebtgrößte Medienagentur Europas) in Kooperation mit TheAdex, 2015: a) Zielgerichtete Online- und Mobile-Werbung (Ad Targeting) durch Erstellung von Kundenprofilen, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; c) Web Scraper konzipiert/entwickelt mit node.js, CasperJS, PhantomJS, Slimer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten). Tools: Hadoop, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Spark, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, SploutSQL, Apache Kylin, Aerospike DB.
  - DS-Ansatz: Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015:
  - Konzeption einer vorausschauenden Instandhaltungs-Lösung (Predictive Maintenance/Vorausschauende Wartung) für die Siemens-Medizinprodukte wie CTs, MRTs usw. (IoT, Internet of Things) mit Logfile-Analyse, wurde später Teil von MindSphere: Hortonworks Hadoop, YARN, Pig + DataFu, Hive / HCatalog, Flume, Avro, Teradata QueryGrid, Sqoop1/2, Mahout, Giraph , Kafka, Amazon Kinesis, Storm mit Trident + Clojure DSL, Flink, Spark / Spark streaming, Cascading, Tez, Twill, Pangool, Crunch, REEF, Oozie, SequenceFile-/Parquet-/ORC-Dateiformate, LZO-, bzip2-, zlib-, Snappy-Kompression, Differential Privacy. Belieferte Statistik-Tools: Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite, ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis.
  - DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.
- Dermalog / FingerPayment [nur DS], 2014:
  - Entwicklung eines Sicherheitskonzept für die Vermeidung und Erkennung von Betrug an Bankautomaten bei der Verwendung von Fingerabdrücken statt PINs, Konzeption eines sicheren Protokoll zwischen Fingerabdruck-Sensor, Geldautomaten und Bank-Backend.
  - DS-Ansatz: Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch, etc.
- Allianz Versicherung über IBM, 2014:
  - Migrationskonzept erstellt für die Migration der Hadoop- und SAS-Cluster, zentralisierte vorausschauende Hadoop-basierte Bedrohungserkennung (Threat Intelligence).
  - Klingel / KMO-Gruppe (klingel.de und rund 40 andere Online-Shops), 2014-2015: Verbesserung der Erkennung von betrügerischen Fällen; Erstellung von Vorschlägen für Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Tools: Hadoop mit Mahout, WEKA / MOA, Geode mit Madlib (Machine Learning Lib mit UDF) und HAWQ, Spark mit MlLib und GraphX, PredictionIO, LIBSVM, Oryx 2, ELKI, Deeplearning4j.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- Trost SE Kfz-Großhandel, 2014:
  - Konzeption einer Hadoop-basierten Such-Infrastruktur für Darstellung und Suche im Online-Shop basierend auf MS HDInsight/HD insights mit Azure Portal.
  - Bundesarchiv, 2014: Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
  - Aptiv (ex: Delphi), 2013-2014: Erstellung eines Big-Data-basierten Konzeptes für Connected Car sowie entsprechende Backend-Infrastrukturen basierend auf Vodafone?s M2M-Infrastruktur und MS Azure mit Hadoop-Integration als Ausbaustufe (MS HDInsight/HD insights).
  - Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur) [nur DS] 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur.
  - DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013:
  - Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betrügereien und Sicherheitsverletzungen für das Management und die Polizei/Staatsamwaltschaft.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- European Patent Office (EPO), 2012:
  - Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Hive/HCatalog with Spark (ex: Shark) / Stinger, MLlib, Cloudera Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Cascading mit multi-tool, Giraph, Zookeeper, Bookkeeper, Nagios, Flume, Kafka, Hue, Avro, Thrift, Elephant Bird, Ganglia, Spark, GraphX, Kafka, Ambari / Ganglia, Whirr.
  - Lloyds Banking Group (Bristol, UK & Heidelberg), Versicherungsabteilung (Heidelberger Leben, Clerical Medical, Scottish Widows, Lloyds Insurance), 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen.
  - DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.
- Deutsche Telekom/T-System mit De-Mail, 2010-2011:
  - Entwicklung einer Big-Data-Architektur mit Hadoop als Alternativ-Architektur zur Standard-Enterprise-Architektur für De-Mail (mit Proof-of-Concept Implementierung mit HDFS und Apache Solr), die allerdings wegen der mangelnden Skills hierzu im Telekom-Konzern nicht in 2010 sondern erst in 2014 umgesetzt wurde.
  - Deutsche Bundesdruckerei [nur DS], 2010: Konzeption / Implementierung einer Softwarekomponente für die Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern.
  - DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren für verschiedene Gültigkeitsanzeigefunktionen.
- Schwäbisch-Hall/Kreditwerk, 2010:
  - Erstellung verteilter Web-Services mit dem Globus Toolkit (Grid-Computing Alternative zu Hadoop mit ähnlichen Verteilungsprinzipien).
- Deutsche Telekom / T-Systems, 2007-2008:
  - Aufbau eines Tracking & Tracing-Systems für Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenflüsse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
- Thales Gruppe / Thales Defence, 2001-2003:
  - Data Science / Statistische Auswertung von Manöver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualität von IT Komponenten und der menschlichen Befehle/Aktionen.
- Frühe Data Science/Statistik Tätigkeiten am DFKI und in einer IT Consulting Firma (1996-2001):
  - Firma: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
  - DS-Ansatz: Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
- Firma:
  - Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
  - DS-Ansatz: Die Tiefe / DOM-Pfad-Ähnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen für Tabelleninhalte.
- Firma:
  - Konzeption der Algorithmen/Wahrscheinlichkeitsformeln für die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
  - DS-Ansatz: Head-driven Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere Möglichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Schätzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
- Firma:
  - Extrahieren der statist. Charakteristika persönlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile für Text Watermarking und Steganographie.
  - DS-Ansatz: Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten für die Kopf-Tochter Selektionen. Speichern für jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (Häufigkeiten) aus den bekannten Synonym-Sätzen basierend auf Zusammenhänge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Schätzer.
- Diplomarbeit/Firma:
  - Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier + Veröffentlichung in einem Wissenschaftsmagazin).
  - DS-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente.
- DFKI (Dt. Forschungszentrum für KI), Projektarbeit:
  - Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmentierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauss-Verteilung. Dies wurde von der DFKI-Ausgründung http://www.insiders-technologies.de in deren kommerzielle Produkte eingebaut.
  - DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score für die Dokumenten-Segmentierung.
- DFKI, Seminararbeit:
  - Nichtlineare Planer, Score-Berechnung für Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
  - DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Architekturen/Stacks/Distributionen: Cloudera, Hortonworks, SMACK (Spark, Mesos, Akka, Cassandra und Kafka), MAPR, Microsoft Azure Integration HDInsight, IBM BigInsights.
Pattformen/APIs: MapReduce (Vereinfachte Programmierung: Weave, Cloudera SDK), YARN.
Docker-Ökosystem mit Kubernetes, OpenStack-Ökosystem.
Streaming/Structured Processing/DAGs: Spark Real-Time und In-Memory Toolset / Spark streaming (streaming, interactive queries, and cognitive/machine learning) mit GraphX (Spark API / console for Giraph), MLlib (Spark Machine learning Lib), Alluxio (ex: Tachyon), PredictionIO deployed auf Hadoop, Mesos, Cloud, Standalone; Apache Storm mit Trident und Nachfolger Heron, Flink (Streaming Data Processing with libs: CEP, Table, FlinkML, Gelly - actor model, hierarchy, deathwatch); Apache Apex.
DBs: HBase, Hypertable, Cassandra, Scylla DB, Mongo DB (DBs), Redis, Accumulo with cell-level security (Key-Value Speicher), Hive (SQL / DB Language / Data Warehouse Features) with Shark / Stinger (Interaktive & programmierte Queries), HCatalog (schema and data access abstraction services of Hive), Cloudera Impala, Drill (SQL acceleration), TiDB, Cloudera Kudu, Aerospike, Alluxio (ex: Tachyon) (memory-centric Distributed Storage), VoltDB, DCE, RocksDB, Etcd (Key-Value-Speicher), Druid (optimized for read-only data),
Apache Geode (verteilte in-memory DB) mit MADlib (Machine Learning Lib mit UDF) und HAWQ (Greenplum Analytics/SQL engine: ?HAdoop With Query?) ? alles von Pivotal.
Hadoop-Security: Kerberos Sicherheit, DB-Schema-basierte Autorisierung, LDAP/Active Directory, Multi-Tenancy/Mandanten-Fähigkeit; Apache Knox (REST API Gateway, SSO/LDAP), Ranger (Authorisierung, Monitoring und Sec. Management), Sentry/Shiro (fine grained role based authorization), Apache Falcon, FiloDB, Apache Atlas (Data Governance), Intels Project Rhino; SAML, OAuth 2.x, OpenId Connect, Anbindung an über 10 der führenden kommerziellen IaM-Systeme (IBM, Siemens, SAP, Oracle, NetIQ, Dell, Microsoft, ?).
Data ingestion/output (stream processing / distributed messaging systems): Sqoop1/2 (Data Im-/Ex-port in Hadoop: SQL to Hadoop), Flume, Kafka, Flafka, Amazon Kinesis, Apache Samza, Camus and successor Gobblin, Apache GearPump, Chukwa, Talend for Big Data, Falcon/Oozie, Hortonworks Dataflow/Nifi, StreamSets, syncsort.
BI/Data Mining/Event Processing Tools: Apache SAMOA (platform for mining big data streams), Pentaho for Big Data; nur kurz evaluiert: IBM InfoSphere for Big Data, Trifacta, Informatica for Big Data
Produktivitätslibraries: Tez, Crunch, Cascading (data processing workflows), Twill, REEF, Pangool, SploutSQL, Apache Drill + Arrow, Apache Beam (unified programming model for creating a data processing pipeline), Weave.
Akka/Play-Tools: Scala, Apache Gearpump (real-time big data streaming engine over Akka), Apache Flink (actor model, hierarch).
Generell Memory-centric (statt disk-centric) Technologien: Spark, Geode, RocksDB, SAP Hana, etc.
Meine sonstigen Big Data Skills: HDFS, Hive (mit UDF-Libs: Brickhouse, Dataiku, Nexr), Pig (Data Flow Sprache) mit DataFu, Apache Oozie (workflow scheduler), Giraph (graphs), Zookeeper (configuration), Bookkeeper, Nagios (logging), Hue (Web interface), RabbitMQ, ActiveMQ, Qpid, AMQP - Advanced Message Queuing Protocol, MQTT - Message Queue Telemetry Transport = SCADA Protocol, CoAP - Constrained Application Protocol (messaging), Avro/Thrift/Elephant Bird/protobuf/protostuff ([De-]Serialisierung), Apache Mahout (clustering, classification, collaborative filtering, machine learning, perceptron, etc.), PredictionIO (Machine Learning Server), Oryx (Machine Learning), Apache Tika / Gora / Nutch / Solr / Lucene, ELK Stack (Elasticsearch, LogStash, Kibana), Apache Ambari (provisioning, managing, monitoring) / Ganglia (distributed monitoring), Whirr (deployment), Mesos (cluster manager), Netflix Genie (job orchestration engine).
Diverses Kleines: Codecs, Compression, Encryption, MRUnit (Map-Red-Unit-Testing), Filesystem In Userspace (FUSE), Distributed Copy (distcp), Globus Toolkit (grid computing, web services), CRISP-DM (Cross Industry Standard Process for Data Mining), Vaidya (Performance diagnostic tool für map/reduce jobs), Predictive Model Markup Language (PMML), Apache Ignite (In-Memory Data Fabric), Apache Zeppelin (Multi-purpose Notebook), ORC (optimized row columnar), Parquet, SequenceFile and common Hadoop file formats, Schema on Read/Write.
Data Science Tools: Revolution R mit RHadoop/RHIPE/Shiny, H2O.ai/Sparkling Water/Deep Water, SAS, KNIME, Talend Open Studio for Big Data, Intelligent Miner, RapidMiner, Tableau, Pentaho Data Suite, Jena OWL Framework, PyData Tools (IPython, Anaconda, Blaze, Bokeh, Canopy, matplotlib, Nose, Numba, NumPy, SciPy, Statsmodels, SymPy, pandas, SciKit-Image, SciKit-Learn), Gephi (Open Graph Viz Platform), nur kurz evaluiert: Waterline Data Science, Datameer, Paxata, platfora, Trillium, SAP Business Objects, Zoomdata.
Data Science Libraries: Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, Giraph, Spark mit Streaming, MLlib, GraphX, Alluxio, Kernel und Apache Ignite, PredictionIO, ScalaNLP (Breeze, Epic, Puck, Chalk), Apache Tika / Gora / Nutch / Solr / Elasticsearch / Lucene (Java), LIBSVM, Oryx 2, ELKI, Deeplearning4j (alle Java), MLPACK (C++), Armadillo (C++), Torch with dp (deep learning library) (Lua,C/C++, CUDA), Berkeley Caffe (C++, Python), CaffeeOnSpark, SparkNet, Microsoft Computational Network Toolkit (CNTK in C++) und Distributed Machine Learning Toolkit (DMTK in C++), Google TensorFlow (C/C++, Python) (alle Deep-Learning).
Wichtige Data Science / AI Algorithmen: Alle gängigen Stochastik- und KI-Algorithmen (Schwerpunkt meines Studiums), z.B. k-d Tree, k-means, Clustering, Classification (Naive-Bayes, ?), Multi-Linear Regression, Bloom Filter, Model Cross Validation, kognitives/maschinelles Lernen (cognitive/machine learning), Statistical Analysis, Large-Scale Predictive Modeling, Hypothesis Testing, SVD++ (Singular Value Decomposition = Dimensions-Reduktion), SVM (Support Vector Machine), Entscheidungsbäume, C4.5, CART, Nearest-neighbour methods, Fitting, Neuronale Netze, Differential Privacy, Feature Learning/Representation Learning, Hierarchical Dynamic Models (HDMs).
Tracing libraries: Zipkin/OpenZipkin, OpenTracing, HTrace.
NLP libraries: Apache OpenNLP (Natural Language Processing), Stanford CoreNLP, TensorFlow SyntaxNet, NLTK (Natural Language Toolkit: tagging/chunk parsing), WordNet, GATE (General Architecture for Text Engineering), Apache UIMA (Unstructured Information Management architecture/applications), LKB (Lexical Knowledge Base/Builder), CSLI Stanford Parser, DELPH-IN Pet Parser, Apache Stanbol, spaCy, Spark MlLib, Spark-NLP, AllenNLP, Eigener Parser und Knowledge Management System.
Erfolgreicher Redner und Innovator, z.B. auf dem DevCamp 2017+2018 in Karlsruhe und auf der internationalen Data Natives 2017 Konferenz (mit ca. 5000 Teilnehmern eine der größten Data Science und Big Data Konferenzen).

Meine Data Science Kenntnisse:

Data Formats: PMML (Predictive Model Markup Language), Serialization with Protobuf/Protostuff, Elephant Bird, Cryo Serializers.
Knowledge Representation: DAML + OIL, SPARQL, TFS (Typed Feature Structures), MRS (Minimal Recursion Semantics)
Analytics: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, Prescriptive Analytics, Data Discovery Processing
Basic Statistics: Descriptive Statistics: Pearson's Correlation, Inferential Statistics: Hypothesis Tests (Pearson?s chi-squared (x2) tests), Probability Distribution Functions: Gauss, Student; Probability Estimation Functions / Schätz-Funktionen; Random Data Generation; Metropolis-Hastings Sampling; Monte-Carlo-Simulationen
Time Series Analysis / Prediction / Forecasting: AR-Modelle (AR (Auto-Regression), MA (Moving Average), ARMA, ARIMA (Integrated bzw. Differenzen von Y), ARMAX (mit Regressor X)), GARCH, Maximum-Likelihood Schätzungen, Exponentielles Glätten nach Holt / Winters, Box-Jenkins Modelle; Kalman-Filter; Logistische Regression (Logit-Modell), Probit-Modell; Mixture Models (main with sub-populations / events), e.g. GMM (Gaussian Mixture Models); Diverses: Fitting, Trend Analysis, Trendfunktion, Saisonalität, Noise, additives / multiplikatives Modell, Autokorrelationsfunktion, Korrelogramm, Prognosehorizont, Prognoseintervall, autoregressives Modell, Prognosen, Autokorrelation, Komponentenmodell, Trend- und Saisonbereinigung
Sequence mining / Sequential pattern mining: GSP Algorithm; Sequential Pattern Discovery using Equivalence classes (SPADE); Apriori algorithm; FreeSpan; PrefixSpan; MAPres
Collaborative Filtering (CF) / Recommender Systems, e.g. Google news, Amazon: Memory-Based: neighbourhood-based CF, Alternating Least Squares (ALS), SVD++; Model-based: Bayesian networks, clustering models, latent semantic models such as singular value decomposition, probabilistic latent semantic analysis, multiple multiplicative factor, latent Dirichlet allocation and Markov decision process; Hybrid: better prediction performance, overcoming CF problems sparsity and loss of information.
[Semi-]Supervised Learning / Structured prediction: Naive Bayes; Markov random field (MRF) based methods, Conditional random fields (CRF), Gaussian Markov random field; Feature engineering, automated supervised feature learning with labeled data: neural networks, multilayer perceptron, supervised dictionary learning; Classification and Regression (e.g.cause-effect analysis): Linear models: Linear regression / classification; Binary and multiclass classification; Linear discriminant analysis; Feature vectors: Naïve Bayes, Drift, Logistic Regression classifiers using e.g. SGD-based algorithms, Probit Regression; Isotonic Regression (least squares problem under order restriction); HMM (Hidden Markov Models); Maximum entropy (MaxEnt) models; Maximum-entropy Markov model (MEMM), or conditional Markov model (CMM) [mostly Conditional random fields are more precise]; Restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Decision Forests / Ensembles (Random Forests and Gradient-Boosted Trees GBTs); [Adaptive Size] Hoeffding Tree; Pegasos (Primal Estimated sub-GrAdient SOlver for SVM) method of Shalev-Shwartz; Vector Machines: Relevance vector machine (RVM), Support vector machine (SVM); Regression Models: Clustered Variance, Linear Regression, Ridge Regression, SVM Model, Logistic Regression, Binary Logistic Regression, Multinomial Regression, Least-Angle Regression (LARS/LASSO), Local Coordinate Coding (LCC) (approximate a non-linear function with linear ones), Robust Variance, Ridge regression / Tikhonov regularization, Partial Least-Squares Regression; Tree Methods: Decision Tree, C4.5, CAR; [Conditional] Random Field: Nearest-neighbor methods: k-nearest neighbors algorithm, Neighbourhood components analysis; Ensembles: Bagging (average the voting of multiple experts), Boosting (new models shall become experts for instances misclassified before), Random forest, Logistic model trees, Stacking (meta-learner over previous models).
Unsupervised Learning: Affinity analysis / Market basket analysis/ Association Rule Learning: Apriori Algorithm, ECLAT (Equivalence Class Transformation), FP-growth (frequent pattern growth); Unsupervised feature learning with unlabeled data: Unsupervised dictionary learning, independent component analysis (ICA), auto-encoders, matrix factorization, clustering, local linear embedding (LLE), restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Clustering: Canopy (pre-clustering, pre-processing); k-Means Clustering; [Fuzzy] k-means; Data stream clustering; Streaming k-means; k-medoids Clustering (PAM, CLARA); k-medians Clustering; Hierarchical Clustering (SLINK and CLINK); Expectation-maximization (EM); CURE (Clustering Using REpresentatives); BIRCH (balanced iterative reducing and clustering using hierarchies): hierarchical, effective noise handling, COBWEB, Spectral Clustering; Data Stream Clustering; Synthetic Control Varianten, Top-Down, Gaussian mixture, Power iteration clustering (PIC), Latent Dirichlet allocation (LDA), Hierarchical Dirichlet processes (HDP), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, with full index acceleration for arbitrary distance functions), OPTICS (Ordering Points To Identify the Clustering Structure), SUBCLU (Density-Connected Subspace Clustering for High-Dimensional Data), Mean-shift (locating maxima of a density function), Single-linkage clustering; Topic Modelling: Latent Dirichlet Allocation, Case based reasoning / rule induction algorithms (for helpdesks, industrial/financial processes): Charade, Rulex, Progol, CN2.
Dimensionality Reduction: Singular value decomposition (SVD), (Kernel) Principal component analysis (PCA/KPCA), Locality-sensitive hashing (LSH): Bit sampling for Hamming distance, Min-wise independent permutations, Nilsimsa Hash (Anti-Spam), TLSH (ternary locality-sensitive hashing), Random projection, Stable distributions, Factor analysis, CCA, ICA, LDA, NMF, t-SNE
Neural Networks / Konnektionismus: Kohonen, Perceptron, Recurrent Neural Networks (RNN) mit Utils: [Bi]Sequencer, Repeater, ?, Deep Learning, Deep reinforcement learning, Autoencoder, Multilayer perceptron, Restricted Boltzmann machine, SOM (Self-organizing map), Convolutional neural network
Feature extraction / pattern analysis and transformation: Term frequency-inverse document frequency (TF-IDF), Feature hashing / trick, Kernel method / trick, Fast Exact Max-Kernel Search (FastMKS), (Kernel) Principal Component Analysis (PCA/KPCA), Non-negative matrix factorization (NMF), Independent component analysis (ICA), e.g. with MLE (Maximum likelihood estimation).
Frequent pattern mining: FP-growth, Association Rules, PrefixSpan.
Evaluation metrics: Classification model evaluation, Binary classification: Threshold tuning, Multiclass classification: Label based metrics; Multilabel classification: Ranking systems; Regression model evaluation: Mean Squared Error (MSE)
Evaluation / Visualisation: Common visualizations as known from Excel, Crystal Reports, etc.; Receiver operating characteristic (ROC curve), e.g. with TPR/FPR (true/false positive rate); Scatter plot, Histogram, Parallel coordinates, Multidimensional scaling (MDS)
Optimization: Stochastic gradient descent, Limited-memory BFGS (L-BFGS).
Structured prediction: Bayesian network, CRF (Conditional random field), HMM (Hidden Markov Model)
Anomaly detection (fraud, intrusion detection in computer security): Density-based techniques (k-nearest neighbor, local outlier factor, and many more variations of this concept), Subspace- and correlation-based outlier detection for high-dimensional data, One class support vector machines, Replicator neural networks, Cluster analysis-based outlier detection, Deviations from association rules and frequent itemsets, Fuzzy logic based outlier detection, Ensemble techniques, using feature bagging, score normalization and different sources of diversity, LOF (Local outlier factor), OPTICS-OF, DB-Outlier (Distance-Based Outliers), LOCI (Local Correlation Integral), LDOF (Local Distance-Based Outlier Factor), EM-Outlier
Association rule learning (pricing, product placements, web usage mining, intrusion detection, continuous production, bioinformatics); Apriori algorithm / Apriori-DP (Dynamic Programming), ECLAT (Equivalence Class Transformation), FP-growth algorithm, CBARM / CBPNARM: Context Based (Positive and Negative) Spatio-Temporal Association Rule Mining, Node-set-based algorithms: FIN, PrePost and PPV, GUHA procedure ASSOC: generalized association rules using fast bitstrings, OPUS search.
Learning to rank / machine-learned ranking (MLR) = optimization problem with respect to these quality measures (pointwise, pairwise, listwise): Mean average precision (MAP), DCG and NDCG, Precision@n, NDCG@n, where "@n" denotes that the metrics are evaluated only on top n documents, Mean reciprocal rank, Kendall's tau, Spearman's Rho, Expected reciprocal rank (ERR), Yandex's pfound, gradient boosting-trained ranking, RankNet, PageRank.
Text Analysis / NLP (natural language processing) / computational linguistics: Term Frequency, Tokenization, Sentence segmentation, Part-of-speech (POS) tagging, Word2Vec, LSI (Latent Semantic Indexing), Latent semantic analysis (LSA), SVD, SVD++, Named Entity Recognition (NER) / named entity extraction (NEE), Information Extraction (IE), Language Models (LM), N-grams, POS (part of speech) tagging, Morphology, Common grammars: PCFG, HPSG, LFG, Chunking / shallow parsing, Natural language semantic parsing, Topic models, Explicit semantic analysis (ESA), Ontology-based similarity measures, Semantics (generative, lexical, semantic nets), Content similarity (i.e. detecting pirated texts), Text Mining, Web Mining.

Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):

Techniken: Konzeptuelle, logische, physikalische Datenmodelle/ER-Modelle erstellen/optimieren (3NF, Star Schema (fact/dimension tables), Snowflake Schema, Data Vault nach Linstedt), Dimensional Data Modeling/Normalization (Business Processes/Grains/Dimensions/Facts), Online Analytical Processing (OLAP: Microsoft, Cognos, Pentaho/Mondrian), OLAP-Würfel/OLAP-Cubes (Modellierung, Slicing, Dicing, Pivoting, Drill-Down), CRISP-DM, Application Design for Analytical Processing Technologies (ADAPT). Darüber hinaus habe ich auch Talend Open Studio verwendet für Zuordnungen, z. B. bei Schwaebisch-Hall/Kreditwerk, für die Deutsche Bank und Walgreens Boots Alliance (WGA) / Megapharm.

Schwarz-Gruppe (Lidl & Kaufland), größter Europäischer Handelskonzern, 2017: BI und Big Data Architect im Bereich Predictive Analytics etwa zur Berechnung der Effekte von Sonderangeboten, über Supply-Chain-Optimierung bis hin zur Vorhersage der Bedarfe für Backware in den Läden: Teradata, Ab Initio, SAP BW.
BNP Paribas Personal Investors, 2017: Consorsbank + DAB: Konzeption von CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der Lösungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA).
Credit Suisse, 2017: Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Über-sichten für?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
Deloitte Consulting für Daimler Financial Services (DFS), 2016: Konzeption eines Corporate Memory Systems und Konzeption der Bonitätsbewertung und Betrugserkennung in Echtzeit auf dieser Basis.
Technisch: Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausreißerelimination und grundlegende Kreditwürdigkeit-Schätzalgorithmen. Auswertung von Technologien / Tools für Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow;
Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala.
GfK Marktforschungsunternehmen, 2015: Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten (?Report Production Lines?) mit Cloudera Hadoop, Spark, HBase, etc.
Siemens Corporate Technology (CT), Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption eines Predictive Maintenance Systems für radiologische Geräte mit Teradata Unified Data Architecture (UDA), wurde später Teil von MindSphere: Teradata IDW (Integr. Data Warehouse), Aster (Discovery Platform), Hadoop (Data Platform) mit Hive/Pig (+DataFu)/Mahout, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Oozie, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite.
Allianz Versicherung, 2014: Migrations-Architektur für 600 SAS-Systeme und mehrere SPSS- und Hadoop-Cluster mit statistischen Analyse-Software wie R/Shiny und Apache Mahout.
Bundesarchiv, 2013-2014: Erstellen eines DB-Modells für das DWH des Archivs zur beschleunigten Suche und Auswertung der Daten sowie einer Hadoop-Architektur mit Hive.
Deutsche Post, 2012: Statistische Analyse der Paketflüsse sowie der Nachnahme-Zahlungen und möglicher Betrugsfälle und Security-Incidents mit Microsoft SQL Server Integration Services(SSIS).
Deutsche Telekom, De-Mail-Projekt, 2010-2011: Erstellung einer Hadoop-Architektur, Proof of Concept mit Hive, Pentaho, R/Shiny und Apache Mahout für strukturierte Suche und Auswertungen.
Schwaebisch-Hall/Kreditwerk, 2010: Kunden-Analyse für Marketing, Up-selling und Cross-selling
Banken (Commerzbank, Dt. Bank, Sal. Oppenheim, Sparda Bank, Targo Bank, Citigroup, PostFinance, Schwäbisch-Hall/Kreditwerk, Lloyds Banking Group, 2008-2012): Mehrere Projekte im Bereich Kundenstatistiken, Anti-Money-Laundering (AML)/Know-Your-Customer (KYC) sowie zur statistischen Ergebnis-Validierung und zur Erkennung von ungewöhnlichen Ergebnissen im Rahmen der Abgeltungssteuer, der Versicherungssteuer und sonstiger Berechnungen.
Deutsche Börse, 2009: Ich war im Bereich Indizes und strukturierter Anlageprodukte tätig und wandte Data Mining auf historische Daten an, um optimale Indizes/Derivate vorschlagen zu können.
Institut für Arbeitsmarkt- und Berufsforschung (IAB), 2007-2008: Konzeption einer Mitarbeiterverwaltung mit Analysemöglichlichkeiten sowie von DWH-Datenmodellen (SAS, Cognos, Microsoft SQL Server Integration Services(SSIS)) für den Dt. Arbeitsmarkt.
Daimler und BMW, 2006, 2008: Mitarbeit an der Modellierung der DWHs für die Produkt-Daten-Management-Systeme (PDM).
Ich habe Web-/Text-Mining Software entwickelt zur Extraktion von Informationen aus Webseiten bzw. Dokumenten.
Im Bereich intelligente Suche/Plagiatsuche habe ich mich in entsprechende statische Methoden eingearbeitet.

Meine Erfahrung mit Scala:

Zunächst habe ich einige Jahre lang Erfahrung mit ScalaCheck in Java und dann in Scala gesammelt. Mit dem Siegeszug von Hadoop und Spark habe ich dann in einer Reihe von Projekten direkt in Scala programmiert: Daimler via Deloitte, Siemens, HavasMedia, GfK. Vor allem bei der Nutzung von Spark ist Scala sehr wichtig, da Spark erst damit seine volle Mächtigkeit entfaltet und man es benötigt, um sich über die Funktionsweise der Spark-APIs umfassend informieren zu können.

Meine Scala-Projekte:

Avira Operations, 2017: Konzeption und Implementierung von Inspectrum, einem Apache Spark & Big Data Data Flow Instrumentation & Configuration Framework in Scala.
Credit Suisse, 2017: Konzeption/PoC-Implementierung mit Hadoop/Spark Streaming für einen Business Transaction Store + Analytics-Komponenten.
Itizzimo, 2017: Konzeption/Erweiterung des Simplifier Kernsystems zur Generation von Web- und Mobile Clients um Rechtekonzept und Automatismen für Adapter/Konverter zwischen diversen Systemen.
Cisco Systems für AOK Nordost, 2017: Architekt eines Blueprint-Dokuments zur Integration von Microser-vices mit mobile Apps und Big Data u.A. per DDD.
TecAlliance mit Fraunhofer IESE, 2016: Konzeption der Basisarchitektur für ein Connected Car System mit Hadoop, Spark, Cassandra, Kafka, Scala, etc.
General Electric, 2016: Konzeption/Entwicklung eines Digital Windfarm Berechnungsprojekts, das für jedes einzelne Windrad die Dimensionierung über die Lebensdauer optimiert, realisiert als cloud-basierter Berechnungsservice.
Parfümerie Douglas, 2016: Migration/Erweiterung/Absicherung des Online-Shops, implementiert in Java und Scala.
Daimler Financial Services via Deloitte, 2016: Big Data Projekt mit Hive, Talend und Spark, implementiert in Java und Scala.
GfK, 2015: Konzeption/Implementierung von Predictive Analytics Pipelines mit Hadoop/Spark für die Marktanalyse.
HavasMedia, 2015: Big Data Data Management Platform (DMP) für zielgerichtetes Performance-Marketing im Internet basierend auf der Analyse der Interessen der Webnutzer.
Siemens, 2014-2015: Big Data Projekt im Bereich von Predictive Maintenance von radiologischen Geräten, wurde später Teil von MindSphere.
Ca. 10 Projekte mit ScalaCheck oder Teilanwendung von Scala ? etwa als Ersatz für Python/Perl oder für asynchrone Funktionalität, z.B. bei BG-Phoenics/DGUV, Gematik, Europ. Patent Office, Fiducia, Dt. Telekom, Dt. Bank, Commerzbank, Bank Julius Bär, PostFinance, ?

Mir bekannte Scala-Patterns/Techniken:

Die klassischen Patterns der Gang of Four (GoF) übertragen auf Scla.
Higher-kinded types, higher-order abstractions, Implicits, Case Classes, Traits, Views (ex: Projections), Builders
Cake-Pattern (z.B. für Dependency Injection; Build components which are abstracted over their dependencies)
Microservices/Evolutionary Architecture
Bulkheading/Isolation of Failure
Saga Pattern (managing long-running business transactions)
Stackable traits pattern
Dynamic scope (Make certain information available in a given context without explicitly passing it about)
Utility belt (Lightweight crosscutting resource sharing)
Reactive abstractions (Relationship among Actors, Arrows, FRP, Pub-Sub, ....)
Pimp my library (Extend existing classes with new methods)
Duck typing (structural typing)
Memoization (Memoize the result of a function)
Algebraic data types
Concept pattern

Mir bekannte Scala-Libraries:

Techniken der Integration aller Java Libraries, Build-Tool sbt
Akka (toolkit and runtime for building highly concurrent, distributed, and resilient message-driven applications)
Play (Built on Akka: Lightweight, stateless, web-friendly architecture with predictable and minimal resource consumption for highly-scalable applications)
Spray (REST/HTTP auf Basis von Akka, ersetzt durch Akka HTTP)
Spark (Big Data streaming / data processing library; hat eine Integration mit Scala, Akka und Actors)
Flink (wie Spark)
Lagom, QBit (Microservices)
Scalaz (New Data Types, Extensions to standard classes, general utility functions (ad-hoc polymorphism, traits + implicit parameters + implicit conversions)
Shapeless (type class and dependent type based generic programming library, typesafe casts, heterogenous lists, extensible records, lenses), Shapeless-contrib (integration of Scalaz, Shapeless and Spire)
Spire (Powerful new number types and numeric abstractions)
Cats (Containers, Composition, Algorithms)
Slick (Lightbend ORM mit codegenerator)
Squeryl (ORM and DB DSL)
Finagle (extensible RPC system)
ScalaNLP (Natural Laguage Processing with Breeze, Epic, etc.)
LinAlg (Linear-Algebra Scala Library)
ScalaCheck (Property-based testing)
Rapture Libraries (family of Scala libraries providing beautiful idiomatic and typesafe Scala APIs for common programming tasks, like working with I/O, cryptography and JSON & XML processing)
Twitter Bijection für Datenkonvertierungen.
Scraml (RAML code generator), swagger-codegen.
scodec: Working with binary data: performant data structures for working with bits and bytes to streaming encoding and decoding.
Netflix Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access)
Squants (working with Quantities)
PureConfig, Typesafe/Lightbend Config.
Ammonite (Scala Scripting).
Scalate (Scala Template Engine) mit SSP-Funktionalität (Scala Server Pages)

Meine Ansätze zur Betrugserkennung:

Die Schritte im Data Mining-Prozess sind:

Problemstellung/-Definition beschreiben
Datenerhebung und Verbesserung: Definieren von Datenquellen, Joinen und Denormalisien von Daten, Daten anreichern, Daten transformieren.
Modellierungsstrategien: Auswählen der Algorithmen auf der Grundlage der Modellierungsziele, z.B. Vorhersage, Klassifizierung, Erforschung/Exploration, Affinität.
Training, Validierung und Erprobung von Modellen
Analyse der Ergebnisse
Modellierungs-Iterationen
Feste optimierte Implementierung der Ergebnisse.

Algorithmus-Klassen:

Klassische Verfahren: Gap-Analyse (ausgefallene Zahlung), "klingt wie/sounds like" ähnliche Felder und deren Unterschiede (z.B. Adressen-Betrug), Tests auf Doppelungen (Doppel-Rechnungen), Mitarbeiter, die keinen Urlaub nehmen (auf das Erwischt-werden durch Ersatz-Mitarbeiter zu vermeiden), Datenabgleich (z.B. Bankdaten von Mitarbeitern und Lieferanten), Trends/plötzliche Veränderungen, Ziffern-Auftrittshäufigkeiten in wirtschaftlichen Zahlen (z.B. Rechnungsbeträge).
Regel-basierte Methoden: benötigen Fachwissen zu bekanntem Betrugs-Verhalten, unwirksam bei neuartigen Betrügereien, z.B. zwei fast gleichzeitige Transaktionen mit der gleichen Karte an geografisch verteilten Standorten, geringe vergangene Zeit zwischen den Versuchen, den Maximalbetrag abzuheben, viele kleine Transaktionen.
Überwachte Klassifizierung: Es werden Beispiele von Betrug der vergangenen Jahre benötigt, unwirksam bei neuartigen Typen.
Anomalie-Erkennung: Gut für neue Arten von Abweichungen, nicht gut für bekannte Typen
Änderungs- bzw. Wende-Punkt-Erkennung (z.B. durch ein Diagramm der im Laufe der Zeit ausgegebenen Gelder)
Multi-Level-Methoden (Transaktion / Konto / Kaufmann)
Link-Analyse-Netzwerke: Zwischen Menschen: Betrüger arbeiten nicht isoliert voneinander (z.B. gestohlene oder geklont und weitergegebene Kreditkarten) -> Netze. Zwischen Betrugstypen: Eine Bande, die eine Art von Betrug durchführt, führt wahrscheinlich auch andere Arten durch. Hidden-Markov-Modelle für die Zustandsänderungen.
Segmentierungen: Es gibt bereits Segmentierungen von Finanzverhaltens-Typen, z.B. das FRuitTs System; man kann auch versuchen, Betrugsfälle zu segmentieren, um Betrugs-Verhaltenstypen zu definieren.
Konstruieren Sie eines ?Verdachts-Score', der alle Methoden in Verbindung mit Regeln oder Gewichten kombiniert.

Die am häufigsten verwendeten Algorithmen:

Lineare Diskriminanzanalyse, quadratische Diskriminanzanalyse, regularisierte Diskriminanzanalyse, Naive Bayes, k-nächste Nachbarn, logistische Diskriminanzanalyse, Perzeptronen / neuronale Netze, Maximum-Likelihood-Schätzer, radiale Basisfunktions-Methoden, Vektorquantisierungs-Methoden, nächste-Nachbarn und Kernel-nichtparametrische Methoden z.B. Parzen Kernel, Baum-Klassifikatoren wie CART und C4.5, Support Vector Machines (SVM), regelbasierte Methoden, zufällige Wälder, Mischungen von multivariaten Gauß-Methoden, selbstorganisierende Maps, minimaler Spannbaum-basierende Datenbeschreibung, Minimax-Wahrscheinlichkeits-Maschine, usw.

Modellierungs-Ziele und Data-Mining-Techniken:

Vorhersage
- Regression and logistische Regression
- Neuronale Netze
- Entscheidungs-Bäume
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Unmöglich
Klassifikation
- Entscheidungs-Bäume
- Neuronale Netze
- Diskriminanzanalyse
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Clustering (K-means, etc.)
  - Neuronale Netze
  - Selbst-organisierende Karten (Kohonen-Netzwerke)
Exploration / Erschließung
- Entscheidungs-Bäume
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Principal Components
  - Clustering (K-means, etc.)
Affinität
- Unmöglich
  - Assoziationen
  - Sequenzen
  - Faktorenanalyse

Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:

Vorhersage
- Abrieb / Retention
- Abgehobene Bargeldmenge am Automaten
- Kosten für Krankenhausaufenthalt
- Betrugs-Erkennung
- Kampagnenanalyse
  - Unmöglich
Klassifikation
- Segmentierung
- Markenwechsel
- Ausbuchungen
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentierung
  - Abrieb / Retention
Exploration / Erschließung
- Segmentierung
- Abrieb / Retention
- Scorecard-Erstellung
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentation
  - Profiling
Affinität
- Unmöglich
  - Cross-Selling/Up-Selling
  - Einkaufskorb-Analysis

Konkrete Beispiele von Betrugserkennungs-Lösungen, die ich erarbeitet habe:

Anti-Geldwäsche (AML, Anti Money Laundering), z.B. für Daimler Financial Services (DFS) und Lloyds Banking Group (LBG).
Identitätsdiebstahl
Kreditkartenbetrug
Geldautomaten-Betrug
Betrug / Sicherheitsangriffe auf die elektronische Gesundheitskarte (eGK)
Pass-/Personalausweis-Betrug
Gesundheits-Rück-Erstattungs- und -Rechnungsbetrug
Elektronische Manipulationssicherheit / Widerstandsfähigkeiten gegen Sicherheits-Angriffe (Man-in-the-Middle, Code-Injektion, etc.)

Herausforderungen:

Pareto-Prinzip: Die ersten 50% Betrug sind einfach zu stoppen; die nächsten 25% kosten die gleiche Anstrengung; nächsten 12,5% kosten wieder die gleiche Anstrengung, etc. - nie erreichen wir 100%
Großen Datenmengen können sich sowohl hinter d als auch n verbergen
Die meisten Variablen werden sich als irrrelevant herausstellen
Die meisten Fälle sind nicht Betrug: Klassisches Data Mining Nadel-im-Heuhaufen Problem
Evolutionäres Wettrüsten
Solides Aufsetzen, Ausbalancieren und Skalieren von Präventionsmaßnahmen vs. Erkennung
Solides Aufsetzen, Ausbalancieren und Skalieren von Operationen (Handeln) und Explorationen (Beobachten/Analysieren)
Kann komplexe Datentypen beinhalten (Bilder, Signale, Texte, Netzwerke)
Verschiedene Fehlklassifizierungskosten
Viele Arten von Betrug
Unausgewogene Klassengrößen (ca. 0,1% der Transaktionen sind betrügerisch): Oft sind rund 90% der Betrugsverdachtsfälle in der Tat legitim. Dies ist wichtig, weil operative Entscheidungen getroffen werden müssen (Karte sperren?) und gute Kunden dürfen nicht verschreckt werden.
Verzögerung bei der Kennzeichnung / Verzögerung beim Lernen von Klassen-Labels: Wenn Betrug Alarm ausgelöst wird, dann ist die wahre Klasse schnell bekannt; wenn kein Alarm ausgelöst wird, dann wird er erst nach Prüfen der Abrechnung (durch den Endkunden) erkannt; Dies unterscheidet es vom normalen Paradigma der überwachten Klassifizierung => Banken können nicht immer mit Sicherheit sagen, wenn ein Betrug beginnt
Falsch gekennzeichnete Klassen: Nicht alle betrügerischen Transaktionen werden als Betrug bezeichnet (Kontoinhaber prüfen nicht immer ausreichend sorgfältig); Nicht alle legitimen Transaktionen werden als legitim bezeichnet; Es kann Feinheiten geben, z.B. dass ein Kontoinhaber Transaktionen auslöst und dann behauptet, dass vorher die Karte gestohlen wurde; Solche Transaktionen sind betrügerische Transaktionen, weil der Halter sie als solche erklärt;
Zufällige Transaktions-Ankunftszeiten
(Reaktiver) Bevölkerungs-/Populations-Drift: Betrüger ändern ihre Strategien; jeder Strategie kann viele Varianten haben, die jeweils unterschiedliche Lösungen erfordern: Phishing, Skimming, Schulter-Surfen, libanesische Schleife, falsche Fronten, Fälschungen, Vorschussbetrug (419 Scam, Nigerianischer Überweisungs-Betrug, etc)
Ein-Klassen-Modellierung: Ausreißererkennung kann neue Arten von Anomalien ermitteln, die zuvor nicht gesehen wurden; Prinzip: Bauen eines Modell für die "Norm" für diesen Kunden und erkennen, wenn etwas davon abweicht; "Norm" kann basieren auf a) diesem Kunden gegenüber sich selbst zu früheren Zeiten (jamjarring), b) der Kunde gegenüber anderen Kunden, c) Karten-Verwendungsmuster nach Lebensphase, d) Segmentierung in Kundentypen, e) eine Kombination von diesen.
Mehr-Klassen-Modellierung: Z. B. verschiedene Konto-Nutzungsarten und Lebenssituationen; könnte, über-engineered sein, zu komplex und kostspielig mit zu vielen Fehlalarmen.
Intervention: Sieht aus wie ein Standard-zwei-Klassen-überwachte-Klassifizierungs-Problem. Aber eine Intervention ändert das Ergebnis: Das Vorhersagemodell gilt nicht mehr; das zufällige Zuweisen von Kunden zu Eingreifen (A) / nicht eingreifen (B) Gruppen ist üblicherweise nicht in Bank-Kontexten zulässig; Selektivitäts-Verschiebung; Lösungen: Heckman (Wahrscheinlichkeits-)Methode, Diskriminanzanalyse.

Betriebssysteme

AIX

Android

CentOS

CP/M

Dos

Echtzeitbetriebssysteme

Embedded Linux

HPUX

iOS

IRIX

Linux

Mac OS

MS-DOS

MVS, OS/390

Novell

OS/2

OSF/Motif

PalmOS

pSOS

RACF

Red Hat Enterprise Linux

RTOS (Real Time OS)

SUN OS, Solaris

Unix

VMS

VxWorks

Win32

Win32/Linux

Win64

Windows

Windows CE

z/OS

Programmiersprachen

angular.js

AngularJS

ASN.1

ASP.NET

Assembler

Basic

C++

Clipper

Cobol

COBOL

CORBA IDL

dBase

Delphi

Emacs

Forth

Fortran

Foxpro

Groovy/Grails

Handlebars.js

HPGL, HP PCL

Imake, GNU-Make, Make-Maker etc...

IMAP

Java

Java-Entwicklung

JavaScript

JAX-WS

JAXB

JCL

JEE

jquery

Lisp

Lotus Notes Script

Makrosprachen

Maschinensprachen

MATLAB / Simulink

MDL

Modula-2

Objective C

Paradox

Pascal

Perl

PHP

PL/SQL

Prolog

Python

Relationalen DBMS

Rexx

Scala

Scriptsprachen

Shell

Smalltalk

Tcl/Tk

TeX, LaTeX

VRML

Xt, Motif

yacc/lex

Datenbanken

Access

Adabas

B-Tree

BDE

DAO

DB2

F&A

HBase

IMS

Informix

Ingres

Interbase

JDBC

Lotus Notes

MS SQL Server

MySQL

Object Store

ODBC

Oracle

Oracle Database

Paradox

POET

Postgres

Proprietäre DB

SAS

SQL

Sybase

Teradata

Watcom SQL

xBase

Datenkommunikation

Bus

CICS

CORBA

EDIFACT

Ethernet

Exim

Fax

Internet, Intranet

ISO/OSI

JSON

LAN, LAN Manager

Message Queuing

NetBeui

NetBios

parallele Schnittstelle

PC-Anywhere

POP3

Public Networks

RESTful WebServices

RFC

Router

RPC

RS232

SMTP

SNMP

SOAP

TCP/IP

UUCP

Voice

WADL

WebServices

Windows Netzwerk

Winsock

WSDL

X.400 X.25 X.225 X.75...

Hardware

AS/400

Drucker

Echtzeitsysteme

embedded Systeme

Emulatoren

Industrie-Roboter

Messgeräte

Modem

Plotter

Proprietäre HW

Rational

Sensoren

Steuer und Regelsysteme

Streamer

SUN

VAX

Video Capture Karte

Berechnung / Simulation / Versuch / Validierung

Rapid Control Prototyping (RCP)

Design / Entwicklung / Konstruktion

CATIA

Branchen

Elektronik/Elektrotechnik
Banken
Gesundheitswesen/Pharma/Medizintechnik
Verkehrstechnik
Automobilbau, Automobilwirtschaft
Luftfahrttechnik und Raumfahrttechnik
IT/EDV
Energiewirtschaft/Energieversorgung
Verlagswesen
Maschinenbau
Telekommunikation
Versand/Handel
Touristik
Versicherungen
Handel/Onlne-Marketing und Online-Vertrieb

Einsatzorte

Städte

any (+200km)

Länder

Deutschland, Österreich, Schweiz

Schweiz: Flexibel bzgl. Einsatzort, evtl. auch Ausland.

Arbeitserlaubnis: EU-weite Arbeitserlaubnis, Schweizer Arbeitserlaubnis bis 2020

Weitere Länder: Attraktive Städte/Orte bevorzugt.

Remote-Arbeit

nicht möglich

Projekte

11 Monate

2019-04 - 2020-02

Konzeption eines Open Source SOCs

IT-Architekt, agiler Coach und fachlicher Projektleiter Java Constraint Library(JCL) IASolver YACS ...

Rolle

IT-Architekt, agiler Coach und fachlicher Projektleiter

Projektinhalte

Konzeption eines Open Source SOCs (Security Operations Center)

Splunk: Installation, Konfiguration, Analyse und Anbindung an Input-Quellen, Erstellung von Splunk-Analyse- und Visualisierungs-Use Cases mit SPL (Search Processing Language).
Zukunftsvision der SOC-Architektur erstellt auf Basis von Apache Metron + Kafka + Spark + Elastic/ELK Stack (ElasticSearch, LogStash, Kibana) und Konzeption ihrer Komponentenarchitektur - möglichst mit Open-Source-Tools, um Kosten zu sparen. Dazu viele konkrete Vorschläge zur Verbesserung des SOCs (Security Operations Center), Erstellen einer neuen SOC-Architektur mit KI-Elementen: Big Data/Data Science Ansatz zur Angriffs-/Malware-/APT-Erkennung mit Machine Learning und Fokus auf False-Positives-Reduzierung. Visualisierungskonzept zu Angriffs-Verdachtsfällen mit den jeweiligen Security-Kontexten per Design Thinking
Aufsetzen + Starten des agilen Open Source SOC Projekts: Strategische Planung, Coaching: Zunächst SAFe + Design Thinking zur Beantragung der Projektfinanzierung, dann vereinfachte Durchführung als Scrum-Prozess; Coaching zur Verbesserung der Produktivität und Zusammenarbeit.
Recherche, Test und Analyse der führenden Open Source SIEM/SOC Systeme: Apache Metron / HCP (Hortonworks Cybersecurity Platform), Apache Spot, dataShark, Alienvault OSSIM, Graylog, SIEMonster, Hunting ELK (HELK), Wazuh, MozDef, OSSEC, Prelude OSS, Snort, QuadrantSec Sagan, Suricata, OpenStack Vitrage.
Requirements Engineering, Use Case 2.0 Engineering der SIEM-/SOC-Features allgemein und im Bahnkontext mit Walking-Skeleton-Ansatz. Analyse der Kosten-/Nutzen-Aspekte der Use Cases und deren Abhängigkeiten als Input für agiles Kunden-Wert-basiertes Produktmanagement/Product Owner Tätigkeiten.
Detail-Vergleich von Elastic mit Solr, der führenden JavaScript-Frameworks: React, Angular und Vue.js, die jeweiligen Native-Frameworks (Ionic etc.) sowie Electron Platform sowie der führenden Clouds: Amazon AWS, Google GCP und Microsoft Azure sowie Docker/Kubernetes, Websockets vs REST, GraphQL vs Odata vs ORDS, Vergleich geeigneter DBs, z.B. für Range-Scans, AWS RedShift vs Athena.
Erstellung einer SOC-Gesamtarchitektur mit Umfängen für Minimal-, Basic-, Advanced- und Premium-Konfiguration mit bis zu 100 Komponenten. Auf dieser Basis Analyse und Präsentation der Chancen/Kosten/Risiken zur Erfüllung von Requirements und Use Cases gegenüber Management und Engineering-Gruppen.
Erstellung der SOC Open Source SOC PoC (Proof of Concept) Architektur basierend auf 3 Säulen: Log-Verarbeitung mit Solr/Elastic, Open Source SOC Elementen (RegEx, Match Expressions mit Spark, Kafka, Solr etc.) sowie einer KI-Säule bestehend aus Data Science und Regel-basierter KI mit Spark sowie Deep Learning mit TensorFlow und PyTorch.
Erstellung und Abstimmung des Open Source SOC PoC Projektplans und der Architektur mit dem Top-Management der Bahn (CISO, Technik-Vorstands-Bereich), Erstellung von ca. 10 Job-Profilen und Staffing/Job-Interviews auf dieser Basis.
Beschaffung von Deep Learning GPU PC- und Server-Hardware und von Cloud-Zugängen (AWS+Azure).
Konzeption der Einführung von Docker/Kubernetes für TensorFlow- und PyTorch-Machine-Learning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Evaluierung von Memory-Centric-Tools: Apache Pulsar (schnellere Alternative zu Kafka), memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-Centric Computing, Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Analyse von möglichen Deep Learning Nachfolgetechnologien wie Hierarchical Temporal Memory (HTM), Graph/Memory/Transformer ConvNets (Convolutional Networks) incl. deren frei verfügbaren Implementierungen sowie PLNs (Probabilistic Logic Network): [Naive] Bayesian Belief Networks (BNNs), Markov Logic Networks (MLNs), Conditional Random Fields (CRFs), Direct Graphical Models (DGMs), Statistical Relational Learning (SRL), Stochastic And-Or Grammars (AOGs/SAOGs), Probabilistic Relational Models (PRMs), Markov Logic Networks (MLNs), Relational Dependency Networks (RDNs), Bayesian Logic Programs (BLPs), Probabilistic Graphical Models (PGMs), Markov Random Fields (MRFs), Contextual Graph Markov Models (CGMMs), Hidden Markov Models (HMMs), Human brain neurons (HBNs).
Entwicklung eines neuen Explainable AI (XAI) Verfahrens, das Deep Learning ablösen kann durch Verbindung und Weiterentwicklung mehrerer anderer Modelle und Techniken.
Förderantrag ausgearbeitet zur Beantragung der Förderprogramme KI-für IT-Sicherheit und Erklärbare KI (Explainable AI, XAI) der Bundesregierung: Innovative Ideen entwickelt, neueste KI-, Data Science und Big Data Verfahren und Weiterentwicklungen vorgeschlagen zur Erkennung von ungewöhnlichem Verhalten/Angriffen/Malware sowie neueste NLP-Verfahren zur automatisierten Analyse von textuellen Angriffs- und Malware-Beschreibungen im Internet oder in E-Mails/Wikis sowie der Umsetzung der Cyber Grand Challenge Elemente über Deep Learning, RNNs, CNNs. Hierzu Entwicklung der Geschäftsstrategie und des Geschäftsplans zur separaten Vermarktung der damit geplanten Innovationen.
Erstellen von Sicherheitskonzepten für Windows- und Linux PCs und Sever u.A. bzgl. zahlreicher Sicherheitseinstellungen, IAM mit Red Hat Identity Manager / FreeIPA (Identity, Policy, Audit), keycloak, mehr Logging, etc. sowie durch Installation von bis zu 50 Analyse- und Überwachungs-Tools wie Sigar, Config. Discovery, File Integrity Checker (Afick), CGC Tools: BinaryAnalysisPlatform bap, angr, s2e, KLEE, Strace, ZZUF, BitBlaze.
Konzeption von klassischen Data Science Analysen bzgl. verdächtiger Aktivitäten mit GBM(Gradient Boosting Machine), XGBoost, CatBoost, LightGBM, stacked ensembles, blending, MART (Multiple Additive Regression Trees), Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.

Analyse der besten Deep Learning Netzwerk-Architekturen in den jeweiligen Teilfeldern: ResNet, ResNext, DenseNet, MSDNet (Multi-Scale DenseNet), RepMet, EfficientNet sowie der folgenden NLP-Implementierungen (z.B. zur Extraktion strukturierter Beschreibungen aus textuellen IoC – Indicators of Compromise): BERT, FastBert, SenseBERT, RoBERTa, GPT, GPT-2.
Konzeption/Entwicklung von neuronalen Deep Learning Netzwerk-Architekturen für TensorFlow, Keras, PyTorch mit diesen Elementen: (De-)Convolution, [Dimensional][Min/Max/Average] (Un-)Pooling, Activation Functions, ReLUs (Rectified Linear Units), ELU (Exponential Linear Unit), SELU (Scaled Exponential Linear Unit), GELU (Gaussian Error Linear Unit), SNN (Self Normalizing Network), LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Differentiable Associative Memory (Soft RAM/Hash Table), Episodic Memory, Memory Networks, Self-Attention, Multi-Head-Attention, (Masked Multi) Self Attention, NAC (Neural Accumulator), NALU (Neural Arithmetic Logic Unit), Squeeze-and-Excitation (SE) / SENet, SPN (Sum-Product Network), VAE (Variational Auto-Encoders), FCLs (Fully Connected Layers), PLNs (Probabilistic Logic Networks), GANs (Generative Adversarial Networks), Capsule Networks, gcForest, Differentiable Programming, Neural Architecture Search (NAS), Differentiable Neural Networks, [Transposed](De-)Convolutions, ETL (Extract, Transform, Load) with Input/Output Embedding, (Layer) Normalizing, Softmax, Automatic Machine Learning, Episodic Memory, Differentiable Associative Memory, Large Memory Layers with Product Keys, Deep (Double) Q-Learning, (SSL) Semi-/Self-Supervised Learning, Msc (Adding, Concatenation, Segmentation, Linearization, (Convol.) Filters), Reinforcement Learning, Q-learning, Convolutional Models/Learning, Google Dopamine.
Konzeption der Deep Learning Architekturen für folgende Use Cases / Use Case Slices: Ausbreitung von Malware durch Security-Zonen, Erkennung des (Check-, Verbreitungs-, Ausleitungs-)Verhaltens von Malware, häufiger Angriffe, insbesondere OS-API-Angriffe, Code Injection, etc., von gestohlenen CPU-Zyklen durch Malware, ggf. durch Hooks in Event-Queues zur Erkennung von deren Abarbeitung, von ROP (Return Oriented Programming) mit ROPNN-Variante auf Standard-Libraries durch Vergleich der üblichen mit den zu beurteilenden Einsprungpunkten; Modelle erstellt für Meta-Level: Netzwerk-Metadaten-Analyse, Detail-Level: Nutzdaten-Analyse auf Exploit-Code/-Daten etc., aktuelle Bedrohungen, bekannt gewordene IoCs, Afick-/tripwire-Daten neuronal analysieren, Erkennung von Verschlüsselung und von Schlüssel-Austauschen.
Detail-Konzeption der folgenden Solr-Aspekte: SolrCloud/HDP Search, Integration mit Apache Ranger + Sentry + Atlas, Performance-optimierter SolrJ Client mit parallelen Queries, Distributed Indexing, Index Sharding, Shard Splitting und Rebalancing (auch zur Laufzeit), Cross Data Center Replication (CDCR), Solr Security (Kerberos, AD-Anbindung, SASL, SSL), Versionierung mit Avro & LDP (Linked Data Platform) & Apache Marmotta/RFC 7089, Stretched Cluster vs synched Multi-Cluster, Sizing, Definition der Solr Index Identifier (UID), High Availability (HA) und Disaster Recovery (DR) Mechanismen, Solr HA, Load-Balancing-Konzept (HW-basiert über F5, Ping gegen SolrCloud Node, solr healthcheck, Zookeeper, Content-Query gegen Test-Collection, SolrJ Client), Q Replikation, Konzeption von Overlay-Netzen (SDN, Software-Defined Networking).
Konzeption der Amazon AWS Cloud-Architektur mit Migrationskonzept in die Cloud und vom monolithischen Ansatz hin zu Microservices/Serverless (AWS Lambda), Risiko-Vermeidungsstrategie, Virtualisierung, effizientem JavaScript-UI mit React, Cloud-Sicherheitskonzept, Microservice-Architektur, Microservice-Versionierungsstrategien, optimiertem Datenaustausch, Nutzung des AWS Storage Gateways, AWS Redshift, Relational Database Service (RDS), Simple Queue Service (SQS), Simple Notification Service (SNS), S3, Glue, Kinesis, Athena, DDD (Domain-Driven Design) and Bounded Contexts, Product Line Architecture, Single-Sign-On-Konzept (SSO), etc.
Recherche und Analyse verfügbarer Sicherheits-Incident- und Hacking-Daten als Input für klassisches Machine Learning (Spark MLlib etc.) sowie für Deep Learning (TensorFlow, PyTorch). Es gibt ca. 100 verschiedene Quellen, aber mit Labeling in unterschiedlicher Qualität, unterschiedlichem Konvertier- und Anpassungsaufwand, etc.
Generierung eigener IT-Sicherheits-Trainingsdaten für Machine Learning (ML) über voll-instrumentierte Linux- und Windows-basierte Umgebungen (PC, vmWare), in denen dann ca. 50 PenTesting Tools wie MetaSploit, AutoSploit etc. ausgeführt wurden. Anleitung zur Normalisierung und zum Labeling der so erstellten sowie der externen Daten. Erstellung/Extraktion von regulären Ausdrücken sowie Generierung von ähnlichen Angriffen/Payloads auf dieser Basis.
Konzeption+Entwicklung einer Kontroll- und Steuerungs-Library in Scala für Erkennung und KI, die alle Kernelemente des SOCs monitored und steuert.
Konzeption+Entwicklung einer UI- und Query-Library in Scala, die intelligente Analysen im Kibana-Dashboard mit React visualisiert sowie nach unten über Apache Drill mit Drillbits Query-Mapping in SQL, HQL, Solr und ähnliche Dialekte durchführt. Hierbei haben wir weitgehend Splunk’s SPL (Search Processing Language) als unsere OPL (Open Processing Lanaguage) nachgebildet. Dabei handelt es sich im Wesentlichen um SQL erweitert um Infos zur Darstellung im UI.
Nutzung von Computer Vision Muster-Erkennungsverfahren speziell zur Erkennung von Unregelmäßigkeiten bzw. Malware-/Hacking-Indikatoren: Prozess- und API Aufrufketten, ungewöhnliche API-Nutzung, Indikatoren für Hacker-Bewegungen im Netzwerk, Indikatoren für Malware-Aktivität auf Datei- oder Prozess-Ebene, Nutzung von Laufzeit-Packern, etc.
Entwicklung/Nutzung einer Kombination von datensparsamen Lernverfahren als Antwort auf mangelnde Trainingsdaten. So lassen sich anfänglich aufgrund Datenmangel noch nicht per Deep Learning lernbare Gewichte/Zusammenhänge manuell / halbautomatisch oder datensparsam lernen:

Entwicklung probabilistischer Regeln durch Code-Generierung zur Anbindung von MS Excel bzw. PyTorch/PyProb mittel StringTemplate/VBA an Factorie, ProbLog und Probabilistic Soft Logic (PSL). Diese werden dann später – nach Produktivsetzung – ersetzt durch aus Massendaten gelernte Regelsysteme/Autoencoder.
Probabilistische Programmierung, Bayes- bzw. Stochastik-Libraries, (PP) / Programmable Inference: Stan (mc-stan.org), PyMC3/PyMC4, Soss.jl, Julia + MIT Gen.jl oder Pyro oder Edward oder Microsoft Infer.Net
(SSL) Semi-Supervised Learning/Self-Supervised Learning
Intelligentes Tokenizing, intelligente selektive Feature-Extraktion (hieraus Log- oder Security-Warning-Daten)
Case-Based Reasoning (CBR)/Memory-Based Reasoning (MBR): CRATER, ProCAKE, COLIBRI, etc.
Constraint-based Reasoning, Theory of Constraints (TOC) Frameworks, Hierarchical Constraint Logic Programming (HCLP): Open Policy Agent (OPA) Constraint Framework (OPA CF), Java Constraint Library(JCL), IASolver, BackTalk, POOC, YACS, Integrity
Classical/Probabilistic Rule Engines / Probabilistic Finite Automata / probabilistische endliche Automaten: Virus Scanning Engines wie ClamAV
(Heuristic non-linear) Optimization oder Operations Research Software wie ALGLIB, CasADi, Ceres Solver, Dlib, GEKKO, MIDACO, OpenMDAO, SciPy, GNU Octave, Scilab
Non-linear Planning and Control Libraries: Control Toolbox, AIKIDO, ROS Navigation2+ROS Behavior-Tree, Open Motion Planning Library (OMPL)
SinGAN (Single Input GAN)
Reinforcement Learning, Convolutional Models/Learning, Google Dopamine, Policy Optimization (Policy Gradient, A2C/A3C, PPO, TRPO, DDPG, TD3, SAC), Q-Learning (DDPG, TD3, SAC, DQN, C51, QR-DQN, HER), Deep (Double) Q-Learning, Learn the Model (World Models, I2A, MBMF, MBVE), AlphaZero
klassische KI-Verfahren wie CBR, Constraints, Rules, RDF, OWL,
Gesamte Liste der klassischen datensparsamen Lernverfahren: Causality, logic/deduction systems, deductive databases, semantic networks, heuristics, collective intelligence, automata/state machines, blackboard systems, nonstandard logics/temporal logic, (knowledge) representation, automatic programming, genetic programming, qualitative reasoning, agents, fuzzy logic, model-based reasoning, ontology, quantum computing, analogy, pattern recognition/comparison, decision theory, cognitive science, control system theory, dynamical systems, self-organizing systems, hybrid AI, modularity, optimization, goal-oriented systems, feature extraction/detection, utility/values/fitness/progress, formal grammars and languages, classifiers/concept formation, problem solving, argumentation/informal logic, common sense reasoning, coherence/consistency, relevance/sensitivity analysis, semiotics, game theory, automation, behaviorism, knowledge engineering, semantic web, sorting/typology/taxonomy, cooperation theory, systems theory.

Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den (Teil-)Projekten oder direkter Vorschlag der Lösungen:
- Analyse von Semantik-Tools, Symbolic AI und Explainable AI für das KI-Security-Förderprogramm sowie für neue Arbeitspakete: KL-ONE: Protégé, LOOM, Knowledge Engineering Environment (KEE), Pellet, RacerPro, FaCT++ & HermiT, Non-Linear Planner, CBR (Case-Based Reasoning), RDF (Resource Description Framework)/ SPARQL (SPARQL Protocol and RDF Query Language), OpenCog (AtomSpace, Atomese, MOSES/MetaCog, Link-Grammar), Induktions-/Deduktions-Technologie wie OWL/OWL-DL (Ontology Web Language Description Logics), führende Implementierung: Apache Jena OWL, HPSG (Head-driven Phrase Structure Grammar) Parsing: DELPH-IN PET Parser, Enju, Grammix, Stanford CoreNLP, OpenEphyra, Frame-Logik, Explainable AI mit LOCO (Leave-One-Covariate-Out).
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene.
- Tools/Algorithmen: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, genSim, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- Für NLP Generation: OpenAI GPT/GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Google BERT (Bidirectional Encoder Representations from Transformers).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Konzept für AIops (Artificial Intelligence Operations) / KI-Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
- Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
NLP-Analyse (Natural Language Processing) von Log- und Web-Inhalten:
- Extraktion von Fließtext-IoC-Inhalten (Indicator of Compromise) ins STIX-Format zur teilautomatischen Weiterverarbeitung, etwa automatisierte Suche nach Dateihashes, Analyse & Sperren von offenen Ports und ein-/ausgehenden Verbindungen.
- Semantische Kategorisierung (Problem-Kategorie, Schwere des Fehlers und möglicher Auswirkungen/Risiken, Dringlichkeit) und textuelle NLP-Analyse von Log-Inhalten mit genSim, spaCy und in Teilen auch mit Google BERT, GPT, Graph-ConvNets mit Octavian, Google Sling, TensorFlow graph_nets & gcn (Graph Convolutional Networks), PyTorch Geometric.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).

Kenntnisse

Kunde

Deutsche Bahn AG

Einsatzort

Frankfurt/Main + Homeoffice

5 Monate

2018-11 - 2019-03

Autonomous Driving Projekt

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Rolle

KI- und IT-Sicherheits-Architekt und Technical Lead Meta Data Ma

Projektinhalte

Autonomous Driving Projekt: Self-Driving Cars

Agile Coaching: Scrum + Design Thinking mit Elementen aus dem Flow-Framework (Project to Product) sowie SAFe-Elementen, Verbesserung der Produktivität, Code-Stabilität und Zusammenarbeit.
Strategie zur Fokussierung und Optimierung der agilen DevOps-Team-Performance / Minimierung von Risiken: Die skalierbare Integration Dutzender komplexer teils unreifer Open Source Komponenten ist extrem komplex, weil sie oft je mehrere Hundert Konfigurations-Parameter haben (teils in Config-Files, teils über Aufrufe /Glue Code zu Scripten) und das Job- und Cluster-Situations-bezogen. Zusätzlich sind viele Workarounds oder Fallbacks nötig. Python ist die Risiko-behaftetste Sprach (z.B. weil interpretiert, Fehlerursachen manifestieren sich erst spät, kaum brauchbare Code Quality- oder Refactoring-Tools, wenig etablierte Best Practices, Entwickler kopieren Code von Internet-Trivial-Beispielen und versuchen, damit komplexe Systeme aufzubauen, …). Dann gibt es viele weitere Risiken: Mangelnde Dokumentation, zu wenig kooperative Zusammenarbeit, zu langes Warten auf nötige Inputs/Bottlenecks, zu unvollständig eingeführte Konzepte wie SSO (Single Sign-On) + persönliche Verantwortung, Sicherheits-Features, Logging-/Tracing-Features, stark divergierende wenig wartbare Implementierungen, zu spät bemerkte Limitierungen/Bugs der verwendeten Tools, in der Folge häufiges Umschwenken der Tools, mangelnde Bereitschaft zu Veränderungen (Prozesse, Gewohnheiten und Motivationen), etc.
Entwickelte Lösungsstrategien: Config-Management als Exzellenz-Disziplin + Data Governance / Data Catalogue, AIops (AI Operations), Serverless/Microservices (damit intelligentes automatisches Management und Skalierbarkeit), viele stringente und kontrollierte strategische, taktische und operative Vorgaben aufgrund von Grob-Architektur, Vision und klaren Prioritäten, vollständige Dokumentation, enge effiziente Zusammenarbeit, klare Aufgaben-Verteilung und Planung (strategisches Produkt Management / Portfolio-Management / Produktlinien-Architekturen) mit Berücksichtigung von Abhängigkeiten, Erkennung & Beseitigung von Bottlenecks, intelligentes Monitoring, KI-basiertes Testing (Anomalie-Erkennung in Kombination mit Logging/Tracing) mit mehreren Test-Umgebungen + professionalisierte CI/CD-Pipeline, Code Analyse & Refactorings (Gemeinsamkeiten extrahieren, Utility-Libraries, etc.), Einführung von mehr Code Quality Tools (Analyse/Refactoring/Testing/Tracing/Debugging), Standardisierung/Dokumentation eines jeden neuen Mechanismus (welche Implementierungsvarianten/Tools/Libs/APIs, Namespaces, Stati, Warn- und Fehlermeldungen, welche Diagnose- und Fallback-Mechanismen, Scheduling/Workflow mit strategischer Planung aller Ressourcen und Vermeidung von Deadlocks/Race Conditions, IT-Sicherheit), Erfassung und Nutzen aller Abhängigkeiten (zum Betriebssystem, zu sonstigen Tools/Libs), Definition + Implementierung von Workarounds zu Standard-Problemen wie Stale File Handles, Stale Sockets, Vermeidung von Out-of-X-Meldungen und Thrashing, Netzwerk-Problemen, Ausrichtung auf Veränderungen bei den Prozessen, den Gewohnheiten und den Motivationen, etc.
Security-Konzept für Docker/Kubernetes/K8s: kubectl, Docker Authentication on Kubernetes pods, AuthN/AuthZ Methods wie UMA 2.0 (Federated Authorization for User-Managed Access), OpenID Connect mit keycloak über Translations, Kubernetes RBAC & User Impersonation, Volume Type Whitelisting, SELinux/seccomp/AppArmor, System Call Filter, Kubernetes Helm Sicherheitslimits & Verbesserungen, DEX vs Keycloak, SSSD PAM module (POSIX) für MapR Filesystem/HDFS, MapR Container Location Database (CLDB), etc.
Vorschlag von Architekturen / Verbesserungen: Zero-Downtime-Architekturen, schnelleres Dateneinlesen, Autonomes-Fahren-Analysierer / robotic-drive analyzer (RDA), Messaging/Workflow und Containerisierungsarchitekturen.
Konzeption der Microservices/APIs, u.A. für die Metadatenverwaltung, Machine Learning Parameter, ...
Optimierung der Real-time Data Ingestion Verfahren für hochauflösende Self-Driving Car Video- und Sensor-Daten (TB-PB Datenmengen) in einen MapR Hadoop Datalake mit MapR-DB und Ceph Storage (Reliable Autonomic Distributed Object Store (RADOS)), etcd (distributed key value store) mit LoadBalancer (LB), Real-Time Monitoring mit Prometheus und Elastic/ELK.
Konzeption der Einführung von Docker/Kubernetes für TensorFlow-MachineLearning: Vergleich mit der Alternative containerd mit GRPC, Docker Registries mit YAML für Kubernetes, Flannel (layer 3 network config). Kubernetes Tools: kubelet (primary node agent), kube-proxy, Container Runtime, (High Availability) HA endpoints, kubernetes-ha, Kube-apiserver, kubeadm, cluster autoscaler, scheduler, Helm (Kubernetes Package Manager, Microservices), Tiller (Helm server part), Ingress (load balancing, SSL termination, virtual hosting), kube-keepalived-vip (Kubernetes Virtual IP addresses using keepalived), Kubespray (Deploy a Production Ready Kubernetes Cluster). Analyse von Kubernetes & Airflow Failure Stories auf Risiken und Ableitung von Best Practices/Empfehlungen.
Scheduling-Konzepte mit Airflow, LocalExecutor, Celery (Distributed Task Queue), CeleryExecutor, RabbitMQ, Dynamic Workflows mit DAGs/SubDAGs mit PythonOperator/BashOperator, upstream/downstream/X-COM, Backfill, Catchup, Kubeflow, Seldon Core.
Parallelisierung/Optimierung/Skalieren/Wiederaufsetzen/Fortführen von Deep Learning und speziell TensorFlow-Pipelines und supervised Optimierungszyklen, u.A. mit Spark: Horovod (Training + HorovodEstimator für TensorFlow, Keras, and PyTorch), TensorFlowOnSpark, TensorBoards, TensorFrames.
Auf maximale Performance und Durchsatz optimierte Apache Spark basierende Scheduling-Konzepte mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT: Data-Locality-Optimierung und Minimierung datenintensiver Operationen: Custom Spark Scheduler/Spark Task/DAG/SubDAG Combiner für Dynamic Workflows (In-Memory-Optimierungen), Deep Learning Pipelines, Horovod, TensorFlowOnSpark, TensorBoards, TensorFrames, Data Lineage Optimierungen.
Review aller Security-Aspekte: Airflow, Kubernetes, Docker, Zeppelin, Spark, Java-Sicherheit mit Apache Shiro/Spring Security, sichere Speicherung von Anmeldeinformationen im Unix-Dateisystem, Github, Soft/Hard PSE (Personal Security Environment) mit z.B. SSO (Single Sign On with CA SiteMinder, PAI, OpenId Connect), CyberArk Password Vault + IAM + Privileged Threat Analytics (PTA), SSO oder GPG + Ansible Vault, etc.
Hilfe/Review bei Angular-basierten Visualisierungen, insbesondere für Grafana (zunächst in Angular, dann in React weil Grafana von Angular auf React migriert wurde).
Erstellung eines umfassenden Testmanagementkonzeptes zur Verbesserung der Stabilität von entwickeltem Code mit den Schwerpunkten Datenaufnahme, KI, DevOps, CI/CD-Pipeline (Continuous Integration/Deployment mit Jenkins und Sonar(Qube)), Metadaten und IT-Sicherheit zur Kanalisierung und Verbesserung von Code durch Developer-Test-, Integrationstest-, Pre-Prod- zu Prod-Umgebungen).
Konzeption eines Objekt-Erkennungsmoduls im Rahmen der Computer Vision: Erkennen von 2D-/3D-Objektteilen, Registrieren/Stitchen der Teile zu einem Gesamtobjekt und Objekterkennung: Z.B. Menschen, Verkehrszeichen, Fahrzeuge in verschiedenen (Teil-)Ansichten mit TensorFlow und PyTorch. Wesentliche Algorithmen des Hybrid-Verfahrens: Iterative Closest Point (ICP) with landmarks , Efficient SparseICP, Shape Registration, Depth Maps, Combined fusion approaches, 3D Regression, 3D (boosted) Decision Trees (XGBoost), 3D Pointcloud Triangulation/Voronoi & Surface Normals, Deformable 3D Object Matching, LIDAR+RGB Fusion, PointRCNN, ContFuse, Valeo Complex-YOLO, 3D YOLO, LaserNet++, Apple VoxelNet, Core Approximation Matching, Generating/Comparing 3D Voxel Exemplars (NEC), Data-Driven 3D Voxel Patterns for Object Category Recognition, Multi-Scale DenseNet (MSDNet), DensePose (real-time body pose estimation), RetinaNet, Aptiv/nuTonomy: PointPillars, SSD: Single Shot (MultiBox) Detector, ‘Residual Learning’ (Resnet) Variants, ResNeXt, VoteNet Deep Hough Voting, AVOD: Aggregate View Object Detection network, Baidu: Multi-view 3D networks (MV3D), Frustum PointNet Detection, Uber: ContFuse (Continous Fusion), 3D Labeling Tool LATTE.
Recherche/Analyse/Erweiterung aktueller Ideen/Tools zu technischen Knackpunkten in den Projekten für den Lieferanten DXC und Weitergabe an den DXC-Vertrieb zur Akquise neuer Arbeitspakete oder direkter Vorschlag der Lösungen samt passenden Autonomous-Driving-Use-Cases an die relevanten Ansprechpartner in den Teilprojekten:
- NLP (Natural Language Processing) / Computerlinguistik Forschung & Auswertung: Analysieren/Parsen natürlicher Szenenbilder zusammen mit dem textuellen Parsen von Bildunterschriften/Beschreibungen aus dem Internet zum Trainieren von Bildverarbeitungsmodellen (Stanford CoreNLP-Ansatz); Klassifizieren von Trouble Tickets / Texten in Kategorien/Aktualitäten; Wartung / Gelernte Lektionen: Analyse textueller Berichte von Technikern über IT-/Fahrprobleme und autonome Fahrtenschwierigkeiten (falsche Klassifizierungen/Reaktionen) für Erkenntnisse/Feedbacks auf NLP-Ebene; Generieren von a) Beschreibungen für Fahrer, welche Art von Trainings-Situationen im Straßenverkehr anzustreben sind, b) Um welche Art von Fehlerursachen es sich bei gegebenen Symptomen handeln könnte als Liste oder Text.
- Tools/Algorithmen: OpenAI GPT-2 (Generative Pre-trained Transformer), Facebook XLM (Cross-lingual Language Model Pretraining), Facebook PyText (NLP Modeling Framework, auf PyTorch), Google BERT (Bidirectional Encoder Representations from Transformers), Kombinierte Multi-Task-Modell-NLP, Vortraining kompletter (Sprach-/Tiefenlernen) Modelle mit hierarchischen Darstellungen, Aufmerksamkeitsmodelle, DLNLP (Deep Learning NLP: Embed, Encode, Attend, Predict), Hierarchical Multi-Task Learning Model (HMTL), semi-supervised Lernalgorithmen zur Erstellung von Proxy-Labels auf unmarkierten Daten, BiLSTM, SalesForce MetaMind-Ansatz, DeepMind, Deep Transfer Learning for NLP, vortrainierte Sprachmodelle, Worteinbettungen / Worttaschen, Sequenz-zu-Sequenz-Modelle, Gedächtnis-basierte Netzwerke, Gegensätzliches Lernen, Verstärkungslernen, semantische Rollenkennzeichnung, Repräsentationslernen, Textklassifizierung mit TensorFlow Estimatoren, word2vec, Vektor-Raum-Modell/Mapping von Features zu Einbettungen, Skip-Grammen, Seq2seq Encoder-Decoder, ULM-FiT, ELMo, OpenAI Transformer / GPT, Google BERT, BERT, Transfer Learning, OpenAI Transformer, spaCy + Cython zur Beschleunigung, OpenNMT (Neural Machine Translation), AllenNLP (auf PyTorch), OpenNLP, Verstärkungslernen zum Erlernen korrekter Klassifizierungen/Labelzuweisungen/Fragen & Antworten, tief latente Variablenmodelle, Visual Commonsense Season Reasoning, Modell-agnostisches Meta-Learning (MAML), Multi-Hop-Denken, Aufmerksamkeitsmasken für (Self-Attention) GANs (SAGAN), TensorFlow Lingvo (NLP sequence models), OpenEphyra (Teil von IBM Watson).
- KI/AI/Data Science/Big Data: Algorithmen und Tools: LSTM vs. GRU, Feast AI Feature Store, K8s Sidecar Injector, TensorFlow 2.0 (Vorteile von Update/Migration), Tensor Comprehensions, Style GANs, Neural Ordinary Differential Equations, Visual Common Sense Reasoning, Deep Learning, RNNs, CNNs for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning, RNN, CNN Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber’s QALM (QoS Load Management), Fusion.js (JS framework supporting React, Redux & pre-configured optimized boilerplate, hot module reloading, data-aware server-side rendering, bundle splitting, plugin-architecture, observability, I18n), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), Ludwig (train and test deep learning models without coding), AresDB (Uber's GPU-powered real-time analytics engine), Uber‘s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow, Kubernetes Operator für Apache Spark, FastAI Deep Learning, Polygon-RNN++, Flow Framework: Project to Product Agile Process, IntelAI OpenVINO (inference serving component for AI models), IntelAI Nauta (distributed computing environment for running DL model training), TensorFlow Extended (TFX), Salesforce Einstein TransmogrifAI (machine learning automation with AutoML), OpenCV (Open Computer Vision Library), GluonCV, Angel-ML (handling higher dimension ML models), Acumos AI (design, integration and deployment of AI models; AI Model Marketplace), (Paddle EDL: Elastic Deep Learning framework: optimizes deep learning job and waiting time in the cluster: Kubernetes controller & fault-tolerable deep learning framework: PaddlePaddle & TensorFlow), Pyro (Deep Probabilistic Programming Language), Jaeger (OS distributed tracing system, optimized for microservices), EAST (Efficient and Accurate Scene Text Detector).
- Vorschläge zur Deep-Learning-Beschleunigung u.A. mit aktuellen Publikationen (z.B. Modell-Kompression, Nutzung von HW-Eigenschaften) sowie der Integration von Domänen-Wissen/Semantik/Regeln/Entscheidungstabellen/Ontologien/Erklärbare-KI-Ergebnissen in Deep Learning; Entwicklung von optimierten Hybrid-Learning-Modellen (Deep [Reinforcement] Learning mit klassischen Lernverfahren kombiniert).
- Machine Learning / Image / Video-Analyse-Tool Recherche und Integrationskonzepte für Sensor Fusion, sonstige Daten-Zusammenführung, Massendatenverarbeitung, UML-Software-Architektur: OpenCL (Computing Language für div. HW Plattformen), OpenCV (Computer Vision), OpenVX (Vision Cross-Platform), Vulkan, OpenGL (ES), CUDA, nVidia GPU Toolkits wie VulkanRT.
- Explainable AI (XAI) Techniques: Individual conditional expectation (ICE) Plots, Partial Dependence Plots (PDPs), SHapley Additive exPlanations (SHAP), Local Interpretable Model-agnostic Explanations (LIME), Counterfactual method, Causality, Leave One Covariate Out (LOCO), Layer-wise Relevance, Propagation (LRP), Generalized additive model (GAM), Learn to Explain, Anchors: High-Precision Model-agnostic Explanations.
- Konzept für AIops (Artificial Intelligence Operations) / KI-basierte Betriebs-Optimierung im Kontext Metadatamanagement und Ingest:
  - Konzept für die Einführung eines CMS (Config Management System) zur Minimierung menschlicher Fehler bei der Programmierung / Ausführung der Skripte: Alle relevanten fest programmierten Parameter wurden in eine separate CMS-Datenbank oder minimal in umgebungsspezifische Konfigurations-/Property-Dateien extrahiert. D.h. ein Parametersatz für die Entwicklungsumgebung, einer für die Testumgebung,.... bis zur Produktionsumgebung (Python NetworkX, Snowflake, …).
  - Konzept zur Skalierung und Beschleunigung von KI-Workloads, Verwaltung komplexer Workloads, Beschleunigung der Entwicklung und Bereitstellung statistischer Modelle, Voroptimierung in Plattformen für KI-Workloads: Datenaufnahme und -aufbereitung, Datenmodellierung und -schulung, Datenbereitstellung und -betrieb, Integration von maschinellem Lernen mit vorgefertigten Blueprints für Chef/Puppet/Ansible/Airflow, automatisierte Speicherkapazitätsbereitstellung, vorausschauende Speicheroptimierung (in hyperkonvergierten Umgebungen), KI, die hyperkonvergierte Hardware zur Anwendungsbeschleunigung konfiguriert, Passwort und "PII-Discovery" (PII = Personally Identifiable Information), wann Lasten mit hohen CPU-/GPU-Anforderungen und -Nutzungsdauern zu starten sind (die z.B. zu Deadlocks/Timing-Problemen oder dazu führen können dass andere Jobs warten müssen), wann Deep Learning/KI-Jobs mit geringerer Priorität zu starten sind und wann Ressourcen auf hochpriore Jobs/Lasten verschoben werden müssen, wann Diagnostik-Sammelprozesse nach Warnungen/Fehlern/Ausfällen gestartet werden, …
- Vorschlag, Ausarbeitung und Diskussion der geplanten/angebotenen Arbeitspakete zu Techniken, Tools und Innovationen mit Automobilherstellern und anderen Kunden.
- Data Science-Beratung sowie Management-und Konvertierungskonzepte für Machine-Learning-Modelle mit ONNX (Open Neural Network Exchange: High-performance optimizer and inference engine for machine learning models and converter between TensorFlow, CNTK, Caffe2, Theano, PyTorch, Chainer formats).
Projektende: Daimler und BMW haben ihre Autonomous-Driving-Aktivitäten offiziell zusammengelegt mit entsprechender Re-Organisation.

DS-Ansatz (Data Science):

Produkte

Kunde

DXC für Daimler und BMW

Einsatzort

Süddeutschland

1 Jahr

2017-12 - 2018-11

Aufbau des SOCs (Security Operations Centers)

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Rolle

Full Stack IT Architekt: Applikationen, Netzwerk, Security/DSGVO

Projektinhalte

Konzeption der Security-Maßnahmen für das neue SAP Core Banking System als Security Architect.
Überprüfung von Use Cases auf Relevanz für DSGVO/Datenschutz und Erstellung entsprechender Bewertungen, Ausfüllen von DSGVO-Formularen.
IAM (Identity and Access Management): SAP NetWeaver Identity Management (IdM) eingeführt mit SAML, OAuth, OpenId Connect, Kerberos; Konsolidierung der IAM-/IdM-Funktionalität, die vorher über verschiedene Technologie-Inseln verteilt waren wie LDAP, Active Directory (AD) Federation Services (ADFS), RACF, Oracle Enterprise Directory Server (OEDS), Lotus Notes Domino, etc.
Vorschlag von abgeleiteten IT-Security-Architektur- und DSGVO-Maßnahmen auf Basis der vorhandenen Grob-Architektur, Konzept für Privileged Account Management (PAM) und weitergehende Sicherheits-Maßnahmen.
Zukunftsvision der SOC-Architektur und Konzeption ihrer Komponentenarchitektur - mit möglichst vielen Open-Source-Tools, um Kosten zu sparen und neuesten KI/AI (Künstliche/Artificial Intelligence) und Machine Learning Frameworks: Spark + MLLib, XGBoost, ….
(Weiterer) Aufbau des SOCs (Security Operations Center) als Architekt/PM mit am Ende ca. 60 Security-Tools. Davon wurden ca. 15 Tools neu eingeführt. Deren Einführung sowie die Integration und Automatisierung eines Großteils der Tools habe ich insbesondere konzipiert und in Teilen programmiert: Automatisierte Echtzeit-Datenflüsse und Reduktion von False-Positives.
Red-Blue-Team Testing / Penetration Testing / PenTesting und Verteidigung, insbesondere bzgl. der Verwundbarkeit gegenüber aktuellen Exploits und den Indikatoren im SIEM und den Folgen/Risiken für die IT und der Optimierung der möglichst schnellen Erkennung mit wenigen False Positives.
Evaluierung der Risk Management Frameworks IRAM2, FAIR, OCTAVE, COSO gegen den MaRisk-Standard von 2017 und BAIT (Bankaufsichtlichen Anforderungen an die IT).
Erweiterung und Umsetzung von Vulnerability Management, Patch Management und Security-Standards-Compliance sowie Dokumentation dazugehöriger Risiken.
Patching-/Risk-Projektmanager Germany bzgl. Meltdown/Spectre (CPU Bugs).
Mitarbeit bzgl. IT-Sicherheit an der R3/Corda Blockchain Implementierung der HSBC in Kotlin mit über 100 anderen Banken und Vorbereitung der Herausgabe des Utility Settlement Coins (USC) der Großbanken sowie der Anbindung der Big Data basierenden Bank-eigenen Fraud Detection Lösung, z.B. bzgl. Security-Anbindung per BlueTalon + Ranger.
Integration von Security-Systemen per Serverless-Architektur über Google Cloud Functions per REST APIs mit Go: Automatisierte Integration von Configuration Management, Nessus- + Tripwire-Security Scans (Windows/Linux Datenbanken: Verwundbarkeiten und Compliance-Einstellungen) sowie der datenbankbasierten Auswertung der Scans (manuelle Gewichtungen) und Weiterleitung/Eskalation der Ergebnisse.
Mitentwicklung von Mobile-App- und Cloud Security Standards, insbesondere für Hybrid Clouds mit dem Google Cloud Stack, z.B. der Software-Defined Perimeter Ansatz.
Architektur obiger APIs nach Open Banking Standard mit Mulesoft AnyPoint Platform (API Gateway, App execution, API Repository & Portal, API Designer, Runtime Manager, CloudHub, Private Cloud, AnyPoint Studio).
Beratung der Architekten und Entwickler-Teams bzgl. sicherer Konzeption/Entwicklung, sicherer Anbindung von Security Libraries (z.B. Spring Security, SAML, OAuth, LDAP, OpenId Connect), Patchen von Library-Verwundbarkeiten (Vermeiden/Minimieren der Verwendung von anfälligen Versionen: Lösungen und Workarounds) und Security Code-Review mit Tool-Unterstützung (ConQAT + Teamscale von CQSE, Support Query Framework (SQF) und Code Inspector von SAP (ABAP), Micro Focus Fortify, LGTM, Semmle, FindBugs, PMD, SonarQube, Checkstyle, etc.) im Rahmen von TQE (Total Quality Engineering).
Beratung bei der Weiterentwicklung der Asset Management und Configuration Management Datenbanken/Systeme um priorisierte Risiko- und Gegenmaßnahmen-Einschätzung in Richtung des statistischen Common Criteria Ansatzes.
Internal Reviews/Assessments, Erstellen von Management Self-Identified Issue (MSII) Berichten als Vorbereitung für offizielle Reviews/Assessments.
Business Impact Analysis (BIA) und Global Application Security Risk Assessments (GASRA).
Business Process Definition / Optimization / Re-Engineering: Network Based Intrusion Prevention (NIPS), Vulnerability Management, Privileged Access Management, Testing & Patching, Anlegen/Anpassen von Beantragungs-/Entziehungs- und Überwachungsprozes-sen mit Neocase Advanced BPM Suite / NEO Process Manager.
Security-Architektur für einen Amazon-Cloud- und Serverless-PoC: AWS, Fargate, S3, EC2, VPC (Virtual Private Cloud), IAM, RDS, RedShift, Aurora, DynamoDB (Rel. DBs), Neptune (Graph DB), ElastiCache (In-Mem-DB), Elastic Beanstalk (Orchestration Srv), CloudTrail (Sec. Log), STS (Secure Token Srv), EKS (Elastic Kubernetes Service), EBS (Elastic Block Store), OpsWorks (Config Mgmt), SQS (Simple Queue Srv), CloudWatch (Billing/Metrics), Docker, Kubernetes, Kubeless, Go.
Security-Architektur für PoCs mit Blockchain for trade (We.Trade, Voltron, R3/Corda), Biocatch, Microplatforms, Eclipse Microprofile (Hammok, Red Hat Wildfly Swarm, Open Liberty/WebSphere Liberty), JWT, OpenTracing, MicroNaut, ThreatMetrix, UNSilo, Skytree, TidalScale, DataRobot, data iku, Ayasdi (AML), Quantexa, Seldon.io, gVisor.
Unterstützung bei der Einführung agiler Prozesse: Design Thinking (Empathie-Maps, Personas, User Profile Canvas, Value Proposition Canvas, Business Model Canvas, Business Ecosystem Canvas, Customer Journeys, HOOK (Trigger, Action, Variable Reward, Investment), SCAMPER (Substitute, Combine, Adjust, Modify, Put to other uses, Eliminate, Rearrange), MVP, MVE (Minimum Viable Ecosystem), Virtuous Loops, Systems Thinking, Business Ecosystem Design, Lean Canvas, NABC (Needs Approach Benefits Competition), SWOT) in Kombination mit DAD (Disciplined Agile Delivery) und SAFe (Scaled Agile Framework) – insbesondere Coaching und Halten von Präsentationen zu den Risiken agiler Verfahren – u.A. durch das Entfallen der Architektur-Phase (siehe meine Social Media Accounts), Mit-Einführen von WorkHacks (= LifeHacks für den Beruf).
Konzeption + (Teil-)Implementierung einer automatisierten Microservice/Serverless System-Security- und Vulnerability-Assessment und Reporting-Komponente in Python3 und JavaScript (mit PhantomJS, CasperJS, Bootstrap, a2ps), die automatisiert HTML- und PDF-Reports erzeugte aus Statistical Common Criteria Bewertungsergebnissen, Nessus- + Tripwire-Scan-Ergebnissen, CMDB-Infos (Config Mgmt DB namens ITDoku) etc. mit Integration zu diversen Systemen (Lotus Notes, CMDB, Excel-Dateien, Oracle-DB, CyberArk Password Vault + IAM + + Privileged Threat Analytics (PTA), Inventory-Systemen zum Check der Kritikalität (BIA/GASRA), Installationsstatus von Security-Tools, etc.) per REST APIs, SysCalls und OAuth.
Insgesamt ca. 50 Verbesserungsvorschläge unterbreitet/umgesetzt, vor allem zur Verbesserung des SOCs / der effizienten Erkennung, Priorisierung und Beseitigung von Risiken/Angriffen.
Erstellung/Erweiterung/Schärfung von ca. 150 QRadar SIEM Use Cases für zielgerichteteres Security-Monitoring mit weniger False Positives oder weniger manuellem Nachrecherche-Bedarf bei Alerts (Minimierung der manuellen Aufwände).
SIEM-Alternativen: Evaluation von
- ElasticSearch + Norikra Schemaless Stream Processing + Esper CEP (Complex Event Processing) + Apache Nifi + Kafka + Fluentd für SIEM Use Cases/Alerting, Datenextraktion aus Protokollen per WireShark-Plugins (z.B. bzgl. SMBv1 + v2 Exploits [EternalRomance, EternalBlue, EternalChampion, WannaCry]),
- Apache Metron (ex: Cisco OpenSOC) + Blitz Incident Response + Apache Nifi + Hadoop + Apache Solr/HDP Search + Ranger + Atlas, Technologie-Workshops. Konzeptionen zu:
  - Dokumenten-Id-Vergabe und expliziter Verteilung der Dokumente auf Shards/Replicas und dessen Tracking.
  - Parallelisiertem SolrJ-Client optimiert auf Antwort-Geschwindigkeit.
  - Loadbalancer-Switching-Logik.
  - Schutz gegen bösartige Ambari-Administratoren.
  - Integration der Lösung in das Single Sign On (SSO) Konzept mit Identity & Access Management per LDAP, SASL, explicit TLS.
Konzeption/Implementierung eines Apache Spark + MLlib + Kafka basierenden Data Science und Machine Learning Systems zur Erkennung von Incidents/Malware/Netzwerk Anomalien mit H2O.ai.

DS-Ansatz (Data Science):

zur Erkennung von Incidents/Malware/Netzwerk-Anomalien

Produkte

Kunde

HSBC Trinkaus & Burkhard AG / HSBC Deutschland, größte Bank Europas, World?s Best Bank 2017 nach EuroMoney

Einsatzort

Düsseldorf, Homeoffice

4 Monate

2017-09 - 2017-12

Plattform- und Umgebungs-Aufbau

Coach: Big Data Architektur & Data Science Red Hat OpenShift Docker Kubernetes ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Plattform- und Umgebungs-Aufbau für diverse Predictive-Analytics Teilprojekte (insbesondere von Marketing-Effekten und Supply-Chain-Prognosen bzgl. benötigten Mengen/Preisen etc.)
Coach: Big Data Architektur, Data Science, Test Management
- Zwecks Einarbeitung & Coaching-Grundlage: Erhebung der Ist-Situation bzgl. Tools, Algorithmen und IT-Umgebungen; Mitarbeit bei der Erstellung von Ab Initio Graphen/Lineages als ETL-Pipelines unter Integration von Teradata BTEQs/ActiveBatch/SQL, R, Python, Spark, Hive, SAP, MicroStrategy.
- Big Data und Data Science Architekturberatung: R on Spark mit SparklyR vs. SparkR, Hive/Beeline Query Optimierung, Integration mit Teradata QueryGrid/Teradata Connector for Hadoop (basierend auf Sqoop).
- Konzeption/Entwicklung von AbInitio ETL-Pipelines mit GDE/TRMC/EME, Express>It (BRE), Conduct>It (CC), Query>It, Metadata Hub (EME).
- Vorschlag und Mit-Auswahl von BI & Analytics Use Cases: Promotions (Angebote/Preisveränderungen (PV)), Dynamic Pricing, Backschema, Category Management, Palettenfaktor, Kollisortierung, Shopping Missions, Einkaufs-Planung, Logistik-Planung, Rücksende-/Rückläufer-/Remittenden-Planung.
- Mitarbeit im Predictive Modelling von Marketing- und Logistik-Prozessen und der Vorhersage des Effektes von Sonderangeboten und diversen Werbemaßnahmen.
- Beratung zur Auswahl eines Workflow-Management-Tools Oozie, ActiveBatch, Azkaban (LinkedIn), Airflow (Airbnb), Scripting.
- Berechtigungskonzept mit Apache Ranger, Rechte-Datenbank & LDAP für Hortonworks Hadoop miterstellt.
- Erstellung von Cross-Platform Packaging-, Versioning-, Deployment- und Dependency-Management-Konzepten für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy mit Conda/Anaconda, Python, sbt, Java 9 Platform Module System (JPMS) = Project Jigsaw, etc.
- Virtualisierungskonzepte erstellt für alle Tools mit VMware, Docker, Rancher und Kubernetes, einschließlich Netzwerkkonnektivität, Debugging, Tracing und Monitoring-Funktionen.
- Erstellung eines 400-seitigen Test-Management-Konzepts incl. ETL- und BI-Testing mit IT-Security für 6 Test-Umgebungen sowie für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP, Ab Initio, MicroStrategy, Continuous Integration/Deployment mit Jenkins und Sonar(Qube).

DS-Ansatz (Data Science):

Kenntnisse

Kunde

Schwarz-Gruppe (Lidl & Kaufland), größter Europäischer Handelskonzern, BI & Analytik

4 Monate

2017-06 - 2017-09

Marketing-, Produkt- und Security-Analytics

Coach: Big Data Architektur & Data Science OpenShift Cloudera Hadoop Apache Spark ...

Rolle

Coach: Big Data Architektur & Data Science

Projektinhalte

Marketing-, Produkt- und Security-Analytics mit Apache Spark und Scala

Konzeption und Implementierung von Inspectrum, einem Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala: Über JSON/HOCON (Human-Optimized Config Object Notation) Konfigurationsdateien konnten am Ende beliebige Datenflüsse über Spark und sein Ökosystem (incl. Umsystemen) konfiguriert statt programmiert werden mit erheblicher Zeitersparnis. Anbindungen wurden konzipiert für Hive, HBase, Couchbase sowie eine Daten-Filter-Komponente und Virtualisierungen der Komponenten mit Docker, Kubernetes, Rancher.
Architekturberatung bzgl. Real-time Use Cases und deren Umsetzung mit Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT; Datenbanken, Data Science Algorithmen; Architektur von HBase-Datenstrukturen; Pro-Contra-Beratung zum Einsatz von Apache Kudu, Impala, HBase, Cassandra, Scylla DB, MariaDB, PostgreSQL, Druid, Aerospike.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io, Apache OpenNLP (Natural Language Processing), NLTK (Natural Language ToolKit: tagging/chunk parsing), Apache UIMA (Unstructured Information Management architecture/applications).
Data Science Beratung: Vorschlag von Verfahren zur Informationsgewinnen fürs Marketing, für Produkt-Analyse und Security-Analysen sowie für den Avira Boot Optimizer. Vorschlag von Algorithmen für die Nutzung/Analyse der gewonnenen Infos, etwa durch das In-Product-Messaging, den Antivirus, etc.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Integration von SailPoint IAM mit Big Data über Apache Sentry.

DS-Ansatz (Data Science):

Kenntnisse

OpenShift Cloudera Hadoop Apache Spark Couchbase HBase R Python SparkR CentOS Intellij IDEA git Github Docker Kubernetes Apache Sentry Scrum-Prozess.

Kunde

Avira Operations

Einsatzort

Tettnang, München, Homeoffice

4 Monate

2017-05 - 2017-08

Make or Buy Entscheidungs-Vorbereitung

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case RedHat OpenShift Red Hat 3scale API Management IBM Watson ...

Rolle

Coach: Big Data Architektur, Data Science Aspekte sowie Use-Case

Projektinhalte

Marketing-Strategie Beratung per Design Thinking mit Customer Journey Mapping und Dokumentation der Kunden-Firmen-Touchpoints bzw. Interaktionen, Vermittlung des relevanten Wissens zu den neuesten Programmatic Marketing Ansätzen und den entsprechenden Data Science Grundlagen. Einführung in Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP). SWAT-Diskussionen (Strengths/Weaknesses/Opportunities/Threats) dazu initiiert und geleitet.
Recherche von möglichen Anbietern in obigen Bereichen mit Schwerpunkt auf Customer Intelligence (CI), Customer Data Platforms (CDPs) und Marketing Automation Platforms (MAP) und Kontaktieren der Anbieter: IBM Interact, Oracle Real-Time Decisioning (RTD), SAS Customer Decision Hub, Pega Customer Decision Hub, Adobe Marketing Suite/Cloud, Prudsys, SC-Networks Evalanche, PIA/Dymatrix DynaCampaign, DynaMine, CrossSell, ComArch, FIS Global, DMP-Produkte (AdForm, The Adex, Annalect, Otto, Xaxis Turbine, Acxiom, ...).
Erarbeitung der Use-Cases nach Use Case 2.0 Ansatz (inclusive MVP – Minimal Viable Product) mit dem Marketing-Fachteam (besonderer Fokus auf mögliche Echtzeit-Anforderungen/Use Cases) und Bewertung der möglichen Cash Flows sowie der verschiedenen KPIs wie ROI, NPV (Net Present Value), IRR (Internal Rate of Return), WSJF Verspätungskosten (Weighted Shortest Job First), NPS (Net Promoter Score), NBI (Net Banking Income). Anschließende Einführung von weiteren Lean-Startup-Prinzipien sowie Microservices, Evolutionary Architecture, Mobile App Anbindung und passendem Versioning.
Datenschutz Grundverordnung (EU-DSGVO) / General Data Protection Regulation (EU-GDPR) (Regulation (EU) 2016/679): Beratung zur Legalität der Verbindung von Nutzungs- und Kundendaten und deren Nutzung zu Marketing-Zwecken.
Erstellung einer Baseline-Hadoop-Architektur mit Aufwands-Schätzungen als mögliche Make-Lösung auf Basis von Apache Spark mit Streaming, Alluxio Caching, QBit Microservices, Aerospike DB, Cassandra DB, jBPM, Drools, Oryx 2, WEKA, MOA, Sqoop 1/2, SAS. Diese diente dann auch dem Einkauf zur Preis-Verhandlung.
Beratung zu möglichen Data Science Algorithmen rund um das KNIME-System zur Kundensegmentierung und der Ableitung von Produkt- bzw. Marketing-relevanten Affinitäten/möglichen Kundeninteressen und Kundenpfaden: DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5, etc.
Beratung des Parallelprojekts „Corporate Data Hub“ (Digital Transformation / Digital eXperience (DX) Plattform) auf Basis von Spark, Cassandra DB, PostgreSQL und Memory-centric Libraries / In-Memory Data Grids (IMDG) wie Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, insbesondere bzgl. Anbindungs-Möglichkeiten mit den Marketing-Lösungen und wie diese als PoC (Proof of Concept) für den Data Hub verwendet werden können.
Konzeption einer Dynamic Offering Erweiterung HintLog für Dymatrix DynaCampaign: Mit minimalem Aufwand konnten so alle Teilnehmer an Bonus- oder Marketing-Programmen Nachrichten erhalten, wenn irgendwelche Fehler auftauchten oder sie aufgrund von Detail-Regelungen Gefahr liefen, aus dem Programm herauszufallen: Kunden haben dann meist Nachfristen bekommen und so konnte durch das Vermeiden ärgerlicher Situation der NPV-Wert (sprich: die Kundenzufriedenheit) stark gesteigert werden.
Review der bestehenden BPM-Modelle in Camunda und Erweiterung dieser Modelle in Camunda um neue Marketing/Kampagnen Use Cases.
Konzept erstellt zum semantischen Analysieren und Steuern von Marketing-Kampagnen nach z.B. Kundeninteressen, Kundensituationen, aktuellen Markttendenzen sowie Firmen-Interessen, z.B. als kombinierte/konzertierte Rabattaktionen über verschiedene Teile des Angebots hinweg oder um übergeordnete Marketing-Aussagen in untergeordneten Aktionen immer wieder zu re-iterieren und insgesamt Konsistenz und Stringenz in den Aussagen zu erreichen. Erkannte Kunden-Sitationen/Segmente, Interessen und Unterstützungsbedarf kann so möglichst zielgenau eingesetzt werden, so dass es von den Kunden als hilfreich geschätzt wird und später aus einer Vertrauensbasis heraus (Produkt-/Service-)Empfehlungen gegeben werden können.
Natural Language Processing (NLP): Analyse von Kunden-Feedback/Stimmungen mit spacy.io in Python (Net Promoter Score (NPS) Erhebung und Verbesserung).
Mitarbeit beim Digital David Projekt als Technologie- und NLP-Berater, der Erstellung eines Chatbots mit IBM Watson Technologie (mittlerweile bei consorsbank.de im Kundenbereich online): Vision: Chatbot der alle Invest- und Banking-Präferenzen der Kunden kennt incl. Konto-, Depot- und WKN-/ISIN-Nummern mit Charts/Trends/Abhängigkeiten und alle Suchen nach Anlagemöglichkeiten durchführt (mit RoboAdvisor im Hintergrund) und daher hohe Kundenbindung und hohe Verkaufskennzahlen erzielt. Meine Arbeit: Analyse der zu erwartenden Text-Dialog-Scripting Aufwände (aufgrund der technisch veralteten Funktionalitäten für Chatbot-Entwickler) und der Total Cost of Ownership (TCO) der IBM-Watson-Lösung und Gegenüberstellung mit einer neuen DLNLP-Architektur (Deep Learning Natural Language Processing) basierend auf Open Source zwecks Preisverhandlungen der Beschaffung: Elemente meiner Open Source Chatbot-Architektur mit DLNLP Tools (Deep Learning Natural Language Processing): OpenEphyra, Seq2seq, word2vec, ULM-FiT, ELMo, OpenAI Transformer / GPT, Transfer Learning, OpenAI Transformer, spaCy, Stanford CoreNLP, AllenNLP und Virtualisierung mit Docker/Kubernetes zum Training in der Cloud.

DS-Ansatz (Data Science):

Kenntnisse

Kunde

BNP Paribas Personal Investors (Consorsbank, DAB)

Einsatzort

Nürnberg, München, Homeoffice

4 Monate

2017-02 - 2017-05

Erstellung eines bankweiten Cloudera-Hadoop

Chief System und Big Data Architekt sowie SPOC Cloudera Hadoop 5.8 mit HBase + Phoenix Spark Streaming MLlib ...

Rolle

Chief System und Big Data Architekt sowie SPOC

Projektinhalte

Projekt:

Review und Verbesserung der vorgeschlagenen Grob-Architektur, Ausarbeitung des FeinArchitektur-Dokuments auf Basis zahlreicher Meetings und E-Mails mit dem Fachbereich;
Konzeption von Datenmodellen zur redundanzfreien Konvertierung/Speicherung/Aufbereitung und Auswertung aller bestehenden Bank-Transaktionen mittels logischer/physischer Datenmodelle.
Konzepte erstellt für Back-Office-Verarbeitungsverfahren (Reconciliation, Transaktions-Bäume/Graphen als Struktur und bzgl. Aufbau aus zeitlich versetzt und nur teilweise eintreffenden Informationen, Link-Resolution auf dieser Basis); POCs bzgl. komplexer Punkte selbst in Java/Scala programmiert.
Konzeption einer IT-Basis für Finanz-Planungs-Modelle/Investment-Strategien incl. Steueroptimierung für Wealth Management, Investment-Manager sowie strategische Investitionen.
Konzeption der initialen Amazon AWS-Umgebung (benötigt solange die Bank-Umgebung nicht fertig war) und Umsetzung mit AMInator.
Security: Anbindung von Apache Sentry an das zentrale IAM-System (Identity & Access Management) der Bank bzw. initial an LDAP. Härtung der Systemkomponenten bzgl. IT-Sicherheit.
Konzeption der Spark/Kafka Exactly-Once Verarbeitungsfunktionalität sowie der Gesamt-Business Continuity Funktionalität.
Recherche/Evaluierung von Memory-centric Libraries / In-Memory Data Grids (IMDG): Apache Pulsar, memcached, Ignite, GridGain, Alluxio, Redis, Hazelcast, Ehcache, Red Hat JBoss Data Grid, Pivotal GemFire, ActiveMQ, RabbitMQ mit AMQP, MQTT, ...
Erstellung eines Data Mapping und Versionierungskonzepts mit Umsetzung über ein Switchboard-Pattern: Abwägen der Möglichkeiten der Konvertierung/des Upgrades von Datenformaten/Protokollen/Microservices vs Lazy/Eager Migration von Daten; HBase-Avro-basiertes Versionieren, Bitemporale Logik, Semantisches Versonieren, versionierte lokale/verteilte Microservices mit QBit/Lagom/Spring Boot; DDD-Datenmodelle mit Bounded Context, Context Maps, Self Contained Systems (SCS). Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

Typ/Dauer:

Eigene Rolle:

DS-Ansatz (Data Science):

Kenntnisse

Kunde

Credit Suisse

Einsatzort

Zürich

2 Monate

2016-12 - 2017-01

Konzeption einer Microservice-Strategie

Architekt/Entwickler Microservices/mobile Apps/Big Data Standard-Tools: Spring Boot Spring Cloud (RESTful WebServices in Java) Spring Boot Devtools [hot reload] ...

Rolle

Architekt/Entwickler Microservices/mobile Apps/Big Data

Projektinhalte

Eigene Rolle:

Architekt eines Blueprint-Dokuments zur Integration von Microservices mit mobile Apps und Big Data u.A. per DDD.

Projekt:

Zusammentragen der führenden publizierten Techniken und Tools zu Microservices und Mobile Apps & Big Data sowie der integrativen Erstellung von Software mit allen Aspekten in Form eines ca. 250-seitigen Architektur Blueprints mit folgenden Inhalten: Architekturziele, Architekturprinzipien, Architekturstandards, Patterns, Neuentwicklung von Konzepten für lokale und vereinfachte Microservices (Neukonzeption eines Code Generierungs-Modells, um viele Microservices in Java/Scala als ein JAR/WAR/EAR oder als mehrere Deployment-Module bauen und debuggen/tracen/testen zu können), Microservice Best Practices, API Management, Datenkonvertierung/Serialisierung, Logging/Tracing, IT-Sicherheit/IAM, Modellierung per Domain-Driven Design (DDD) mit Bounded Context, deren Building Blocks und Responsibility Layers, Self Contained Systems (SCS) und Integration der Mobile-App Komponenten, KPI (Key Performance Indicators), Migrationsschritte von Monolithen hin zu Microservices, Software Load-Balancing, Infrastructure as Code, DevOps-Praktiken wie Continuous Integration und Continuous Deployment.
Im praktischen Teil wurde der Code-Generator entwickelt für die Kombination mehrerer Versionen eines oder verschiedener Microservices in ein Deployment-Paket oder in je ein JAR-Paket. Die unten genannten führenden Microservice-Bibliotheken für Java, Scala und Node.JS mit AngularJS 2 und Ionic Framework (Mobile Apps) wurden getestet/evaluiert.

Kenntnisse

Kunde

Cisco Systems mit AOK Nordost und AOK Systems als Endkunden

Einsatzort

Berlin

3 Monate

2016-10 - 2016-12

Digital Windfarm

Big Data Architekt Cloudera Hadoop mit Spark (SQL DataFrames ...

Rolle

Big Data Architekt

Projektinhalte

Fachlich:
- Analyse der bestehenden Flex5-Tools in Pascal/Delphi sowie der zugrundeliegenden Mathematik, insbesondere bzgl. Parallelisierungs-, Verteilungs- und Caching-Möglichkeiten.
- Sammlung und Erarbeitung von evolutionären Verbesserungsmöglichkeiten der bestehenden Flex5-Lösung, z.B. durch mehr In-memory Processing und explizites Caching von Zwischenergebnissen.
- Erstellung einer Zielarchitektur basierend auf im Kern Spark mit Alluxio sowie Ergänzungen für den Einsatz im Intranet (on premise) und in AWS (Amazon Web Services, EC2) mit entsprechenden IT-Sicherheitsmaßnahmen und mit Migrationsstrategie.
- Abstimmung der Anbindung der parallel erarbeiteten AngularJS 2.1 Web-Benutzeroberfläche an das Backend.
- Analyse der Performance der bisherigen Lösung unter Windows/Linux mit procmon.exe sowie eigenem Win-API-Hooking-Tool und Python-Auswerte-Skripten. Export nach Excel in Excel-Pivot-Tabellen und Erstellung VBA-basierter komplexer Auswertungen.
- Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
Technisch:
- Ad 3: Darin enthalten war auch eine kurze Betrachtung der besten Alternativlösungen (Flink, YARN, Storm + Trident, FastR, etc.) und Beschreibung von deren Vor- und Nachteilen.
- Bzgl. IT-Sicherheit war neben dem Schutz gegen Hacker durch ein Bündel von Maßnahmen vor allem die korrekte Autorisierung und Zuordnung der Daten und Datenflüsse wichtig, was über Virtualisierung mit VMware oder Docker, Kubernetes, Rancher sowie über die Security-Toolkits Apache Sentry/Shiro, Knox, Falcon, Atlas erfolgte.
- Die Migrationsstrategie basierte Bottom-Up auf verschiedenen Loop-Unrolling bzw. Schleifen-Parallelierungs-Strategie über Thread-Parallelisierung und das Herausziehen und Caching von Zwischenergebnissen, aufgeführt prototypisch am Beispiel der Delphi nach Scala Portierung für die Datenverarbeitung mit Spark.
- Ad 5: Da procmon.exe aber für längere verteilte Läufe mit einigen GBs an Daten abstürzte: Entwicklung einer Zeus-Rootkit basierenden API-Hooking-Methode für Win-API-Methoden wie ReadFile, WriteFile, Process Start, Process Exit, Thread Start, Thread Exit, CreateFile, MapViewOfFile und direkte Auswertung nur der relevanten Daten. Daraus Ableitung der Optimierungspotentiale und des Skalierungsverhaltens.
- Ad 6: Etablierte Verfahren der Wirtschaftlichkeitsberechnung wie Discounted Cashflow, ROI/ROSI (Return on [Security] Investment), NPV (Net Present Value), Internal/External Rate of Return (IRR/ERR) können nicht-lineare Verläufe der zugrundliegenden Faktoren nicht berücksichtigen. Hier ging es jedoch neben eher konstanten Werten wie Inflationsrate, Interner Zinsfuß, Prozent pro Jahr veränderter Quelltexte durch CRs(Change Requests), effektive Firmen-Steuer-Rate weitgehend um Konjunktur- und Technologie-Wellen-abhängige Kosten- und Risiko-Faktoren wie (auf engl.): Hardware Upgrade/Repair, Scaling / Bigger data amounts, Administration, Inflexibility (e.g. no virtualization, no mandator capability), Development of Extensions/CRs, Errors due to Knowledge/People Loss, Time to hire Contractors, Training Time for Team Members, CPU/IO Utilization Inefficiencies, End User waiting Time, Reputation cost due to old Technology, Immature Technology/Toolset, Old Technology/Toolset, Lack of Motivation due to old Technology / old Age of Employees, Not being able to take advantage of latest Tech's Features in CRs, Poor interoperability, Workarounds due to technological deficiencies, Sudden technological dead End and Cost of immediate Technology Switch, Revolutionary sudden change costs.
- Hierzu habe ich sehr aufwändige nichtlineare Kosten-Nutzen-Analysen für Keep-/Replace-/Modernization-Szenarien erstellt nachdem ich den Stand der Wissenschaft recherchiert hatte. Kern war die Approximation/Schätzung der Eingangsfaktoren über Datenreihen und Interpolation mit kubischen Splines. Dann wurde die Zeit in Tages-/Monats-/Quartals-/Jahres-Schritten hochgezählt und die Eingangswerte entsprechend per Spline-Interpolation geschätzt, kumuliert, abgeschrieben, abgezinst und zwischen den Keep-/Replace-/Modernization-Szenarien verglichen – jeweils mit Best-, Medium- und Worst-Case-Analyse in VBA. Ich habe eine graphische interaktive Auswertung hierzu mit TreeView und Pivot-Tabellen erstellt. Es ist eine wissenschaftliche Publikation hierzu geplant, denn das Verfahren kann generell für die Wirtschaftlichkeitsberechnung solcher nicht-linearer Keep-/Replace-/Modernization-Szenarien verwendet werden, insbesondere für Big-Data-Projekte.
Projektende:
- GE entschied sich schließlich, die Alt-Architektur selbst evolutionär mit In-Memory-Processing Technologien weiterzuentwickeln und wegen der Amortisierung erst nach 5-7 Jahren in diesem Projekt noch nicht Big Data zu nutzen.

Kenntnisse

Cloudera Hadoop mit Spark (SQL DataFrames MLlib) + Alluxio (ex: Tachyon) SMACK (Spark Mesos Akka Cassandra und Kafka) Amazon AWS mit Spark testweise Apache Flink PuTTY VMware Ubuntu.

Kunde

GE (General Electric) Renewable Energies

Einsatzort

Frankfurt/Main

8 Monate

2016-02 - 2016-09

GET ONE BI

Architekt/Entwickler Spark, Hive, Java, Scala Hortonworks Hadoop 2.3 insbesondere Spark mit SQL + DataFrames Spark-Hive-Integration ...

Rolle

Architekt/Entwickler Spark, Hive, Java, Scala

Projektinhalte

GET ONE BI: Integration der BI-Systeme, darunter SAP Bank Analyzer (FS-BA), SAP HANA, SAP BO und Hortonworks Hadoop 2.3

Fachlich: Erstellung einer Architektur für ein Corporate Memory als Digital Transformation / Digital eXperience (DX) Plattform, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
Subtask 1: Erstellen eines Tools für die effiziente unbürokratische Anlage von durch Benutzer/Analysten zur Laufzeit neu eingefügten Datenbank-Strukturen (neue Tabellen und Attribute in Tabellen bzw. als Graph) für neue analytische Ansätze wie Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention/Fraud Detection und Machine Learning.
Subtask 2: Erstellen von Markt-Analysen und Zusammentragen von Best Practices für einen Corporate Memory.
Subtask 3: Konzeption/Implementierung von Bonitäts-Alerting Use Cases: a) Auskunftei wie Creditreform/Bürgel meldet Bonitätsreduktion, b) Leasing- oder Kreditrate konnte nicht abgebucht werden, c) geändertes Nutzungsverhalten des Autos (Connected Car Daten), die z.B. auf Bewerbungsgespräche schließen lassen (bei zuvor 9-to-5-Bürotag) oder langes Ausschlafen zuhause (Arbeitslosigkeits-Indikator), d) Geänderte Daten aus sozialen Netzwerken wie vermehrt Kontakte zu Festanstellungs-Recruitern, e) Infos aus der computerlinguistischen Analyse (Bedeutungsextraktion aus Texten/Dokumenten) von E-Mails, Verträgen, Memos, Handelsregistern und sonstigen textuellen Infos mit Apache Stanbol und Apache OpenNLP.
Subtask 4: Konzeption/Implementierung von Anti-Money Laundering (AML) und Anti-Fraud Use Cases auf Basis von Data Science Techniken sowie Computerlinguistik.
Technisch:
Konzeption eines effizienten Speicher-Formats für Graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases. Dazu Implementierung verschiedener Use Cases mit Hive, Spark SQL, als Hive Makro und als Hive UDF mit Java/Scala und Messen/Vergleichen der Performance.
Marktanalyse und Proof-of-Concept (PoC) Konzeptionen/Entwicklungen zu
- Hadoop-ETL-/BI-Technologien und Tool-Kombinationen, insbesondere Sqoop/JDBC, Falcon/Oozie, Hortonworks Dataflow, StreamSets, syncsort, Flume/Kafka/Flafka, Chukwa, Talend BD, Pentaho BD, IBM InfoSphere with IBM DataStage for BD, Trifacta, Informatica BD, Waterline Data Science, Rapid Miner, Intelligent Miner, Datameer, Paxata, platfora, Trillium, SploutSQL/Pangool, Apache Drill + Arrow, Cascading, Crunch, Twill, REEF, RHadoop, SAS, H2O, KNIME, Tableau, SAP Business Objects, Zoomdata,
- Hadoop XML Verarbeitungs-Technologien und Tool-Kombinationen: Talend, Relational/ORC, JSON, Avro, Protobuf/Protostuff, XML->Relational, Graph-DB-Addon, Hive + ORC/Parquet, XML->HBase-Attribute, HyperJAXB, Relational DBs, HBase Phoenix, HAWQ, Simplified XML, Datanucleus, PostgreSQL.
- Auswertung unterschiedlicher Persistenzbibliotheken hinsichtlich (De) Serialisierungsgeschwindigkeit, komprimierte Größe und wie effizient sie mit den verschiedenen Technologien integriert werden können: Avro, Profobuf, Protostuff, JSON mit Jackson & Alternativen, BSON, ...
- Anbindungsmöglichkeiten (Spark-Driver, Storm-Driver, Flink-Driver, etc.) für Datenbanken/Caches/Query-Engines wie Hive, HBase, Cassandra, Cloudera Impala, Drill, Scylla DB, Aerospike, Alluxio, Druid, Splout SQL.
- Daten-Bereinigung (Data Cleansing) und Performance der Hadoop-Tools speziell im Bereich Graph-basierter Daten: Spark mit GraphX, Storm-Graph mit Trident, Flink Graph (Gelly) sowie die relevantesten der zuvor analysierten weiteren Tools.
Konzeption und Implementierung der oben genannten Kern-Use Cases mit Spark & GraphX, Avro, Alluxio sowie Talend for Big Data sowie mit Hive-Graph-Addon als UDF-Implementierung (User-Defined Function).
Change Management/Versionierung mit Oracle Data Relationship Management (DRM).

DS Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Kunde

Deloitte Consulting mit Daimler Financial Services (DFS)

Einsatzort

Berlin, Stuttgart, Homeoffice

5 Monate

2015-09 - 2016-01

Konzeption des pace Systems

Technischer Architekt Production Lines Error Handling Versions-/ Konfigurations-Management Logging ...

Rolle

Technischer Architekt Production Lines

Projektinhalte

Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bi-temporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/ Prüfung/ Korrektur/ Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) mit einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools (Mahout, WEKA/MOA, Geode mit MADlib + HAWQ, LIBSVM, Spark mit MLlib + Oryx 2). Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen zu erkennbaren Aufgabenstellungen. Konzeption von Logging, Monitoring und Reporting. Agiler Crystal Clear Prozess.
Projektende: Die Zielarchitektur wurde fertigkonzipiert. Das Requirements Engineering konnte – wegen fachlicher Komplexitäten und Abstimmungsprozessen - nicht genügend Input für die Weiterentwicklung bereitstellen und aufgrund stark rückläufiger Geschäftsentwicklung bei GfK wurde in 2015 weniger Budget für Externe in 2016 genehmigt.

DS-Ansatz:

Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze, Zeitreihenanalyse, Anomalie-Erkennung, Apriori, Assoziationsanalyse, Maximum-Likelihood-Schätzer

Kenntnisse

Kunde

GfK ? Gesellschaft für Konsumforschung

Einsatzort

Nürnberg, Homeoffice

3 Monate

2015-07 - 2015-09

Einführung eines Archiv-Systems

Software Architekt Logging Tracing Error Handling ...

Rolle

Software Architekt

Projektinhalte

Einführung eines Archiv-Systems, Verbesserung der IT-Sicherheit & des Datenschutzes und Business Process Optimization, Scrum-Prozessmodell

Business Process Optimization Konzept erstellt für den SW-Entwicklungsbereich.
Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2.
Konzeption eines Tools zur stark automatisierten Verarbeitung von Kündigungen.
Einführung des Archiv-Systems T-Systems ImageMaster.
Modernisierung/Upgrade-Planung des OpenText Metastorm Business Process Management Systems (MBPM). Teilfunktionalität portabel mit Camunda BPM realisiert.
Verbesserung der IT-Sicherheit & des Datenschutzes bei VitaClic.ch, der elektronischen Patientenakte der KPT/CPT.
Projektende: Die KPT-Manager / Verwaltungsräte (Vorstandsvorsitzender und dessen Vertreter) Bosch und Liechti wurden kurz vor meinem Start zu 3 Jahren Haft wegen Untreue und versuchter persönlicher Bereicherung verurteilt (siehe Google). Dies führte – auch aufgrund des Reputationsverlusts und des erwarteten negativen Geschäftsverlaufs – zum Stoppen aller nicht sofort rentablen IT-Projekte. Ich wurde daher – statt als Architekt einer großen vitaclic.ch-Erweiterung – nur als Coach zur Optimierung der Geschäftsprozesse bzw. einiger Funktionalitäten eingesetzt.

DS-Ansatz:

Kenntnisse

Kunde

KPT/CPT Krankenversicherung (führende Schweizer Online-Krankenversicherung) mit Online-Patientenakte, -Versicherungsakte und Gesundheitsportal

Einsatzort

Bern, Schweiz

2 Monate

2015-05 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Konzeption der Hadoop-Landschaft mit Anbindung an SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle erstellt, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen. Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; Web Scraper konzipiert/entwickelt mit node.js/NodeJS, CasperJS, PhantomJS, Sli-mer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten).
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

Typ/Dauer:

DS-Ansatz:

Kenntnisse

Kunde

Havas Media Gruppe (Siebtgrößte Medienagentur Europas)

Einsatzort

Frankfurt/Main, Berlin, Homeoffice

7 Monate

2014-12 - 2015-06

Big Data Projekt

Hadoop Architekt MS Office MS Project MS Word ...

Rolle

Hadoop Architekt

Projektinhalte

Projekt:

Konzeption der Hadoop-Landschaft mit Anbindung an Teradata und SAS/H2O incl. Hive/HCatalog, YARN-Algorithmen, Datenmodelle portabel umgesetzt mit Datanucleus, Performance-Optimierung durch intelligente Verteilung, Java-Entwicklung. Datenfluss-Analyse erstellt mit Empfehlung der verwendbaren Data Science Algorithmen sowie Monitoring und Reporting.
Sicherheitskonzept erstellt zur Absicherung der Big Data Systeme sowie für die Daten-Anonymisierung.

DS-Ansatz:

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT RESTful Webservices WADL http(S) CAN-Bus Qualcomm-Tools Ganglia Sigar Chef Zookeeper ORC Parquet Cascading Tez KNIME Weka Oozie Chukwa Sqoop1/2 Mahout Kafka Spark / Spark Streaming SAP PowerDesigner Pig Avro Teradata QueryGrid/TDCH Entwicklung/Konzeption unter Windows Produktionsumgebung unter Scrum

Kunde

Siemens Corporate Technology / Healthineers (ex: Healthcare) IT

Einsatzort

München, Erlangen, Homeoffice

3 Monate

2014-10 - 2014-12

Konzeption/Implementierung

Sicherheits-Architekt und Entwickler MS Office MS Project MS Word ...

Rolle

Sicherheits-Architekt und Entwickler

Projektinhalte

Erstellen eines Sicherheitskonzepts basierend auf der eigenen statistischen Sicherheits-Datenbank zu Gefährdungen/Gegenmaßnahmen (nach BSI/Common Criteria), erweitert um Gefährdungen/Gegenmaßnahmen im Bank und Fingerabdruck-Sensor-Bereich, insbesondere nach ISO 27745 2011 und ISO 19092.
Implementierung des Showcases für sichere Übertragung (ATM/Mobile Banking) mit Schlüsselverteilung, sicherem Schlüsselspeicher, PKI, RSA / IDEA, AES-GCM, DiffieHellman / FHMQV-C, SHA-2 / SHA-3, scrypt / bcrypt / PBKDF2, Ubuntu.

DS-Ansatz:

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security UML/UML2 SQL OOA OOD OOP Domain-Driven Design WebServices MS RegExp Puppet XML/XML Schema (XSD)/XSLT WS-* Standards WADL http(S) CAN-Bus Qualcomm-Tools RESTful Webservices PBKDF2 bcrypt scrypt SHA-3 SHA-2 FHMQV-C DiffieHellmann AES-GCM IDEA RSA PKI MS Visual Studio und C++ boost Library Scrumk Windows Embedded Embedded Linux

Kunde

Bio-Identification Firmen Dermalog/FingerPayment, Anwendungen im mobilen und stationären Banking

Einsatzort

Hamburg

2 Monate

2014-09 - 2014-10

Weiterentwicklung und teilweise Neukonzeption einer Online-Werbesteuerung

Konzeption & verbesserung der neuen Werbesteuerung MS Office MS Project MS Word ...

Rolle

Konzeption & verbesserung der neuen Werbesteuerung

Projektinhalte

Projektziele:

Aufgaben

Erfassen der Kundenanforderungen, der diversen technischen Browser-Features (Flash, Adblocker, HTML5, etc), Ansätze der Kundenprofilierung und Auswertung der Klickraten.
Darauf aufbauend Erstellen eines Konzeptes für eine Werbesteuerung abhängig von Visitor-Interessen/-Profilen.
Test-Automationskonzept mit JavaScript, Scala und Docker Containern.

Kenntnisse

Kunde

Chip Digital GmbH

Einsatzort

München

3 Monate

2014-07 - 2014-09

Allianz Data Center Consolidation / Data Center Migration

Konzeption der Big Data und der SAS Migration MS Office MS Project MS Word ...

Rolle

Konzeption der Big Data und der SAS Migration

Projektinhalte

Projektziele:

Allianz Data Center Consolidation / Data Center Migration: Viele verteilte und oft kleine Data Centers sollen in weltweit nur 4 große und hochver-fügbare Data Centers migriert werden.

Aufgaben

Erfassen der Kundenanforderungen, Durchführung von Kundenworkshops.
Technische Analyse der zu migrierenden Systeme (ca. 6000 Systeme) auf Dokumentationslücken, Migrierbarkeit und mögliche Migrationsprobleme.
Erstellen der detaillierten technischen Migrationspläne (Word-Dokumente) unter Berücksichtigung der jeweiligen Best Practices in der Migration und im Betrieb von SAS und IBM Big Insights / Hadoop.
Planung des Einsatzes zusätzlicher IBM Tools (Blue Wash)
Dokumentation und Weitergabe des Wissens.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards http(S) OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL Puppet IBM SPSS SAP PowerDesigner IBM Migrationstools VMware IBM Integration Broker IBM QRadar SIEM IBM Appscan IBM Integration Bus Identity Manager / Access Manager Security/IAM/ISMS IBM Tivoli mit TADDM RUP/EUP

Kunde

Allianz Versicherung

Einsatzort

München

8 Monate

2013-11 - 2014-06

Neuentwicklung eines MS Azure basierten internen Backend API

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalität MS Office MS Project MS Word ...

Rolle

Chief-API-Architect mit dem Schwerpunkt auf API-Funktionalität

Projektinhalte

Projektziele:

Aufgaben Fachlich:

Konzeption von Geräte-APIs der On-Board-Units (OBU) unter Nutzung des OBD-II-Protokolls und von AUTOSAR für die Fahrzeuge (Pkw, Lkw) und die Schnittstellen mit den Mobilfunkanbietern.
Architektur von MS Azure basierten internen Backend APIs für RESTful Webservices für europäische Märkte basierend auf einer bestehenden Version aus den USA.
Architektur von MS Azure basierten externen Cloud-Backend APIs für iOS/Android App Entwicklung für beliebige App Entwickler.
Architektur von MS Azure basierten externen Backend APIs für den Daten- und Kommandofluss sowie diverse Mehrwertfunktionen zwischen OBUs und Cloud-Backend (Car-to-Cloud-Kommunikation), Kompatibilität zu den eCall-Standards, Anbindung von Vodafone’s M2M-Plattform z.B. für das Durchleiten von SMS sowie Billing-Funktionalität.
Ausarbeitung der Architekturen für die Use Cases: Eco Driving, Car Health (Trouble Diagnostics) mit der Einholung von Reparatur-Angeboten in Echtzeit, Predictive Maintenance/Planen von Wartungsterminen, Erkennen von Diebstahl-Versuchen, Driving Log (Fahrtenbuch), Verkehrs- und Wettermeldungen bzw. Warnungen dazu, Behaviour-based Insurance, Augmented Reality (es werden weitere Infos angezeigt z.B. virtuelle Stadtführungen bzw. intelligente Mehrwert-Navigationsfunktionen bis hin zur Parkplatzsuche und -Reservierung, aktuelle / historische Gebäude, Menschen, Ereignisse in Abhängigkeit von der aktuellen Position des Autos), Benzinpreis-Infos/nächste Tankstellen, Personal Radio bzw. personalisierte Musik, Heatmaps/Hotspots zu Events/Lokalitäten, Teilen von Daten auf unterschiedlichen Geräten, sonstige Fahrerassistenzsysteme, Personalisierung all dieser Dienste nach Nutzerinteressen, Nutzung für After-Sales-Services sowie weiterer ähnlicher Funktionen wie angeboten durch Apple CarPlay, Android Auto / Google Android Open Automotive Alliance (OOA), Windows Embedded Automotive, Qualcomm Adreno SDK, VW Car-Net, mercedes.me, GM Onstar, Automatic Link, MirrorLink, GENIVI Alliance.
Spezifikation / Proof-of-Concept für HTML5/Ajax-GUI (Dojo mobile, jQuery mobile, Bootstrap, Lo-Dash, DozerJS, d3.js) und node.js Backend (npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, CoffeeScript).
Steuerungen erstellt für das automatisierte Aufbringen der Software auf die asiatischen Geräte und Fehlerdiagnose als EMSR (Elektrisches Messen, Steuern und Regeln) System.
Ausarbeitung der Sicherheitskriterien und Vorbereitung der Safe Harbour Datensicherheits-Zertifizierung. Kernelemente dabei waren die Trennung der Nutzer-Id von deren Nutzungsdaten sowie Datensparsamkeit bzw. Anonymisierung sobald und soweit möglich.

Technisch:

Applikations- und Netzwerkarchitektur mit Windows Servern, Biztalk, sowie .NET Messaging Anwendungen (MSMQ), Firmware Over-The-Air Update (Firmware-OTA, FOTA). Erstellung von API-Konzept-Dokumenten und UML-Diagrammen zu oben genannten APIs. Implementierung durch Lieferanten: Lieferantenmanagement, Testmanagement und Experte für Nachfragen.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene und Betriebssystems-Ebene nach statistischen Gewichtungen. Damit konnten die Gegenmaßnahmen unter Berücksichtigung der möglichen Gefahr (d.h. des Erwartungswertes der Verluste) und einer Kosten-Nutzen-Analyse der einzelnen Gegenmaßnahmen priorisiert werden innerhalb eines gegebenen Budgets.
Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Technische Begleitung von Referenzprojekten (Scrum) mit Kunden (ADAC, niederländischer ANWB, Vodafone, Telefonica/O2/EPlus) als Architekt und später als technischer Projektmanager/Testmanager. Nutzung der Qualcomm Tools QxDM (eXtensible Diagnostics Monitor) und QPST (für den UMTS Chipset) sowie PuTTY & WinSCP.
Über die eigenen und die Netzwerk-Segmente der Partner hinweg Abgleich von anonymisierten Nutzer-Daten sowie domänen-übergreifende Autorisierung mit OAuth (kompatibel mit Safe Harbor Vorgaben der EU).
Connected Car Web Interface sowie Mobile App Interface (HTML5) konzipiert/prototypisch erstellt mit Apache Cordova/PhoneGap, Ionic Framework / Lab / ngCordova, NW.js (ex: Node-Webkit), NACL, Dojo mobile, jQuery mobile, Node.js, npm, Backbone.js, Lo-Dash, Ember.js, Handlebars.js, TypeScript, CSS3.

Kenntnisse

MS Office MS Project MS Word MS Outlook MS PowerPoint MS Excel Logging Tracing Error Handling Debugging Testing Versions-/ Konfigurations-Management XML DTD XSD XSLT XPath XQuery SOA EAI IT Security OOD OOP Domain-Driven Design WebServices SOAP UML/UML2 SQL OOA Handlebars.js TypeScript CSS3 Node.js npm Backbone.js Lo-Dash Ember.js NW.js NACL Dojo mobile jQuery mobile Ionic Framework / Lab / ngCordova Apache Cordova/PhoneGap MS RegExp XML/XML Schema (XSD)/XSLT WS-* Standards OBD-II CAN-Bus Qualcomm-Tools RESTful Webservices WADL http(S) Intel E-Mail Protection / Server Security Suite Puppet McAfee Embedded Control Intel/McAfee Web Gateway 7.x Qualcomm QPST Qualcomm Tools QxDM TFS Sparx Enterprise Architect SAP PowerDesigner MS Visual Studio Microsoft Biztalk MS Visio MS Office Win64 C# Microsoft .NET Framework 4.5 MS Azure SCrum

Kunde

Delphi

Einsatzort

Großraum Hannover, Niederlande, USA, UK und Homeoffice

3 Monate

2013-08 - 2013-10

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit MS Office MS Project MS Word ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption einer Certificate Authority (CA) sowie einer PKI (Public Key Infrastruktur) zu Testzwecken und mit Unterstützung für Testautomatisierung.

Technisch:

Requirements Engineering für Certificate Authorities (CA)/ Public Key Infrastructures (PKI).
Erstellung und Präsentation einer Entscheidungsvorlage bzgl. teilweisem/vollständigem Make-or-Buy.
Architektur der CA/PKI im Rahmen der Make-Lösung unter besonderer Berücksichtigung von Test-Anforderungen zur Erzeugung diverser Klassen von Fehlern, Echtzeitfähigkeit, RESTful WS Schnittstelle.
Konzeption und Implementierung fehlender Features im Bereich Elliptical Curve Cryptography (ECC), Card Verifiable Certificates (CVC) sowie Gematik-spezifischer Standards für Smartcards/eGK sowie die Telematik-Infrastruktur (TI) für die gewählte EJBCA. Implementierung von Features wie sie von der Nexus CA bekannt waren und bislang genutzt wurden.
DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.
Spezielle Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen

Kenntnisse

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

7 Monate

2013-02 - 2013-08

Erstellung einer neuen Architektur für ein flexibles Versions- und Änderungsmanagement.

Architekt und teilweise Entwickler

Rolle

Architekt und teilweise Entwickler

Projektinhalte

Projektziel:

Aufgaben Fachlich:

Technisch:

Konzeption der Architektur mit dem MID Innovator 2012, LibreOffice Designer sowie bouml - Architekturbeschreibung mit MS Word bzw. LibreOffice.
Umsetzung eines Proof-of-Concept (POC) zur Umstellung der Office-Integration von OpenOffice 3.1 mit NOA-Library (Nice Office Access) auf LibreOffice 4.1 mit UNO-Library (Unified Network Objects, eine CORBA-ähnliche Library mit IDL-Syntax). OpenOffice bzw. später LibreOffice waren auch die Editoren des Dokumenten- und Text-Baustein-Verwaltungssystems.
Umstellung vom ins Produkt integrierten alten OpenOffice 3.1 auf LibreOffice 4.1 entsprechend des POC.
Automatisiertes Erzeugen von Logging- und Trace-Statements mittels eines selbstentwickelten Tools.
Verbesserung der IT-Sicherheit, der Speicherungs-, Archivierungs- und Migrationsmechanismen sowie der Erkennung von Inkonsistenzen und Verbesserung der Usability.

Produkte

Kunde

BG Phoenics

Einsatzort

Hannover, DE

4 Monate

2012-09 - 2012-12

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge

Integrations-Architekt

Rolle

Integrations-Architekt

Projektinhalte

Projektziel:

Integrations-Architektur zur Ablösung von 90% der IT-Systeme durch ein modernes Fall-Management-System mit DMS zur Bearbeitung der Patentanträge.

Aufgaben Fachlich:

Technisch:

Aufnahme von Anforderungen (Requirements Engineering) und darauf basierend Evaluation von Technologie-Alternativen, insbesondere REST vs. SOA/ESB (MuleSoft, OpenESB/Java CAPS, Apache ServiceMix), API Management Systeme (Apigrove, Vordel, Layer7, Apigee), Java Libraries (Spring REST, RESTlet, RESTEasy, Jettison, Apache CXF).
Erstellung eines RESTful Coding Styleguides mit Schwerpunkt auf Spring REST und JBoss RESTEasy.
Erstellung einer SOA-Strategie (basierend auf TOGAF), einer REST-Strategie, von Konzepten & Design Guidelines für den Mediation Layer, einer Enterprise-SOA-Architektur und Migrationskonzeption.
Basierend auf einer selbst erstellten Typologie der bestehenden Systeme, Konzeption einer Master-Architektur und einer Migrationsstrategie je Typus mit Wrapper-/Konvertierungskomponenten mittels JET (Java emitter templates) erweitert durch einen JavaCC-Parser und Talend OpenStudio.
Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Voldemort, Accumulo, HCatalog, Hive mit Shark /Stinger, Cloudera Impala/Drill, Sqoop2, HDFS, Pig, Oozie, Cascading mit Multitool, Giraph, Zookeeper, BookKeeper, Nagios, Flume, Kafka, Sawzall, Hue, RabbitMQ, Elephant Bird, Ganglia, Spark/Spark Streaming, GraphX, MLlib, Mahout, Kafka, Ambari/Ganglia, Whirr, Mesos.
Aufwandsschätzung nach COCOMO2.
Konzeption eines Code Analyse (Parsing) und Code Generierungs-Ansatzes zum Einlesen bestehender Java und COBOL Interfaces und zur Generierung von Java RESTful/SOA Web Services bzw. von Facaden daraus. Konzept zur graphischen Erstellung/Generierung von Adapter-Klassen über die Modellierung mit TalenD Open Studio. Integration von Facade und Adapter-Klassen in Wrapper-Libraries und Nutzung zur Entkopplung, Datenanalyse (Flüsse, Formate) und Systemmigration.
Konzeption der verlustfreien XML <-> JSON Konvertierung und Integration in JEE-Apps über Annotations mit selbstentwickeltem Order-Maintaining Badgerfish-Algorithmus.
Konzeption von REST HATEOAS (Hypermedia as the Engine of Application State) über standardisierte Content Rel(ations) sowie das Atom Publishing Format.
Erstellung eines Versioning-Konzeptes mit maximaler Robustheit gegen Änderungen in APIs: Neue Annotationen wie @LastSemanticChangeInVersion und @Since konzipiert und integriert in Maven Dependency Checking für nur inhaltliche/semantische (und sonst nicht erkennbare Änderungen) und offensichtliche Änderungen, deren Einführungsversion festgehalten wird. Verwendung von XPath und JSON-Path-basierten automatisierten Marshallern mit Spring 3.x zur Zuweisung von REST-Input-Parametern an Java-Methoden-Parameter.
Sicherheits- und Verfügbarkeits-Konzeption, IT-Security mit OAuth 1.0a/2.0 (alternativ teilweise SAML 2.0) sowie SPNEGO/Kerberos als bestehendem Mechanismus, Content Security, Logging/Tracing/Monitoring, Governance, Code Injection Checking Library mit BeanValidation Interface, ESAPI, Antisamy, CSRFGuard, AppSensor und Embedded SQL (ESQL).
Erstellen eines Logging/Monitoring/Tracing-Konzeptes basierend auf einem zweigleisigen Mechanismus über Java Instrumentation oder alternativ Code Generierung, die die bedarfsorientierte effiziente DB-/Text-Ausgabe, Analyse und visuelle Darstellung (Sequenz-Diagramme) aller Parameter aller Methoden mit allen ihren Embedded Types ermöglicht. In Kombination mit obigen Sicherheitstools sind so auch alle Teile eines übergeordneten verteilten Code Injection Angriffs erkennbar, auch wenn gegen einen einzelnen RESTful Service nur Fragmente eines Angriffs eingesetzt werden. Weiterhin lassen sich so Root Causes (ursprüngliche Ursachen) von Fehlern automatisiert erkennen und missbräuchliche Nutzungen (z.B. Massen-Download von verteilten IP-Adressbereichen) erkennen. Nutzung der Tools Nagios, splunk und HP ArcSight.
Identifikation und Vorschlagen von Komponenten/Techniken zur Umsetzung von Anforderungen an RESTful Systeme, die wegen der REST-Einschränkungen nicht direkt umsetzbar sind: Transaktionen, asynchrones/Event-basiertes Messaging, Routing, komplexe Content Transformationen, Format/Content/Protocol Mediation, gleiche und detaillierte Fehler-Behandlung, Unterstützung von Nicht-HTTP-Protokollen, Auditing/Monitoring/Logging/Tracing/Analytics, sicheres Schlüssel-/Token Management & Verteilung, komplexe per Regeln beschriebene Prozesse mit asynchronem Fremd-Input, komplette Testbarkeit mit Time-Travelling, Standard Kommunikations-Patterns (wie fire-and-forget, publish-subscribe,...), Batch Jobs / Scheduled Tasks mit Ausführungs-Kontrolle, ReliableMessaging.
Konzeption/Review/Beratung zu den neues GUIs der Systeme auf Basis von JSF und/oder HTML5: jQuery, Node.js, npm, Backbone.js, Underscore.js, d3.js (Data-Driven Documents), angularJS, Mustache, TypeScript, CSS3.
DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.

Produkte

Kunde

European Patent Office

Einsatzort

Den Haag, NL

5 Monate

2012-04 - 2012-08

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit Java JBoss EAP/AS Apache CXF WebServices ...

Rolle

IT-Architekt mit dem Schwerpunkt auf IT-Sicherheit

Projektinhalte

Projektziel:

Spezifikation der IT-Landschaft für Arzt-Praxen, Krankenhäuser und zentrale Telematik-Infrastruktur (TI) für die elektronische Gesundheitskarte (eGK) mit Schwerpunkt auf IT-Sicherheit.

Aufgaben Fachlich:

Konzeption der Konnektor-Funktionalität auf Anwendungs-Ebene: Verschlüsseln, Signieren, Hashen, Verifizieren für die Datenformate binär, PDF/A, XML, S/MIME, Text unter Anbindung von Kartenterminals, Smartcards.
Zuarbeit bzgl. Sicherheit zur Konnektor-Funktionalität auf Netzwerk-Ebene.
Konzeption der IT-Sicherheit (Gefährdungen/Gegenmaßnahmen) und Sicherheits-Test-Konzeption, Vorbereitung der Zertifizierung nach BSI Grundschutz mit dem BSI.

Technisch:

Aus-Spezifikation der Nutz- und Kontroll-Datenflüsse und Datenformate bis ins letzte Bit für alle denkbaren Krypto-Operationen: Verschlüsseln, Signieren, Hashen, Verifizieren, Anbindung an PKI unter Nutzung der existierenden Standards: PKCS#7, CMS, XaDES, XML-DSig, S/MIME, PC/SC, PDF-Crypt, PDF-Sign, Signaturgesetz (SigG) und Signaturverordnung (SigV), GnuPG/GPG.
Sicherheits-Konzeption nach Common Criteria/BSI Grundschutz nach Bedrohungsszenarien/Bedrohungskatalogen und deren Gegenmaßnahmen/ Sicherheits-Richtlinien auf Applikations-Ebene (Informationssicherheits-Management-Systeme (ISMS), AntiVirus, AntiSpam, Content Verification mit Internet Connection Adaptation Protocol (ICAP) XML-Security (XSpRES), Canonical XML) und Netzwerk-Ebene (diverse Netzwerkprotokolle, Firewall-/VPN-Technologien, IDS/IPS/WAF Systeme und Virtualisierung, WLAN- und Mobile-Sicherheit). Nutzung von PKI mit X.509 und LDAP/Active Directory sowie Identity and Access Management (IAM).
Sicherheits-Konzeption unter Berücksichtigung von Sicherheits-Standards wie ISO 2700x, Open Source Security Testing Methodology (OSSTMM), OWASP Testing Guide, Web Application Attack and Audit Framework (W3AF), BSI WebApp-Sicherheitsbaustein (basiert auf/integriert ÖNORM A 7700), PCI DSS (Kartenterminals, Smartcards, Bezahlsysteme) und deren Umsetzung in Form von Sicherheits- und (Penetration-)Test-Konzeptionen.
Pen-Test- und Acceptance-Test-Konzeption basierend auf Security Scannern & Tools: MetaSploit, Burp Suite, NeXpose, Nessus, Nmap, Acunetix-Websecurity Scanner, PeakflowX von Arbor, NTOSpider, NTODefend (DAST Tools), Skipfish, Fuzzing Tools, Burp Nessus, SoapUI (für WebServices), Core Impact, Google Skipfish, OWASP WebScarab, JBroFuzz, Zed Attack Proxy (ZAP), Scrubbr, SQLiX, Paros Proxy, IronWASP, W3AF, Syhunt Mini, N-Stalker, Watobo, VEGA, Netsparker, Andiparos, ProxyStrike, Wapiti, Grendel Scan, arachni, WebCruiser, JSky, jScan, ProxyStrike, PowerFuzzer, Sandcat, Ammonite, safe3wvs, WebGoat (unsich. App), Fiddler, ModSecurity.

Produkte

Kenntnisse

Java JBoss EAP/AS Apache CXF WebServices Scrum Win32/Linux

Kunde

Gematik, Gesundheitswesen

Einsatzort

Berlin und Homeoffice, DE

6 Monate

2012-03 - 2012-08

Erstellung einer Sicherheitsarchitektur für das Projekt PostPaket 2012

Sicherheits-Architekt

Rolle

Sicherheits-Architekt

Projektinhalte

Produkte

Kunde

Deutsche Post/DHL

Einsatzort

Darmstadt/Bonn/Homeoffice, DE

1 Jahr

2011-04 - 2012-03

Modernisierung der Unternehmens-IT

Enterprise/System Architect/Solution Designer Logging Tracing Error Handling ...

Rolle

Enterprise/System Architect/Solution Designer

Projektinhalte

Produkte

Kenntnisse

Logging Tracing Error Handling Debugging Testing

Kunde

Llyods Banking Group

Einsatzort

Heidelberg, Frankfurt/Main (DE), Bristol (EN), Luxemburg (L) uvm

1 Jahr 4 Monate

2010-07 - 2011-10

De-Mail-Projekt

oftware-/Netzwerk-/Infrastruktur-Architek, später Test Manager DLIES ECIES Elliptical Curve ...

Rolle

oftware-/Netzwerk-/Infrastruktur-Architek, später Test Manager

Projektinhalte

Produkte

Kenntnisse

Kunde

Dt. Telekom/T-Systems

Einsatzort

Homeoffice, Großraum Frankfurt/Main, DE

8 Monate

2010-08 - 2011-03

Analyse und Verbesserung der Architektur sowie der IT-Sicherheit

GWT-/AJAX-Security-Spezialist & Architekt, später Testmanager

Rolle

GWT-/AJAX-Security-Spezialist & Architekt, später Testmanager

Projektinhalte

Produkte

Kunde

Alliance Boots Group

Einsatzort

Bonn, DE und Zug, CH

3 Monate

2010-06 - 2010-08

Verifikation von Reisepapieren

Coach, teilweise Testmanager in der anfänglichen Analyse- und Pr Criteria API RichFaces Ajax4JSF ...

Rolle

Coach, teilweise Testmanager in der anfänglichen Analyse- und Pr

Projektinhalte

Produkte

Kenntnisse

Kunde

Government

Einsatzort

Hannover und teilweise Berlin, DE

5 Monate

2010-01 - 2010-05

Konzeption neuer WebServices im Rahmen eines ESB/SOA-Konzeptes für das Internationale Bausparkassenpaket

Architekt/Projektleiter, Team-Mitarbeiter Java iSeries/POWER6-Systeme AS/400 ...

Rolle

Architekt/Projektleiter, Team-Mitarbeiter

Projektinhalte

Produkte

Kenntnisse

Java iSeries/POWER6-Systeme AS/400 Win32 Unix AIX Linux z/OS CICS RACF DB2 RMF SMF IMS DB2 JCL WebSphere Oracle SAP NetWeaver Development Infrastructure SAP BI SAP DMS

Kunde

Schwäbisch-Hall/Kreditwerk, Marktführer Deutschland/Osteuropa

Einsatzort

Schwäbisch Hall

Aus- und Weiterbildung

6 Jahre 5 Monate

1992-10 - 1999-02

Informatik, Nebenfach Nachrichtentechnik, Elektrotechnik (ähnlich Dipl.-Ing.)

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.), Uni/TU Kaiserslautern

Abschluss

Diplom-Informatiker (Dipl.-Inf./Dipl.-Inform.)

Institution, Ort

Uni/TU Kaiserslautern

Schwerpunkt

Software Engineering
Datenbanken
Betriebswirtschaft
Computergrafik/CAD, Nachrichtentechnik (ISDN, GSM, UMTS)
Robotik
Datenkompression
Künstliche Intelligenz
Computerlinguistik
Thema: Gerne auf Anfrage

Ergänzungsstudiengänge parallel zum Studium: Business/Technisches Englisch und Französisch (je 4h/Woche über 2 Jahre), BWL/ Existenzgründertraining.

1978-1982

Institution: Grundschule

1982-1991

Institution: Gymnasium

Ausbildung: mehrmonatige Schüleraustausche mit Frankreich & Kanada

Abschluss: Abitur

1994-1996

15-monatiges Existenzgründertraining an der Uni KaiserslauternIn dessen Rahmen Nebenfach Wirtschaftswissenschaften (zusätzlich & freiwillig; alle Prüfungen durchgeführt und bestanden)
Ergänzungsstudium Technisches Englisch (2 Jahre)
Ergänzungsstudium Technisches Französisch (2 Jahre)

1992 ? 1998:

Ausbildung: Studium

Schwerpunkte:

Abgeschlossenes Studium mit KI- und NLP-Schwerpunkt am DFKI (Dt. Forschungszentrum für Künstliche Intelligenz, einzige Dt. KI-Spitzenorganisation und größtes KI-Forschungszentrum der Welt, TU Kaiserslautern + Saarbrücken), Semantische Suche, NLP, Büroautomatisierung (OCR + ICR), Information Retrieval, KDD (Knowledge Discovery in Databases), BI.
Key Skills:
- NLP-Parsing mit formellen Grammatiken wie HPSG-, LFG-, Chart-Parsern, generatives Lexikon, MRS (Minimal-Recursion Semantics), Expertensysteme, Constraints, KI-Planungssysteme/Workflow-Management-Systeme (WMS), Business Intelligence (BI) mit relationalen und objektorientierten DBs, Büroautomatisierung (OCR + ICR), KDD (Knowledge Discovery in Databases).
Arbeiten:
Diplomarbeit/DFKI + Startup:
- Gerne auf Anfrage
DFKI (Dt. Forschungszentrum für KI), Projektarbeit: Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmentierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauß-Verteilung. Dies wurde von der DFKI-Ausgründung Insiders-Technologies in deren kommerzielle Produkte eingebaut.
DS-Ansatz:
- Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score für die Dokumenten-Segmentierung.
DFKI, Seminararbeit: Nichtlineare Planer, Score-Berechnung für Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
DS-Ansatz:
- Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Themen meines KI/NLP-Studiums:
- Konnektionismus/Neuronale Netzwerke (CNN, Perzeptron, Kohonen-Karten,...), Einschränkungen/Constraints, Expertensysteme, Computerlinguistik/NLP (HPSG, LFG, MRS, Syntax, Semantik, Pragmatik, generatives Lexikon, lexikalische Regeln, Chart Parsing), Ontologien, Rahmenlogik/Frame Logic, DAML+OIL, Information Retrieval, semantische Suche, phonetische Suche, Spracherkennung (gehalten durch IBM ViaVoice Forscher), Planung, intelligentes Konfigurationsmanagement (mit Constraints), Robotik, Computer Vision, intelligentes Workflow-Management (mit Constraints), deduktive Logik, induktive Logik, deduktive/induktive/semantische Datenbanken, fallbasierte Logik, visuelle Krebserkennung mit CNN/RNNN/Kohonen-Karten, Statistik/stochastische/Ähnlichkeitsmaße, Aktivierungsfunktionen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen).

Position

Big Data, Computer Vision, Data Science, IT-Sicherheit

Kompetenzen

Top-Skills

Schwerpunkte

Airflow

Aufgabenbereiche

MS Project

Produkte / Standards / Erfahrungen / Methoden

ActiveMQ

AES-GCM

Ajax4JSF

Apache

Apache Cordova/PhoneGap

Apache CXF

Apache CXF WebServices

Apache Tika

Avro

AXIS2

Axon Ivy

Backbone.js

bcrypt

Bex Analyzer

BizTalk

boost Library

bower

BPM

Brocade Data Center Fabric Manager

Caching

Camunda BPM

CAN-Bus

Cascading

CasperJS

Chef

Chukwa

Cloudera Hadoop

COBIT

Cognos

Conduct>It (CC)

CRL

Crunch

Crystal Clear

CSS3

CXF

DataFrames

Debugging

Deeplearning4j

depend

DER

Diffie-Hellman

DiffieHellmann

DKIM

DLIES

DMARC

DNSCurve

DNSSEC

Docker

Dojo mobile

dom4j

Domain-Driven Design

Drools

DSA

DTD

EAI

ECDSA

ECIES

Eclipse

Egg packaging

Elasticsearch

ELK-Stack

ELKI

Elliptical Curve

Ember.js

Enterprise Architect

Entwicklung/Konzeption unter Windows

Error Handling

Exasol DB

Express>It (BRE)

FHMQV-C

G10-Schnittstelle

Ganglia

gerrit

git

Google Analytics

Gora

gradle

Grafana

Greasemonkey

grunt

gSOAP

HAWQ

HDFS

Hibernate

Hive

HP ArcSight Tools

HTML5

http(S)

IBM Appscan

IBM Integration Broker

IBM Integration Bus

IBM Migrationstools

IBM QRadar SIEM

IBM SPSS

IBM Tivoli mit TADDM

Icinga System Management

IDEA

Identity Manager / Access Manager

Intel E-Mail Protection / Server Security Suite

Intel/McAfee Web Gateway 7.x

IntelliJ IDEA

Ionic Framework / Lab / ngCordova

IPSec

iSeries/POWER6-Systeme

IT Security

ITIL

Jackson

Jama Contour

James

Java/JavaScript

JBoss

JBoss EAP/AS

jBPM

JMRTD

jQuery mobile

Kafka

Kanban

Kendo-Framework

KNIME

Konfig.-Serialisierung

KTM

Kubernetes

LDAP

LDAP-Anbindung

LIBSVM

Liquibase

LMTP

Lo-Dash

log4j

Logging

Logging-/Tracing-Framework

Lucene

Mahout

maven

McAfee Embedded Control

Microsoft .NET Framework 4.5

Microsoft Biztalk

MicroStrategy

MOA

MS Azure

MS Excel

MS Office

MS Outlook

MS PowerPoint

MS RegExp

MS Visio

MS Visual Studio

MS Visual Studio 2013 mit C#

MS Visual Studio und C++

MS Word

mustache

NACL

NFSv3

NFSv4

Node.js

npm

Nutch

NW.js

OBD-II

OCSP

OOA

OOD

OOP

Oozie

OpenText MBPM

Oracle 11gR2 mit RAC

Oracle Glassfish

Oracle JDK 6/7

Oracle OpenDS

ORC

Oryx 2

Parquet

Partitioning

PBKDF2

PhantomJS

Pig

Pivotal-Tools Geode

PKI

Produktionsumgebung unter Linux

Puppet

QlikView

Qualcomm QPST

Qualcomm Tools QxDM

Qualcomm-Tools

Rancher

RDDs

Red Hat OpenShift

Redis

RegExp

RESTful Webservices

RichFaces

Risk-Based Testing

RMF

RocksDB

RSA

RUP/EUP

S/MIME

SAP BI

SAP BO (Business Objects Business Intelligence)

SAP BW (Business information Warehouse)

SAP DMS

SAP HANA

SAP NetWeaver Development Infrastructure

SAP PowerDesigner

Scrum

Scrumk

scrypt

Seam

Security/IAM/ISMS

SHA-2

SHA-2 Hashing

SHA-3

SharePoint

Sigar

slf4j/logback

Slimer.js

SMF

SOA

SOAP

Solr

Spark / Spark Streaming

Spark mit Streaming und MLlib

Spark SQL

Spark Streaming

SparkR/SparklyR

Sparx Enterprise Architect

Sqoop1/2

Squid

SSL

Storm

Subversion/SVN

T-Systems ImageMaster

Tachyon

Teradata QueryGrid/TDCH

Testing

Tez

TFS

TLS

Tracing

Trident

TrueCopy

TypeScript

UML/UML2

Versions-/ Konfigurations-Management

Versions-Management

Visio

VMware

WADL

WebServices

WebSphere

Weka

Windows Embedded

WS-* Standards

WSDL

X.509v3 mit Extended Usages

XML

XML Schema

XML/XML Schema (XSD)/XSLT

XPath

XQuery

XSD

XSLT

zanox

ZFS

Zookeeper

Profil:

Eigene haftungsbegrenzte Firma (mit 2 Partnern), damit kein Risiko der Scheinselbständigkeit.
Weltweit einsetzbar; Wegen meiner Familie ziehe ich nicht zu den Kunden um, sondern reise jeweils montags an und donnerstags/freitags ab per Zug/Auto/Flugzeug und benötige daher etwa 125 Euro/h zzgl. Reisekosten + 50% der Reisezeit als Stundensatz. Ich kann auch etwa 135 Euro/h all-exclusive anbieten und dann im Zug/Flugzeug für den Kunden arbeiten. Ein anderer Weg für den Endkunden, Geld zu sparen, besteht darin, dass sie ihre Unternehmens-Rabatte bzgl. Zügen / Flügen / Hotels an mich weitergeben (so muss ich weniger auf den Stundensatz aufschlagen). Ich wohne nahe 2 Flughäfen (Karlsruhe/Straßburg), 2 Autobahnen und 2 schnellen Zugstrecken (ICE, französ. TGV). Weiterhin arbeite ich bei Vor-Ort-Einsätzen Di-Do lieber 10 Stunden pro Tag bei entsprechender Bezahlung der Mehrarbeit.

Wehrdienst:

1991-1992:

Grundwehrdienst: Elektronische Kampfführung / Fernmeldetechnik

Beruflicher Werdegang:

2010 - heute:

Aufgaben:

Fast 30 Jahre KI-Erfahrung (Künstliche Intelligenz/AI ? Artificial Intelligence):
Deep Learning, Data Science, Big Data
Key Skills: Deep Learning (CNN, RNN, TensorFlow, PyTorch, etc.), Deep NLP (Natural Language Processing: BERT, ULM-FiT, ELMo, Transfer Learning, OpenNMT, OpenAI Transformer, AllenNLP, Stanford CoreNLP), Data Science (Apache Spark MlLib, Mahout, R, spaCy, Anaconda), hybride Modelle (vorgegebene Strukturen + neuronale Netze + Gewichte/Stochastik, z.B. LSTM (Long Short-Term Memory), GRU (Gated Recurrent Units), Attention, Feast AI), PMML, ONNX, OpenScoring.io, Speicherung von Deep Learning Zwischenständen + Modellen, Wissensrepräsentation und Inferenz (Schlußfolgerungen ziehen), Semantik, Virtualisierung, Management mit Docker, Kubernetes, Airflow, etc.
KI-Projekte:
- DXC für Daimler + BMW, Autonomous Driving Programm, 2018-heute: Deep Learning für selbstfahrende Autos: Logisch/zeitlich konsistente virtuelle 3D-Stadtgenerierung, Deep Labelling für semantische Bildsegmentierung mit Keras/TensorFlow, Design Patterns für Deep Learning Architekturen, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning Agents), Horovod (verteilte Trainingslibrary für TensorFlow, Keras, PyTorch), Sparse Blocks Network (SBNet, TensorFlow Algorithmus), Google Dopamine Reinforcement Learning Framework auf Basis von TensorFlow, OpenAI GPT-2, Facebook XLM + PyText, Google BERT.
- HSBC Trinkaus & Burkhard AG: Größte Europäische Bank, World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security- und SOC-Architekt (Security Operations Center), SOC der 5. Generation: Erweiterung der SOC-Features um KI und Data Science: Ca. 60 kommerzielle Security-Tools. Data Science/KI zur Erkennung von Sicherheitsvorfällen: Neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke.
- Schwarz-Gruppe (Lidl & Kaufland): Machine-Learning zum Einkaufsverhalten der Kunden: Wirkungsanalyse & Optimierung von Marketingaktionen, Optimierung der Supply-Chain: Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist.
- Avira, 2017: Machine-Learning zur Optimierung der Konversionsraten von Freemium zu Paid, Abhängigkeitsanalysen auch zur Optimierung der Boot-Zeiten.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark: Kunden-Segmentierung z.B. nach Personas mit KNIME, Chatbot mit IBM Watson und Open Source DLNLP Tools; DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC.
- Credit Suisse, 2017: Business Transaction Store zur Analyse jeglicher Finanz-Transaktionen: Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Anomalie-Erkennung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung.
- Cisco Systems mit AOK als Endkunde, 2016-2017: Microservice Blueprints für Data Science Anwendungen wie Maximierung des Erfolgs von Gesundheits-Förderprogrammen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Make vs Buy vs Improve Analysen mit Machine Learning und ca. 50 Einfluss-Faktoren.
- Deloitte Consulting für Daimler Financial Services (DFS), 2016: Erstellung einer Architektur für ein Corporate Memory, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen, Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention mit Machine Learning).
- GfK Marktforschungsunternehmen, 2015: BI-Analysen; Werbe-Effizienz-Analysen, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf.
- KPT/CPT Krankenversicherung, Schweiz, 2015: Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und Analyse/Optimierung der Marketing-Aufwendungen, Betrugserkennung z.B. bzgl. der Begünstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Vorschläge erstellt für Auswertungen im Data Science Bereich für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips; Integration mit DMPs / DSPs, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse.
- Havas Media Gruppe (Medienagentur Nr. 7 in Europa) in Kooperation mit TheAdex, 2015: a) Semantic Ad Targeting mit Real-time DMP, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels; c) Analyse der Kunden-Reisen (Customer Journey) durch Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption einer vorausschauenden Instandhaltungs-Lösung (Predictive Maintenance) für die Siemens-Medizinprodukte: GMM (Gaussian Mixture Models); Überwachtes Lernen / Supervised Machine Learning, Association Rule Learning.
- Dermalog / FingerPayment, 2014: Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch,etc.
- Allianz, 2014: Intelligente Data Center Migrationen mit Millionen von Abhängigkeiten ohne Betriebsunterbrechung.
- Klingel / KMO-Gruppe: 2014-2015: Verbesserung der Erkennung von betrügerischen Fällen; Erstellung von Vorschlägen für Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Betrugserkennung.
- BG-Phoenics (IT-Tochter der Dt. gesetzl. Unfallversicherungen (DGUV)/Berufsgenossenschaften), 2013: Vorschlagen von Textbausteinen zur rechtssicheren Erstellung von berufsgenossenschaftlichen Bescheiden und der rechtssicheren Beantwortung von Briefen auf Basis von OCR + ICR (Optical Character Recognition + Intelligent Content Recognition).
- Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur): 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur, Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Betrugserkennung.
- Lloyds Banking Group / Heidelberger Leben, 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen, Machine-Learning auf dieser Basis.
- Deutsche Bundesdruckerei, 2010: Konzeption / Implementierung einer Softwarekomponente für die Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern.

1999 ? heute:

Rolle: Unternehmensberater

Aufgaben:

Unternehmensberatung
Architektur, IT-Security, Entwicklung und Projektmanagement großer IT- und Organisationsprojekte in der Finanzwirtschaft, Automobil-/Technologie- und Pharma-Branche.

Erfolge:

Architekt in den wohl 4 wichtigsten deutschen IT-Projekten der letzten Jahre: Elektronische Gesundheitskarte (Gematik), elektronischer neuer Personalausweis nPA (Bundesdruckerei), De-Mail (sichere vertrauliche E-Mail mit gesetzlicher Signaturfunktion und Gleichstellung zum eingeschriebenen Brief, Dt. Telekom) und das Mobile-Security-Projekt SIMKO der Bundesregierung.
8 erteilte Software-Patente im Security-Bereich (sichere unscheinbare Kommunikation/Textbasierte Wasserzeichen, z.B. für eBooks). Die Patente wurden in allen wichtigen Industriestaaten erteilt (USA, Kanada, Europa) und von IBM, Sybase, Amazon, Intel, Microsoft, Nuance, Fuji Xerox, AT&T, Certicom (wichtigster NSA-Crypto-Lieferant z.B. in der ?NSA Suite B Cryptography?) und vielen anderen als wichtiges Basispatent

Zwei CeBIT-Messehighlights im Security-Bereich (sichere unscheinbare Kommunikation/Textwasserzeichen, Integration der HBCI-Kartenfunktionalität als Software für die Geldkarte).
Jedes professionell finanzierte Projekt zum Erfolg gebracht.

1998 ? 2010:

Aufgaben:

Frühe Berufstätigkeit während der KI-Flaute: Semantic Search, Web Scraping und Inhaltsanalyse, unscheinbare sichere Kommunikation, Text-Wasserzeichen, Competitive Intelligence

Key Skills:

Projekte mit KI-Anteilen:

Deutsche Telekom / T-Systems, 2007-2008: Aufbau eines Tracking & Tracing-Systems für Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenflüsse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
Thales Gruppe / Thales Defence, 2001-2003: Data Science / Statistische Auswertung von Manöver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualität von IT Komponenten und der menschlichen Befehle/Aktionen.
Fraunhofer IESE + Startup: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
DS-Ansatz:
- Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
Fraunhofer IESE + Startup:
- Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
Data Science (DS)-Ansatz:
- Die Tiefe / DOM-Pfad-Ähnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen für Tabelleninhalte.
Fraunhofer IESE + Startup:
- Konzeption der Algorithmen/Wahrscheinlichkeitsformeln für die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
DS-Ansatz:
- Head-driven Phrase-Structure Grammar Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere Möglichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Schätzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
Fraunhofer IESE + Startup:
- Extrahieren der statist. Charakteristika persönlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile für Text Watermarking und Steganographie.
DS-Ansatz:
- Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten für die Kopf-Tochter Selektionen. Speichern für jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (Häufigkeiten) aus den bekannten Synonym-Sätzen basierend auf Zusammenhänge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Schätzer.
Diplomarbeit/DFKI + Startup:
- Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier (GAL) + Veröffentlichung im Wissenschaftsmagazin International Journal for Language Data Processing).
DS-Ansatz:
- Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente.

Beratung:

Big Data / Hadoop und Data Science: Alle Tätigkeiten außer Support und Administration (Cloudera, Hortonworks, IBM Big Insights, Microsoft Azure Integration HDInsight).
Business Intelligence (BI): Modellierung, SQL, Datenextraktion, Star- und Snowflake-Schema; alle gängigen Tools incl. IBM, Oracle, Teradata, Power BI.
Software-/System-/Infrastruktur-Architektur
IT Security
Projektmanagement und Testmanagement
Agile Coaching (Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking), Schulungen (Sicherheit, Big Data, BI, KI)
Entwicklung und Umsetzung branchenspezifischer Geschäftsmodelle/Strategien (Markt, Produkte, Personal, Finanzen, Organisation, Vertrieb, IT)
Konzeption und Management komplexer Entwicklungs- und Veränderungsprojekte auf strategischer und operativer Ebene
Strategische/operative Entwicklung und Bewertung von IT- und Facharchitekturen
HTML5, Ajax, Node.js, viele Libraries.
Mobile Apps (Native, Cross-Platform, HTML5) für iOS, Android, Windows Phone.

Know-how:

Tiefes fachliches Know-how in Bank-Systemen/Versicherungs-Vertriebsportalen/Webportalen, in IT-Systemen im Backend (Zahlungen, Bestandsführung, Prämienberechnung, Besteuerung), im Projektmanagement, Datenabgleich, Datenveredelung, IT-Sicherheit und Datenflüssen zwischen IT-Systemen
eCommerce, Bonus-Systeme, Kundenbindung/Digitale Werbung/Online-Communities
Geschäftsprozesse: Finanzwesen, Pharma, eHealth, Automotive, öffentliche Hand, Transport, Energie, Verlage

Methoden und Verfahren:

OOA, OOD, Domain-Driven-Design, Code-Generierung, Reverse Engineering, Code Reading
Projektmanagementmethoden und -verfahren
Software-Entwicklungsverfahren: V-Modell, RUP, SE-Book, PM-Book, Scrum, Kanban, Lean, DAD, SAFe, LeSS, Design Thinking, XP, Crystal Prozesse, ITIL

Software/Werkzeuge:

MS Project, MS Office
Eclipse, Netbeans, MS Visual Studio
UML: Enterprise Architect, Together, RSA, Umbrello, Jude, Innovator
IT Security: Common Criteria, BSI Grundschutz, SIEM, mSIEM, SSH, SSL, VPN, L2TP, PPTP, Krypto-Algorithmen, Smartcards, Security Scanner & Penetration Testing/Hacking Tools.

Methoden und Verfahren:

Facharchitekturen, Softwarearchitekturen
Requirements Engineering
Security Engineering und Assessment
Objektorientierte Analyse & Design

Meine Erfahrung mit Serverless (Tools/Platforms):

Amazon AWS Lambda, AWS Step Functions
Microsoft Azure Functions
Google Cloud Platform (GCP), Cloud Functions/Datastore/Storage, Cloud Pub/Sub, Endpoints, gVisor, Apigee, Cloud Dataflow, BigQuery, Cloud ML Engine
Google App Engine
Google Kubernetes Engine (GKE), Serverless add-on
Serverless Functions for Docker/Kubernetes/Rancher
Fission.io by Platform9
Iron.io (pur kommerziell)
Knative (Kubernetes/Docker building, serving, eventing utilities)
OPNFV (Open Network Function Virtualization)
OpenStack, Kata Containers
Istio.io
Apache OpenWhisk (by IBM)
Nabla Containers (by IBM, only 9 system calls, best security and performance)
OpenShift

Gelegentlich, in freier Zeit zwischen Großprojekten, abends/am Wochenende:

Erstellung von Architekturen (Big Data, Sicherheit, Mobile Apps) vom Homeoffice / abends im Hotel; verschafft mir nebenbei auch einen großen Überblick über aktuelle Real-World-Architekturen.

Smartclip
- Cross-Platform-Video-Werbung, Teil der Mediengruppe RTL, Teil von Bertelsmann, 2015: Performance-Optimierung eines Hadoop-Clusters für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support für IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbemaßnahmen (Click-Through-Rate Optimierung (CTR)).
- DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Schätzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Vodafone, 2015
  - (Urlaubs-Vertretung wegen Unterbesetzung): API-Architektur und Konzeption von OAuth- und OpenId Connect basierenden Identity und Access Management Lösungen in der API-Factory bzw. dem New Integration Layer (NIL) auf Basis von Apigee für Geräte-Diagnostik, Integrated Unified Communication, Connected Car, Migration der Endnutzer-Cloud-Daten, OneDevice, OneLine, OnePOS, Wallet, USSA, Integration von OpenStack-Komponenten/-Diensten.
  - Kiwigrid Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015: Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource für Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter für Mandanten-Daten, OpenVZ, Docker & Kubernetes für Hadoop, Management/Deployment mit Serf und Consul, Apache Slider, vert.x, SequenceIQ.Klingel-Gruppe / KMO (klingel.de/.at, mona.de, cornelia.ch, Wellsana, Wenz, Amara, Babista, Casserole, Diemer, Happy Size, Jungborn, Jan Vanderstorm, Vamos Veillon), 2014-2015: Architekt für JEE-Shopprojekte und WebSphere: Neu-Einführung IBM IIB, Anpassung diverser Shop- und Warenwirtschafts-Backends an IBM IIB, Kundenverhalten-Analyse mit Hadoop, Hive und Mahout. Sicherheitsanalysen. Architektur zur Integration des Akka-Play-Stacks einer Tochterfirma. Vorbereitung und Durchführung von Strategie-Workshops zu verschiedenen Java/Scala/Node.js-Entwicklungs-Stacks incl. OpenStack, Cloud Foundry, Kanban.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
  - Trost SE:
  - Autoservice Fahrzeug-Teile-Großhandel, 2014: IT Systemarchitektur analysiert und kurz-/mittelfristig optimiert, Big Data Ziel-Architektur mit Hadoop sowie Virtualisierungs-Konzept erstellt (MS Hadoop Integration); Scrum.
TecAlliance mit Fraunhofer IESE, 2016:
- Konzeption der Basisarchitektur für ein Connected Car System auf Basis von Big Data/IoT-Platformen, die ich dazu recherchiert habe.
- Parfümerie Douglas, 2016: Migration des Rechenzentrums/Erweiterung Quelltexte auf Kundenkarten-Anbingung/Absicherung des Online-Shops, implementiert in Java und Scala. Vorschlag von Big Data basierenden Kundenanalysen und Bandit-Tests (in Ergänzung zu A/B-Tests). Ablösung der Anbindung an SAP Hybris
- Visteon Electronics, 2016: Konzeption der Sicherheitsarchitektur der neuen Smartcore Cockpit Electronik-Systeme basierend auf Renesas-Hardware mit den Sicher-heitsdomänen VIP (Vehicle Information Processor), DI (Driver Informa-tion) und IVI (In-Vehicle Infotainment) sowie Anbindung an Apple Car-Play und Android Auto (über Smartphones). Erstellen eines umfangrei-chen Sicherheitskonzeptes mit einem Common Criteria Toolkit und Ab-stimmung mit Daimler. Spezialanalysen bzgl. SELinux und Alternativen, (darunter AppArmor und grsecurity), DAB+, Bluetooth, CAN/LIN, IP Multimedia Subsystem (IMS), Security Coding Style Guides und Code Checker, Vulnerability Management, PKI, Secure Boot, Secure Updates. ISO 26262/ASIL-relevante Konzeptionen, Projektmanagement bzgl. Um-setzung, Pen Testing und Security Intelligence Konzept, Lieferantenbe-treuung und Entwickler-Betreuung.
- Tools/Libraries: SELinux, Embedded Linux, AUTOSAR, Integrity OS by GreenHillsSoft-ware, GNU Toolchain, IBM/Rational Toolchain (incl. DOORS and RTC ? Rational Team Concert), FileNET, Visio, Common Criteria Tool-kit/Verinice, Doors, Rhapsody, AppArmor, grsecurity, BSI Grundschutz Toolkit.
Bundesarchiv, 2014:
- Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
- Auswärtiges Amt, 2014: Konzeption der SOA-Strategie als Berater des IT-Architekten incl. Hadoop, insbesondere zu den diversen Anwendungen, die die zentralen IT-Systeme des Auswärtigen Amtes ausmachen sowie deren sichere und effiziente Anbindung (Datensparsamkeit/Kompression, Latenz, Caching) an die vielen hundert Botschaften; Scrum.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013: Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betrügereien und Sicherheitsverletzungen für das Management und die Polizei/Staatsamwaltschaft.
- DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.

Meine Erfahrung mit Hadoop/Big Data/Data Science:

DXC für Daimler + BMW
- Autonomous Driving Programm, 11/2018-heute: Architekt und Technical Lead Meta Data Management (MDM) & Ingest: Virtualisierung/Containerisierung mit Kubernetes + Docker unter MapR; API-/Microservice-Konzeption; Deep Learning for Self-Driving Cars / Logically/temporally consistent virtual 3D city generation, Deep Labelling for Semantic Image Segmentation mit Keras/TensorFlow, Design Patterns for Deep Learning Architectures, DeepMind (Kapitan, Scalable Agent, Learning to Learn, TF Reinforcement Learning agents), Uber?s QALM (QoS Load Management), Horovod (distributed training framework for TensorFlow, Keras, PyTorch), AresDB (Uber?s GPU-powered real-time analytics engine), Uber?s Sparse Blocks Network (SBNet, TensorFlow algorithm), Google Dopamine reinforcement learning framework based on TensorFlow.
- DS-Ansatz (Data Science): TensorFlow für Bild-/Video-Analyse: Labeling und überwachtes Lernen zur korrekten Klassifizierung, verteiltes Hyper-Parameter-Tuning mit TensorFlow, Keras. ML Debugging/Erklärbare KI im Kontext von LIME, SHAP, partielle Abhängigkeitsdiagramme[Modellleckagen, Entscheidungserklärungen in if-Anweisungen, ....]; Modellspeicherung in PMML mit OpenScoring.io und HBase/MapR-DB + Apache Phoenix, Tableau.
HSBC Trinkaus & Burkhard AG / HSBC Deutschland (größte Europäische Bank)
- World's Best Bank 2017 nach EuroMoney, 12/2017 ? 11/2018: Security-Architekt für die Erweiterung des SOC (Security Operations Center) mit QRadar und Security-Analyse-Use Cases im Kontext von Blockchain-Technologie (We.Trade auf R3/Corda für Zahlungen + Voltron auf HyperLedger für Handels-Dokumente + Utility Settlement Coin (USC)) und SAP, ca. 60 kommerzielle Security-Tools mit entsprechenden Outputs, die zu Alerts führten, deren False-Positive-Zahl minimiert werden musste.
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 mo-del tree), C4.5, (Nicht)lineare Regression, Multiple Regression, Apriori-Analyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Tableau.
Schwarz-Gruppe (Lidl & Kaufland)
- größter Europäischer Handelskonzern: Online und offline, 2017: Konzeption für Plattform-, Umwelt- und Methoden-/Prozess-Setup für verschiedene Predictive Analytics Teilprojekte (insbesondere für Marketingeffekte und Supply-Chain-Prognosen hinsichtlich Bedarfsmengen/Preise etc.): Big Data Architekturberatung, Test-Management Konzept erstellt, Entwicklung plattformübergreifender Verpackungs- und Versionierungskonzepte, Tools: für Python, R, Big Data (Spark, Hive, etc.), Teradata, SAP BW, SAP HANA, Ab Initio, Microstrategy, (Ana)Conda, Python, sbt.
- DS-Ansatz: Random Forest, Gradient Boosting (GBM(Gradient Boosting Machine), XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Cubist (Erweiterung von Quinlan?s M5 model tree), Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Multiple Regression, Anomalie-Erkennung, Apriori-Analyse, Warenkorbanalyse, Überwachte Klassifizierung, Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt).
Avira, 2017:
- Konzeption und Implementierung eines Big Data & Apache Spark Data-Flow-Instrumentation & Configuration Framework in Scala, Beratung bzgl. möglichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Abhängigkeitsanalyse zur Optimierung der Boot-Zeiten, Maximum-Likelihood-Schätzer bzgl. Marketing-Maßnahmen-Effizienz und Konvertierung vom Free-Antivirus-Nutzer zum zahlenden Kunden, Tableau.
Nordex Acciona (Pamplona, Hamburg, Rostock), 2017:
- Erstellung eines Migrationskonzeptes vom Acciona Big Data System zu einem integrierten Big Data System zur Überwachung von Windparks.
- BNP Paribas Personal Investors, 2017: Consorsbank + DAB, World's Best Bank 2016 nach EuroMoney: Konzeption eines Customer Intelligence (CI) Systems mit CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der Lösungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA). Beratung bzgl. möglichen Real-time Use-Cases, Data Science Algorithmen und Datenschutz Grundverordnung (EU-DSGVO).
- DS-Ansatz (Data Science): Zeitreihenanalyse, Anomalie-Erkennung, Apriori-Analyse, Überwachte Klassifizierung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, Kunden-Segmentierungstechniken z.B. nach Personas mit KNIME, DynaMine, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Nichtlineare Regression, Random Forests, C4.5.
Credit Suisse, 2017:
- Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Über-sichten für?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
- DS-Ansatz (Data Science): Rekonstruktion aller Transaktionsbäume mit allen Zweigen, Zeitreihenanalyse, Random Forest, Gradient Boosting (XGBoost), CatBoost, LightGBM, SHAP (SHapley Additive exPlanations), stacked ensembles, blending, GBM(Gradient Boosting Machine)/MART (Multiple Additive Regression Trees), AutoML, Auto-Keras, Dopamine, Generalized Linear Models (GLM), Distributed Random Forest (DRF), eXtremely Randomized Tree (XRT), Labeling/Labelling, Bootstrap aggregating (bagging), Receiver Operating Characteristic (ROC)/AUC, Zeitreihenanalyse, Assoziationsanalyse, (Non-)Linear Regression, Anomalie-Erkennung, Überwachte Klassifizierung, Multi-Level-Methoden (Transaktion / Konto / Kaufmann / Konzern), Link-Analyse-Netzwerke, Maximum-Likelihood-Schätzer, Berechnung eines Verdachts-Scores, sonstige klassische und mehrstufige Verfahren zur Betrugserkennung, Tableau.
Cisco Systems mit AOK als Endkunde, 2016-2017:
- Konzeption eines Microservice Blueprints mit Schnittstellen zu Big Data Systemen zwecks Datenaustausch und Data Science Anwendungen.
- GE (General Electric), 2016: Digital Windfarm Projekt: Konzeption einer ?on premise? und AWS Cloud Architektur für die effiziente massiv-parallele in-memory Berechnung der Dimensionierung von Windrädern mit Spark mit MLlib, Alluxio sowie Erstellung einer Bottom-Up-Migrationsstrategie bestehender Quelltexte von Delphi nach Scala. Web-Benutzeroberfläche mit Angular 2.1; Wirtschaftlichkeitsberechnung der Migration in MS Excel per Formeln, VBA nach einem neu-entwickelten nicht-linearen Keep-/Replace-/Modernization-Szenarien-Verfahren, das sich auf ca. 20 nicht-lineare Kosten-Nutzen-Verläufe von ca. 50 Einflussgrößen stützt, die separat modelliert wurden.
- Deloitte Consulting für Daimler Financial Services (DFS), 2016: Erstellung einer Architektur für ein Corporate Memory, insbesondere die möglichst schnelle Erkennung von negativen Bonitätsveränderungen der eigenen Kreditnehmer bzw. Leasing-Kunden. D.h. wenn Kunden ihre Kredit- und Leasingraten kaum noch bezahlen können, soll dies möglichst schnell gemeldet werden, um als Bank darauf reagieren zu können.
- Technisch: Konzeption eines effizienten Speicher-Formats für graph-basierte Datenbank-Strukturen und auch Vererbung für die Nutzung mit Spark/Hive und Gegenüberstellung mit anderen Speicherungsstrukturen bzgl. Performance und Nutzbarkeit für verschiedene Use Cases (Vertrags-/Kundenanalyse, Credit Risk, Fraud Prevention und Machine Learning). Umsetzung verschiedener Anwendungsfälle mit Hive, Spark-SQL, Hive Makros und als Hive-Funktionen mit Java / Scala und Messung / Vergleich der Performance: Zugriff auf Datendateien (ORC / Parkett / CSV) mit Scala und Import / Export in HBase, Hive, Cassandra, Scylla DB und dann in SAP Bank Analyzer. Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausreißerelimination und grundlegende Kreditwürdigkeit-Schätzalgorithmen. Recherche und Bewertung von Technologien / Tools für Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow, Tableau.
- Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala, ORC- / Parquet-Dateien, Cloudera-Exhibit, Cascading, Crunch, Twill, REEF.
- Hadoop Sicherheitsstrategie konzipiert mit Kerberos, LDAP / Active Directory, Apache Knox (REST API Gateway, SSO / LDAP), Ranger (Berechtigungs-, Überwachungs- und Sicherheitsmanagement), Apache Sentry/Shiro (feinkörnige rollenbasierte Berechtigung), Apache Falcon, Apache-Atlas (Data Governance).
- DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer, ...
GfK Marktforschungsunternehmen, 2015:
- Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten der GfK als neues System ?pace? (Nachfolger von StarTrack) zur Erstellung von Panel-Produkten zunächst für die Distributor-Märkte, d.h. die weltweiten Groß- und Einzelhandelsmärkte. Erstellung der Building Blocks (Komponenten) bis hin zu den Klassendiagrammen + Code-Generierung. Konzepte erstellt für bitemporale Versionierung und Verarbeitung der Daten, Differenz-Verarbeitung, optimiertes In-Memory Processing/Caching/Minimierung von Save-Load-Zyklen, flexibles Management und Laufzeit-Erweiterbarkeit von dynamischen Typen und Klassen, Umgang mit Streaming-Daten, deren Vereinheitlichung/Prüfung/Korrektur/Anonymisierung, Speicherung und häufigen Aktualisierungen von Zuordnungen wie Key-Code-Assignments, Umgang mit komplexen n-dimensionalen Datenräumen, BI-Analysen (Star-/Snowflake-Schema) auf einer Vielzahl heterogener interner und externer Datenquellen und Referenz-Datenbanken. Berücksichtigung neuer Use Cases wie Werbe-Effizienz-Analyse, Trend- und Sale-Erkennung, Produkt-Lebenszyklus-Erkennung, Konsequenzen von Branding vs. White-Label-Verkauf, Anbindung von Data Science Schnittstellen/Tools. Realisierung mit Cloudera Hadoop, Spark mit Streaming, MLlib, Oryx 2, RDDs, Spark SQL + DataFrames + Caching, HBase, RocksDB, Oozie, Alluxio (ex: Tachyon), HDFS, Docker, git, gerrit, gradle, IntelliJ IDEA, Sparx Enterprise Architect, Konfig.-Serialisierung mit Jackson, Java-Entwicklung, UI: HTML5 + Angular + Kendo-Framework; einheitliches Logging-/Tracing-Framework in Java/JavaScript mit ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis, ActiveMQ, Icinga System Management, BI mit Cognos + Exasol DB, Monitoring mit Grafana, BPM mit Axon Ivy, externe Services mit Jboss + MySQL/Percona + Hibernate, LDAP-Anbindung; Evaluierung von Alternativen mit Storm + Trident + Clojure DSL, Flink, Cascading auf Basis von Tez, Crunch + HBase, Pivotal-Tools Geode + HAWQ, Tableau.
- DS-Ansatz: Eine Mischung aus aus Stetigkeiten, Verteilungen mit Mittelwerten und Standardabweichungen (zur Fehler-Erkennung), Hauptkomponentenanalyse, Nearest Neighbor Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Maximum-Likelihood-Schätzer
KPT/CPT Krankenversicherung, Schweiz, 2015:
- Big Data / Data Science / BI Architekturkonzept zur a) Analyse der medizin. Leistungsdaten und daraus Ableitung von Fragebögen und Aufschlägen für Vorerkrankungen und b) Analyse/Optimierung der Marketing-Aufwendungen mit Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, LIBSVM, Spark mit MLlib + Oryx 2, c) Betrugserkennung z.B. bzgl. der Begünstigten und der Korrektheit der zu erstattenden medizinischen Rechnungen.
- DS-Ansatz: Zeitreihenanalyse, Anomalie-Erkennung, Assoziationsanalyse, Piwik und Google Analytics / Adwords-basierte Web-Site-Optimierung; klassische und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt)
  - Maximum-Likelihood-Schätzer.
  - Smartclip, Cross-Platform-Video-Werbung (Teil der Mediengruppe RTL, Teil von Bertelsmann), 2015: Performance-Optimierung eines Hadoop-Clusters sowie Vorschläge für Auswertungen im Data Science Bereich für das Targeting, das zielgruppen-abhängige Schalten von Online-/Internet-Video-Clips (DMP/DSP mit Support für IAB-Standards wie VAST, VPAID, VMAP) und der Auswertung/Optimierung der Effizienz dieser Werbemaßnahmen (Click-Through-Rate Optimierung (CTR)).
  - DS-Ansatz: Integration mit DMPs / DSPs, wie durch TheADEX angeboten, semantische / NLP Analyse der Website-Inhalte und die damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden (Nearest Neighbor), Anomalieerkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Maximum-Likelihood-Schätzer, Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur), vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen zu den Nutzerinteressen.
- Kiwigrid, Dresden (Energie-Versorgungs- und Optimierungskonzepte), 2015:
  - Workshops zu Hadoop mit HBase mit Coprocessors und Phoenix, HBase-Indizierungen, HBase als DataSource für Spark/Spark-Integration mit HBase, Spark, OpenTSDB, Resilient Distributed Datasets (RDD) in Spark, RegionSplitter für Mandanten-Daten, OpenVZ, Docker & Kubernetes für Hadoop, Management/Deployment mit Serf, Consul und Terraform, Apache Slider, vert.x, SequenceIQ.
  - Havas Media Gruppe (Siebtgrößte Medienagentur Europas) in Kooperation mit TheAdex, 2015: a) Zielgerichtete Online- und Mobile-Werbung (Ad Targeting) durch Erstellung von Kundenprofilen, b) Betrugserkennung in Web-Werbungs-Tags /-Pixels und / oder betrügerische Versuche, einen Teil der Prämie gutgeschrieben zu bekommen für einen erfolgreichen Verkauf durch fälschlich behauptete spätere zu einem Kauf führende Anzeige/Ad dem Benutzer angezeigt zu haben; c) Web Scraper konzipiert/entwickelt mit node.js, CasperJS, PhantomJS, Slimer.js und Greasemonkey als zusätzlicher Input für die zielgerichtete Werbung (etwa Themen der Webseiten, Features von Produkten). Tools: Hadoop, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Spark, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, SploutSQL, Apache Kylin, Aerospike DB.
  - DS-Ansatz: Analyse der Kunden-Reise (Customer Journey) durch die Web-Sites / in der verfügbaren Historie durch Graphen, semantische / NLP Analyse der Website-Inhalte und der damit verbundenen Interessen; eine Mischung aus Hauptkomponentenanalyse, nächster Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Schätzer, Zeitreihenanalyse, Anomalie-Erkennung (beim Verlassen einer Website, beim Anklicken einer Anzeige, etc.), Assoziationsanalyse, Echtzeit-Analysen (als Teil des Lambda-Architektur) vor allem für die Propagierung von Negativkriterien und das Matchen von Anzeigen/Ads zu den Nutzerinteressen.
- Siemens Corporate Technology/Healthineers (ex: Healthcare) IT, 2014-2015:
  - Konzeption einer vorausschauenden Instandhaltungs-Lösung (Predictive Maintenance/Vorausschauende Wartung) für die Siemens-Medizinprodukte wie CTs, MRTs usw. (IoT, Internet of Things) mit Logfile-Analyse, wurde später Teil von MindSphere: Hortonworks Hadoop, YARN, Pig + DataFu, Hive / HCatalog, Flume, Avro, Teradata QueryGrid, Sqoop1/2, Mahout, Giraph , Kafka, Amazon Kinesis, Storm mit Trident + Clojure DSL, Flink, Spark / Spark streaming, Cascading, Tez, Twill, Pangool, Crunch, REEF, Oozie, SequenceFile-/Parquet-/ORC-Dateiformate, LZO-, bzip2-, zlib-, Snappy-Kompression, Differential Privacy. Belieferte Statistik-Tools: Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite, ELK-Stack (Elasticsearch, Logstash, Kibana) + Redis.
  - DS-Ansatz: Eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar-Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Zeitreihenanalyse / Prognose, Maximum-Likelihood-Schätzer: GMM (Gaussian Mixture Models); Überwachtes Lernen: Klassifikation und Regression (z.B. Ursache-Wirkungs-Analysen); Unüberwachtes Lernen: Affinitäts-Analyse, FP-Wachstum (häufiges Muster-Wachstum), Association Rule Learning, vor allem für Ereignisse, die auf Geräteausfälle hinweisen - auch mit Entscheidungsbäumen, C4.5, CART. Merkmalsextraktion: Kernel-Methode / -Trick, FastMKS, (Kernel) Principal Component Analysis (PCA / KPCA), Independent Component Analysis (ICA) mit MLE (Maximum-Likelihood-Schätzung). Anomalie-Erkennung: Dichte-basierte Techniken (k-nächste-Nachbarn, lokaler Ausreißer (local outlier) Faktor und viele weitere Variationen dieses Konzepts), Ensemble-Techniken mit Feature Bagging, Score-Normalisierung und verschiedene Quellen von Diversität.
- Dermalog / FingerPayment [nur DS], 2014:
  - Entwicklung eines Sicherheitskonzept für die Vermeidung und Erkennung von Betrug an Bankautomaten bei der Verwendung von Fingerabdrücken statt PINs, Konzeption eines sicheren Protokoll zwischen Fingerabdruck-Sensor, Geldautomaten und Bank-Backend.
  - DS-Ansatz: Bekämpfung von hunderten Angriffen mit zugeordneten Wahrscheinlichkeiten und Schadens-Erwartungswerten wie Identitätsklau, Man-in-the-Middle, Timing-, Bit-Manipulations- und Seitenkanalattacken durch hunderte priorisierte Gegenmaßnahmen basierend auf ihrem probabilistisch exakt berechneten Kosten-Nutzen-Verhältnis, beispielsweise Verschlüsselung, Signierung, sicherer Schlüsselaustausch, etc.
- Allianz Versicherung über IBM, 2014:
  - Migrationskonzept erstellt für die Migration der Hadoop- und SAS-Cluster, zentralisierte vorausschauende Hadoop-basierte Bedrohungserkennung (Threat Intelligence).
  - Klingel / KMO-Gruppe (klingel.de und rund 40 andere Online-Shops), 2014-2015: Verbesserung der Erkennung von betrügerischen Fällen; Erstellung von Vorschlägen für Cross- und Up-Selling; Erweiterung der Analyse zur Optimierung der Online-Werbe-Ausgaben; Tools: Hadoop mit Mahout, WEKA / MOA, Geode mit Madlib (Machine Learning Lib mit UDF) und HAWQ, Spark mit MlLib und GraphX, PredictionIO, LIBSVM, Oryx 2, ELKI, Deeplearning4j.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze/Deep Learning, Reinforcement Learning, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- Trost SE Kfz-Großhandel, 2014:
  - Konzeption einer Hadoop-basierten Such-Infrastruktur für Darstellung und Suche im Online-Shop basierend auf MS HDInsight/HD insights mit Azure Portal.
  - Bundesarchiv, 2014: Erstellung eines detaillierten 100-seitigen Angebots zu einer Hadoop-basierenden Such-Infrastruktur mit Apache Solr, Mongo DB oder Oracle DB.
  - Aptiv (ex: Delphi), 2013-2014: Erstellung eines Big-Data-basierten Konzeptes für Connected Car sowie entsprechende Backend-Infrastrukturen basierend auf Vodafone?s M2M-Infrastruktur und MS Azure mit Hadoop-Integration als Ausbaustufe (MS HDInsight/HD insights).
  - Gematik (deutsche elektronische Gesundheitskarte und ihrer Infrastruktur) [nur DS] 2012 & 2013: Konzeption eines Statistik-Moduls zur Identifizierung verschiedener Arten von Angriffen / Betrug mit der Gesundheitskarte oder auf dem Konnektor oder der Backend-Infrastruktur.
  - DS-Ansatz: Einführung von Zählern für alle Systemereignisse und Zeitreihenanalyse, Schwellwerte (Thresholds), Anomalie-Erkennung.
- Parfumdreams.de (Akzente Parfums), von 2012 bis 2013:
  - Konzeption und Implementierung der Erkennung von betrügerischen Kunden, Bankkonten, Adressdaten, nicht passender Namen oder Schreibweisen und verschiedenes verdächtiges Verhalten; Erstellung von Vorschläge für Cross- und Up-Selling; Benutzung von C++/C # mit MLPACK, Armadillo, Torch; Verwaltung und Austausch von Blacklists mit anderen E-Commerce Unternehmen. Zusammenstellen der Daten von mehreren Betrügereien und Sicherheitsverletzungen für das Management und die Polizei/Staatsamwaltschaft.
  - DS-Ansatz: Betrugserkennung: Klassisch und mehrstufige Verfahren zur Betrugserkennung (siehe gesonderten Abschnitt), z.B. schwarze Listen, Anschrift- und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalie-Erkennung; für diese und andere Zwecke auch eine Mischung aus Hauptkomponentenanalyse, Nächster-Nachbar (Nearest Neighbour) Methoden, neuronale Netze, Maximum-Likelihood-Schätzer, maschinelles Ranking-Lernen (Learning to Rank/Machine-learned Ranking), Empfehlungsalgorithmen (?Recommendation Algorithms?: Warenkorbanalyse (Market Basket Analysis, Affinity Analysis), Punkt-zu-Punkt Collaborative-Filtering Ansatz, Preisgestaltung und Verpackungs-Experimente mit A/B-Tests / Bandit-Algorithmen für die Verpackung und Preisgestaltung), dynamische Preisgestaltung (Benutzer-Gerätetyp und dessen Leistungsstärke, vermutete Dringlichkeit, Wettbewerbssituation, soziographische Benutzerdaten, vorherige A/B-Tests / Bandit-Algorithmen Erfahrung, ... ). Wichtige berücksichtigte Daten: Eine Zeitleiste/Zeitreihe mit: Ausgewählte Kategorien, Artikel über denen mit der Maus geschwebt wurde, Benutzer-Verweilzeiten, andere verwendete Geräte, Wunschlisten, Direktmarketing-/Referrer-URL, Bewertungen in sozialen Netzwerken des Benutzers, demografische Informationen, Benutzer-Segmentierung, Klickpfade / User-Journey in der Sitzung, Kaufverhalten wie z.B. die Anzahl der angesehenen Artikel / Intensität des Vergleichens vor dem endgültigen Kauf; Aufhebung allgemeiner User-Optimizations für bestimmte Teilbereiche wie Elektronik, Kosmetik, etc. mit speziell dort relevanten User-Optimizations.
- European Patent Office (EPO), 2012:
  - Big Data Architekturkonzept (Hadoop) mit Proof-of-Concept Implementierung): Hypertable, HBase, Cassandra, Redis, Hive/HCatalog with Spark (ex: Shark) / Stinger, MLlib, Cloudera Impala, Drill, Sqoop, HDFS, Apache Solr, Pig, Oozie, Cascading mit multi-tool, Giraph, Zookeeper, Bookkeeper, Nagios, Flume, Kafka, Hue, Avro, Thrift, Elephant Bird, Ganglia, Spark, GraphX, Kafka, Ambari / Ganglia, Whirr.
  - Lloyds Banking Group (Bristol, UK & Heidelberg), Versicherungsabteilung (Heidelberger Leben, Clerical Medical, Scottish Widows, Lloyds Insurance), 2010-2011: Betrugserkennung / AML (Anti Money Laundering) / KYC (Know Your Customer) in Bezug auf Zahler, Begünstigte, Anschriften, Organisationen, Zeitintervalle z.B. der zusätzlich gezahlten Prämien und zu zahlender Beträge; Datenaustausch über problematische oder betrugs-verdächtige Kunden mit anderen (Lebens-)Versicherungen.
  - DS-Ansatz: Schwarze Listen, Anschrift und Bankdaten-Ähnlichkeitsvergleich mit Scoring-Dienstleistungen, Anomalieerkennung, Zeitreihenanalyse aller Zahlungsströme mit Anomalieerkennung und Schwellwerten (Thresholds), Modellierung typischer Zahlungs- / und Teilauszahlungs-Regelungen mit Ausreißererkennung, Austausch verdächtiger und von Blacklist-Datensätzen/-Personen mit anderen Versicherungen und Behörden.
- Deutsche Telekom/T-System mit De-Mail, 2010-2011:
  - Entwicklung einer Big-Data-Architektur mit Hadoop als Alternativ-Architektur zur Standard-Enterprise-Architektur für De-Mail (mit Proof-of-Concept Implementierung mit HDFS und Apache Solr), die allerdings wegen der mangelnden Skills hierzu im Telekom-Konzern nicht in 2010 sondern erst in 2014 umgesetzt wurde.
  - Deutsche Bundesdruckerei [nur DS], 2010: Konzeption / Implementierung einer Softwarekomponente für die Überprüfung der Echtheit der deutschen und internationalen Pässe / Personalausweise-Dokumente mit einer Sicherheitsmerkmalsextraktion, Bewertung und statistisches Scoring-Konzept, um Betrug / Fälschungen zu verhindern.
  - DS-Ansatz: Die Berechnung der gewichteten Punktzahl aller einzelnen Detektoren für verschiedene Gültigkeitsanzeigefunktionen.
- Schwäbisch-Hall/Kreditwerk, 2010:
  - Erstellung verteilter Web-Services mit dem Globus Toolkit (Grid-Computing Alternative zu Hadoop mit ähnlichen Verteilungsprinzipien).
- Deutsche Telekom / T-Systems, 2007-2008:
  - Aufbau eines Tracking & Tracing-Systems für Inventar und verschickte Waren mit statistischer Analyse der verschickten / erhaltenen Warenmengen wenn sie mit LKW / Bahn / Flugzeuge verschickt werden, der Defekt-Quoten; Analyse aller Warenflüsse in und aus ganzen Fabriken und Betrugserkennung auf dieser Grundlage.
- Thales Gruppe / Thales Defence, 2001-2003:
  - Data Science / Statistische Auswertung von Manöver-Daten von Flugzeugen und Schiffen auf Treff- und Ortungsgenauigkeit sowie untergeordnet der Qualität von IT Komponenten und der menschlichen Befehle/Aktionen.
- Frühe Data Science/Statistik Tätigkeiten am DFKI und in einer IT Consulting Firma (1996-2001):
  - Firma: Konzeption eines Semantic Search Systems basierend auf Ontologie-Distanz semantischer Konzepte sowie deren Umschreibungen.
  - DS-Ansatz: Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG-)Parsing.
- Firma:
  - Konzeption von teilweise vorgegebenen, teilweise selbstlernenden deep semantic Web/Text/Data Mining Algorithmen mit Extraktion aus Tabellen, Beschriftungen, etc. sowie entsprechender Lernalgorithmen basierend auf (HTML-)Strukturen und bereits bekanntem Wissen.
  - DS-Ansatz: Die Tiefe / DOM-Pfad-Ähnlichkeit der HTML-Tags von Daten aus HTML-Tabellen extrahieren. Minimax-Ansatz: Das Minimieren der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der Tabelleninhalte wird gelernt, Gewinnung einer minimaler-Spannbaum-Segmentierung mit optimal hybrid gewichteten Punktzahlen für Tabelleninhalte.
- Firma:
  - Konzeption der Algorithmen/Wahrscheinlichkeitsformeln für die Berechnung der Wahrscheinlichkeit, dass ein Text plagiiert ist.
  - DS-Ansatz: Head-driven Parsing (HPSG) von Texten. Die Bestimmung der statistischen Verteilungen aller Kopf-Tochter-Selektionen, in denen mehrere Möglichkeiten bestehen, z.B. Gauss, Student, Bernoulli und andere Distributionen, Maximum-Likelihood-Schätzer. Berechnung der gewichteten Punktzahl aller individuellen Entscheidungen in jedem Textsegment gegen alle anderen Segmente mit ähnlichen semantischen Konzepten. Semantische Konzept-Ähnlichkeit wird als gewichteter / Wahrscheinlichkeitspfad (Knoten und Kanten) in der WordNet-Ontologie berechnet. Erfordert Morphologie und (HPSG) Parsing.
- Firma:
  - Extrahieren der statist. Charakteristika persönlicher Schreibstile aus Mustertexten und Anwenden dieser Schreibstile für Text Watermarking und Steganographie.
  - DS-Ansatz: Head-driven-Parsing (HPSG) von Texten mit Wahrscheinlichkeiten für die Kopf-Tochter Selektionen. Speichern für jeden Autor: a), in welchem grammatikalischen Konstrukt er welche Wort Stellungen / Paraphrasen bevorzugt und b) welche Synonyme er bevorzugt (Häufigkeiten) aus den bekannten Synonym-Sätzen basierend auf Zusammenhänge (HPSG Selektions- und Kontext-Constraints), Maximum-Likelihood-Schätzer.
- Diplomarbeit/Firma:
  - Entwicklung von Lernalgorithmen für das Lernen und verlustlose Speichern diverser lexikalischer/grammatikalischer Daten (z.B. Synonyme/Umschreibungen/Unter-/Übergeordnete Begriffe, Konjugations-/Deklinations-/Flektionsschemata) aus Text-Korpora sowie anderen Lexika (z.B. LFG, HPSG, WordNet, Cyc). Im Rahmen der Diplomarbeit erfand ich auch eine generative semantische Analyse für zusammengesetzte Wörter (Komposita) und Präpositionen, die Analyse der Bedeutung der Komposita durch jeweiliges Ableiten der Präpositionen, die logisch die Teile des Kompositums verbinden können (führte zu einem internationalen Konferenz-Papier + Veröffentlichung in einem Wissenschaftsmagazin).
  - DS-Ansatz: Minimax Ansatz: Das Lernen der Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation des künftigen lexikalischen Wissens, wodurch man eine minimale Spannbaum-Segmentierung erhält mit optimalen hybrid gewichtetem Score für die mögliche Bedeutung aller Datenelemente.
- DFKI (Dt. Forschungszentrum für KI), Projektarbeit:
  - Statistische OCR-Postprocessing und Fehler-Reduktionskomponente auf Basis von Content-, (Geschäftsbrief-)Struktur-, Lage- und Segmentierungs-Daten für ICR (Intelligent Content Recognition) mit Student- und Gauss-Verteilung. Dies wurde von der DFKI-Ausgründung http://www.insiders-technologies.de in deren kommerzielle Produkte eingebaut.
  - DS-Ansatz: Nach-Klassifizierung von erkannten Zeichen nach OCR z.B. aufgrund der vertikalen Lage der Zeichen (z.B. die Unterscheidung zwischen o/O, i/I/l, j/J,, etc.): Bestimmung der unteren, der Basis-, der oberen und der obersten Begrenzungs-Linie unter der Annahme einer Gauß-Verteilung und Berechnung / Suche nach der optimale Trennlinie zwischen diesen Linien per Cluster-Analyse, durch die Minimierung des Integrals, d.h. der Fläche unter den Gauß-Kurven, die den falschen Linien zugeordnet sind. Alle Linien werden aus Clustern von Punkten berechnet. Gesamt: Minimax Ansatz: Minimierung der Worst-Case-Wahrscheinlichkeit (maximal) der Fehlklassifikation der zukünftigen Datenpunkte in Bezug auf die Dokumenten-Segmentierung; Erhalten eines minimaler Spannbaum-Segmentierung mit optimaler hybrid gewichteter Punktzahl/Score für die Dokumenten-Segmentierung.
- DFKI, Seminararbeit:
  - Nichtlineare Planer, Score-Berechnung für Situationen und heuristische/statistische Strategien (Hill Climbing, Simulated Annealing, Dynamic Programming, etc.).
  - DS-Ansatz: Hill Climbing, Simulated Annealing, Dynamische Programmierung, etc. und wann welches Verfahren zu verwenden ist.
Architekturen/Stacks/Distributionen: Cloudera, Hortonworks, SMACK (Spark, Mesos, Akka, Cassandra und Kafka), MAPR, Microsoft Azure Integration HDInsight, IBM BigInsights.
Pattformen/APIs: MapReduce (Vereinfachte Programmierung: Weave, Cloudera SDK), YARN.
Docker-Ökosystem mit Kubernetes, OpenStack-Ökosystem.
Streaming/Structured Processing/DAGs: Spark Real-Time und In-Memory Toolset / Spark streaming (streaming, interactive queries, and cognitive/machine learning) mit GraphX (Spark API / console for Giraph), MLlib (Spark Machine learning Lib), Alluxio (ex: Tachyon), PredictionIO deployed auf Hadoop, Mesos, Cloud, Standalone; Apache Storm mit Trident und Nachfolger Heron, Flink (Streaming Data Processing with libs: CEP, Table, FlinkML, Gelly - actor model, hierarchy, deathwatch); Apache Apex.
DBs: HBase, Hypertable, Cassandra, Scylla DB, Mongo DB (DBs), Redis, Accumulo with cell-level security (Key-Value Speicher), Hive (SQL / DB Language / Data Warehouse Features) with Shark / Stinger (Interaktive & programmierte Queries), HCatalog (schema and data access abstraction services of Hive), Cloudera Impala, Drill (SQL acceleration), TiDB, Cloudera Kudu, Aerospike, Alluxio (ex: Tachyon) (memory-centric Distributed Storage), VoltDB, DCE, RocksDB, Etcd (Key-Value-Speicher), Druid (optimized for read-only data),
Apache Geode (verteilte in-memory DB) mit MADlib (Machine Learning Lib mit UDF) und HAWQ (Greenplum Analytics/SQL engine: ?HAdoop With Query?) ? alles von Pivotal.
Hadoop-Security: Kerberos Sicherheit, DB-Schema-basierte Autorisierung, LDAP/Active Directory, Multi-Tenancy/Mandanten-Fähigkeit; Apache Knox (REST API Gateway, SSO/LDAP), Ranger (Authorisierung, Monitoring und Sec. Management), Sentry/Shiro (fine grained role based authorization), Apache Falcon, FiloDB, Apache Atlas (Data Governance), Intels Project Rhino; SAML, OAuth 2.x, OpenId Connect, Anbindung an über 10 der führenden kommerziellen IaM-Systeme (IBM, Siemens, SAP, Oracle, NetIQ, Dell, Microsoft, ?).
Data ingestion/output (stream processing / distributed messaging systems): Sqoop1/2 (Data Im-/Ex-port in Hadoop: SQL to Hadoop), Flume, Kafka, Flafka, Amazon Kinesis, Apache Samza, Camus and successor Gobblin, Apache GearPump, Chukwa, Talend for Big Data, Falcon/Oozie, Hortonworks Dataflow/Nifi, StreamSets, syncsort.
BI/Data Mining/Event Processing Tools: Apache SAMOA (platform for mining big data streams), Pentaho for Big Data; nur kurz evaluiert: IBM InfoSphere for Big Data, Trifacta, Informatica for Big Data
Produktivitätslibraries: Tez, Crunch, Cascading (data processing workflows), Twill, REEF, Pangool, SploutSQL, Apache Drill + Arrow, Apache Beam (unified programming model for creating a data processing pipeline), Weave.
Akka/Play-Tools: Scala, Apache Gearpump (real-time big data streaming engine over Akka), Apache Flink (actor model, hierarch).
Generell Memory-centric (statt disk-centric) Technologien: Spark, Geode, RocksDB, SAP Hana, etc.
Meine sonstigen Big Data Skills: HDFS, Hive (mit UDF-Libs: Brickhouse, Dataiku, Nexr), Pig (Data Flow Sprache) mit DataFu, Apache Oozie (workflow scheduler), Giraph (graphs), Zookeeper (configuration), Bookkeeper, Nagios (logging), Hue (Web interface), RabbitMQ, ActiveMQ, Qpid, AMQP - Advanced Message Queuing Protocol, MQTT - Message Queue Telemetry Transport = SCADA Protocol, CoAP - Constrained Application Protocol (messaging), Avro/Thrift/Elephant Bird/protobuf/protostuff ([De-]Serialisierung), Apache Mahout (clustering, classification, collaborative filtering, machine learning, perceptron, etc.), PredictionIO (Machine Learning Server), Oryx (Machine Learning), Apache Tika / Gora / Nutch / Solr / Lucene, ELK Stack (Elasticsearch, LogStash, Kibana), Apache Ambari (provisioning, managing, monitoring) / Ganglia (distributed monitoring), Whirr (deployment), Mesos (cluster manager), Netflix Genie (job orchestration engine).
Diverses Kleines: Codecs, Compression, Encryption, MRUnit (Map-Red-Unit-Testing), Filesystem In Userspace (FUSE), Distributed Copy (distcp), Globus Toolkit (grid computing, web services), CRISP-DM (Cross Industry Standard Process for Data Mining), Vaidya (Performance diagnostic tool für map/reduce jobs), Predictive Model Markup Language (PMML), Apache Ignite (In-Memory Data Fabric), Apache Zeppelin (Multi-purpose Notebook), ORC (optimized row columnar), Parquet, SequenceFile and common Hadoop file formats, Schema on Read/Write.
Data Science Tools: Revolution R mit RHadoop/RHIPE/Shiny, H2O.ai/Sparkling Water/Deep Water, SAS, KNIME, Talend Open Studio for Big Data, Intelligent Miner, RapidMiner, Tableau, Pentaho Data Suite, Jena OWL Framework, PyData Tools (IPython, Anaconda, Blaze, Bokeh, Canopy, matplotlib, Nose, Numba, NumPy, SciPy, Statsmodels, SymPy, pandas, SciKit-Image, SciKit-Learn), Gephi (Open Graph Viz Platform), nur kurz evaluiert: Waterline Data Science, Datameer, Paxata, platfora, Trillium, SAP Business Objects, Zoomdata.
Data Science Libraries: Mahout, WEKA/MOA, Geode mit MADlib (Machine Learning Lib mit UDF) und HAWQ, Giraph, Spark mit Streaming, MLlib, GraphX, Alluxio, Kernel und Apache Ignite, PredictionIO, ScalaNLP (Breeze, Epic, Puck, Chalk), Apache Tika / Gora / Nutch / Solr / Elasticsearch / Lucene (Java), LIBSVM, Oryx 2, ELKI, Deeplearning4j (alle Java), MLPACK (C++), Armadillo (C++), Torch with dp (deep learning library) (Lua,C/C++, CUDA), Berkeley Caffe (C++, Python), CaffeeOnSpark, SparkNet, Microsoft Computational Network Toolkit (CNTK in C++) und Distributed Machine Learning Toolkit (DMTK in C++), Google TensorFlow (C/C++, Python) (alle Deep-Learning).
Wichtige Data Science / AI Algorithmen: Alle gängigen Stochastik- und KI-Algorithmen (Schwerpunkt meines Studiums), z.B. k-d Tree, k-means, Clustering, Classification (Naive-Bayes, ?), Multi-Linear Regression, Bloom Filter, Model Cross Validation, kognitives/maschinelles Lernen (cognitive/machine learning), Statistical Analysis, Large-Scale Predictive Modeling, Hypothesis Testing, SVD++ (Singular Value Decomposition = Dimensions-Reduktion), SVM (Support Vector Machine), Entscheidungsbäume, C4.5, CART, Nearest-neighbour methods, Fitting, Neuronale Netze, Differential Privacy, Feature Learning/Representation Learning, Hierarchical Dynamic Models (HDMs).
Tracing libraries: Zipkin/OpenZipkin, OpenTracing, HTrace.
NLP libraries: Apache OpenNLP (Natural Language Processing), Stanford CoreNLP, TensorFlow SyntaxNet, NLTK (Natural Language Toolkit: tagging/chunk parsing), WordNet, GATE (General Architecture for Text Engineering), Apache UIMA (Unstructured Information Management architecture/applications), LKB (Lexical Knowledge Base/Builder), CSLI Stanford Parser, DELPH-IN Pet Parser, Apache Stanbol, spaCy, Spark MlLib, Spark-NLP, AllenNLP, Eigener Parser und Knowledge Management System.
Erfolgreicher Redner und Innovator, z.B. auf dem DevCamp 2017+2018 in Karlsruhe und auf der internationalen Data Natives 2017 Konferenz (mit ca. 5000 Teilnehmern eine der größten Data Science und Big Data Konferenzen).

Meine Data Science Kenntnisse:

Data Formats: PMML (Predictive Model Markup Language), Serialization with Protobuf/Protostuff, Elephant Bird, Cryo Serializers.
Knowledge Representation: DAML + OIL, SPARQL, TFS (Typed Feature Structures), MRS (Minimal Recursion Semantics)
Analytics: Descriptive Analytics, Diagnostic Analytics, Predictive Analytics, Prescriptive Analytics, Data Discovery Processing
Basic Statistics: Descriptive Statistics: Pearson's Correlation, Inferential Statistics: Hypothesis Tests (Pearson?s chi-squared (x2) tests), Probability Distribution Functions: Gauss, Student; Probability Estimation Functions / Schätz-Funktionen; Random Data Generation; Metropolis-Hastings Sampling; Monte-Carlo-Simulationen
Time Series Analysis / Prediction / Forecasting: AR-Modelle (AR (Auto-Regression), MA (Moving Average), ARMA, ARIMA (Integrated bzw. Differenzen von Y), ARMAX (mit Regressor X)), GARCH, Maximum-Likelihood Schätzungen, Exponentielles Glätten nach Holt / Winters, Box-Jenkins Modelle; Kalman-Filter; Logistische Regression (Logit-Modell), Probit-Modell; Mixture Models (main with sub-populations / events), e.g. GMM (Gaussian Mixture Models); Diverses: Fitting, Trend Analysis, Trendfunktion, Saisonalität, Noise, additives / multiplikatives Modell, Autokorrelationsfunktion, Korrelogramm, Prognosehorizont, Prognoseintervall, autoregressives Modell, Prognosen, Autokorrelation, Komponentenmodell, Trend- und Saisonbereinigung
Sequence mining / Sequential pattern mining: GSP Algorithm; Sequential Pattern Discovery using Equivalence classes (SPADE); Apriori algorithm; FreeSpan; PrefixSpan; MAPres
Collaborative Filtering (CF) / Recommender Systems, e.g. Google news, Amazon: Memory-Based: neighbourhood-based CF, Alternating Least Squares (ALS), SVD++; Model-based: Bayesian networks, clustering models, latent semantic models such as singular value decomposition, probabilistic latent semantic analysis, multiple multiplicative factor, latent Dirichlet allocation and Markov decision process; Hybrid: better prediction performance, overcoming CF problems sparsity and loss of information.
[Semi-]Supervised Learning / Structured prediction: Naive Bayes; Markov random field (MRF) based methods, Conditional random fields (CRF), Gaussian Markov random field; Feature engineering, automated supervised feature learning with labeled data: neural networks, multilayer perceptron, supervised dictionary learning; Classification and Regression (e.g.cause-effect analysis): Linear models: Linear regression / classification; Binary and multiclass classification; Linear discriminant analysis; Feature vectors: Naïve Bayes, Drift, Logistic Regression classifiers using e.g. SGD-based algorithms, Probit Regression; Isotonic Regression (least squares problem under order restriction); HMM (Hidden Markov Models); Maximum entropy (MaxEnt) models; Maximum-entropy Markov model (MEMM), or conditional Markov model (CMM) [mostly Conditional random fields are more precise]; Restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Decision Forests / Ensembles (Random Forests and Gradient-Boosted Trees GBTs); [Adaptive Size] Hoeffding Tree; Pegasos (Primal Estimated sub-GrAdient SOlver for SVM) method of Shalev-Shwartz; Vector Machines: Relevance vector machine (RVM), Support vector machine (SVM); Regression Models: Clustered Variance, Linear Regression, Ridge Regression, SVM Model, Logistic Regression, Binary Logistic Regression, Multinomial Regression, Least-Angle Regression (LARS/LASSO), Local Coordinate Coding (LCC) (approximate a non-linear function with linear ones), Robust Variance, Ridge regression / Tikhonov regularization, Partial Least-Squares Regression; Tree Methods: Decision Tree, C4.5, CAR; [Conditional] Random Field: Nearest-neighbor methods: k-nearest neighbors algorithm, Neighbourhood components analysis; Ensembles: Bagging (average the voting of multiple experts), Boosting (new models shall become experts for instances misclassified before), Random forest, Logistic model trees, Stacking (meta-learner over previous models).
Unsupervised Learning: Affinity analysis / Market basket analysis/ Association Rule Learning: Apriori Algorithm, ECLAT (Equivalence Class Transformation), FP-growth (frequent pattern growth); Unsupervised feature learning with unlabeled data: Unsupervised dictionary learning, independent component analysis (ICA), auto-encoders, matrix factorization, clustering, local linear embedding (LLE), restricted Boltzmann machine (RBM) with gradient-based contrastive divergence algorithm; Clustering: Canopy (pre-clustering, pre-processing); k-Means Clustering; [Fuzzy] k-means; Data stream clustering; Streaming k-means; k-medoids Clustering (PAM, CLARA); k-medians Clustering; Hierarchical Clustering (SLINK and CLINK); Expectation-maximization (EM); CURE (Clustering Using REpresentatives); BIRCH (balanced iterative reducing and clustering using hierarchies): hierarchical, effective noise handling, COBWEB, Spectral Clustering; Data Stream Clustering; Synthetic Control Varianten, Top-Down, Gaussian mixture, Power iteration clustering (PIC), Latent Dirichlet allocation (LDA), Hierarchical Dirichlet processes (HDP), DBSCAN (Density-Based Spatial Clustering of Applications with Noise, with full index acceleration for arbitrary distance functions), OPTICS (Ordering Points To Identify the Clustering Structure), SUBCLU (Density-Connected Subspace Clustering for High-Dimensional Data), Mean-shift (locating maxima of a density function), Single-linkage clustering; Topic Modelling: Latent Dirichlet Allocation, Case based reasoning / rule induction algorithms (for helpdesks, industrial/financial processes): Charade, Rulex, Progol, CN2.
Dimensionality Reduction: Singular value decomposition (SVD), (Kernel) Principal component analysis (PCA/KPCA), Locality-sensitive hashing (LSH): Bit sampling for Hamming distance, Min-wise independent permutations, Nilsimsa Hash (Anti-Spam), TLSH (ternary locality-sensitive hashing), Random projection, Stable distributions, Factor analysis, CCA, ICA, LDA, NMF, t-SNE
Neural Networks / Konnektionismus: Kohonen, Perceptron, Recurrent Neural Networks (RNN) mit Utils: [Bi]Sequencer, Repeater, ?, Deep Learning, Deep reinforcement learning, Autoencoder, Multilayer perceptron, Restricted Boltzmann machine, SOM (Self-organizing map), Convolutional neural network
Feature extraction / pattern analysis and transformation: Term frequency-inverse document frequency (TF-IDF), Feature hashing / trick, Kernel method / trick, Fast Exact Max-Kernel Search (FastMKS), (Kernel) Principal Component Analysis (PCA/KPCA), Non-negative matrix factorization (NMF), Independent component analysis (ICA), e.g. with MLE (Maximum likelihood estimation).
Frequent pattern mining: FP-growth, Association Rules, PrefixSpan.
Evaluation metrics: Classification model evaluation, Binary classification: Threshold tuning, Multiclass classification: Label based metrics; Multilabel classification: Ranking systems; Regression model evaluation: Mean Squared Error (MSE)
Evaluation / Visualisation: Common visualizations as known from Excel, Crystal Reports, etc.; Receiver operating characteristic (ROC curve), e.g. with TPR/FPR (true/false positive rate); Scatter plot, Histogram, Parallel coordinates, Multidimensional scaling (MDS)
Optimization: Stochastic gradient descent, Limited-memory BFGS (L-BFGS).
Structured prediction: Bayesian network, CRF (Conditional random field), HMM (Hidden Markov Model)
Anomaly detection (fraud, intrusion detection in computer security): Density-based techniques (k-nearest neighbor, local outlier factor, and many more variations of this concept), Subspace- and correlation-based outlier detection for high-dimensional data, One class support vector machines, Replicator neural networks, Cluster analysis-based outlier detection, Deviations from association rules and frequent itemsets, Fuzzy logic based outlier detection, Ensemble techniques, using feature bagging, score normalization and different sources of diversity, LOF (Local outlier factor), OPTICS-OF, DB-Outlier (Distance-Based Outliers), LOCI (Local Correlation Integral), LDOF (Local Distance-Based Outlier Factor), EM-Outlier
Association rule learning (pricing, product placements, web usage mining, intrusion detection, continuous production, bioinformatics); Apriori algorithm / Apriori-DP (Dynamic Programming), ECLAT (Equivalence Class Transformation), FP-growth algorithm, CBARM / CBPNARM: Context Based (Positive and Negative) Spatio-Temporal Association Rule Mining, Node-set-based algorithms: FIN, PrePost and PPV, GUHA procedure ASSOC: generalized association rules using fast bitstrings, OPUS search.
Learning to rank / machine-learned ranking (MLR) = optimization problem with respect to these quality measures (pointwise, pairwise, listwise): Mean average precision (MAP), DCG and NDCG, Precision@n, NDCG@n, where "@n" denotes that the metrics are evaluated only on top n documents, Mean reciprocal rank, Kendall's tau, Spearman's Rho, Expected reciprocal rank (ERR), Yandex's pfound, gradient boosting-trained ranking, RankNet, PageRank.
Text Analysis / NLP (natural language processing) / computational linguistics: Term Frequency, Tokenization, Sentence segmentation, Part-of-speech (POS) tagging, Word2Vec, LSI (Latent Semantic Indexing), Latent semantic analysis (LSA), SVD, SVD++, Named Entity Recognition (NER) / named entity extraction (NEE), Information Extraction (IE), Language Models (LM), N-grams, POS (part of speech) tagging, Morphology, Common grammars: PCFG, HPSG, LFG, Chunking / shallow parsing, Natural language semantic parsing, Topic models, Explicit semantic analysis (ESA), Ontology-based similarity measures, Semantics (generative, lexical, semantic nets), Content similarity (i.e. detecting pirated texts), Text Mining, Web Mining.

Meine Erfahrung im Business Intelligence/DWH-/ETL-Bereich (Data Warehouse):

Schwarz-Gruppe (Lidl & Kaufland), größter Europäischer Handelskonzern, 2017: BI und Big Data Architect im Bereich Predictive Analytics etwa zur Berechnung der Effekte von Sonderangeboten, über Supply-Chain-Optimierung bis hin zur Vorhersage der Bedarfe für Backware in den Läden: Teradata, Ab Initio, SAP BW.
BNP Paribas Personal Investors, 2017: Consorsbank + DAB: Konzeption von CDP (Customer Data Platform) und MAP (Marketing Automation Platform) für Hadoop/Spark als Baseline-Architektur, darauf basierend Begleiten einer Make-or-Buy-Entscheidung mit Analyse der Lösungen von IBM Interact, SAS, Pega, Oracle RTD, prudsys, Ensighten und Dymatrix, Teil der Performance Interactive Alliance (PIA).
Credit Suisse, 2017: Konzeption eines Cloudera-Hadoop basierenden Business Transaction Stores mit einem kanonischen leistungsfähigen Datenformat (zum Speichern aller Details aller erwartbaren Transaktionen) mit verlustfreien Import- und Export-Filtern sowie Auswertungsfeatures in den Bereichen Aktien, Zinsinstrumenten, Derivaten, ETFs, Fonds (d.h. beliebige ?Securities? bzw. Wertpapiere), Berechnung von Bestands-, Kosten- und Risiko-Kennzahlen, Über-sichten für?s Wealth Mangement sowie Steuern und Reporting und Vorbereitung der Möglichkeit des Heraustrennens der Funktionalitäten einer Wertpapier-Transaktionsbank.
Deloitte Consulting für Daimler Financial Services (DFS), 2016: Konzeption eines Corporate Memory Systems und Konzeption der Bonitätsbewertung und Betrugserkennung in Echtzeit auf dieser Basis.
Technisch: Konzeption einer Corporate-Memory-Architektur mit XML / JSON / Avro als Austauschformate und interne Hybrid-Informationsdarstellung mit relationalen und Graphen-basierten Strukturen gesteuert durch eine Management-Komponente. Konzeption der Datenbereinigung, Ausreißerelimination und grundlegende Kreditwürdigkeit-Schätzalgorithmen. Auswertung von Technologien / Tools für Data Ingestion, ETL, intelligente Datenverarbeitung, MR- / YARN Frameworks und XML-Verarbeitungstechnologien wie Hive / HBase + Avro, Talend, Pentaho, RHadoop, Informatica, SAS, H2O, KNIME, Tableau, SAP Business Objects, Splout SQL, Falcon, FiloDB, Hortonworks DataFlow (HDF) / Apache Nifi, StreamSets, Flume / Kafka / Flafka, Chukwa, LinkedIn Camus / Goblin, Rapidminer, Intelligent Miner, Datameer, Apache Drill + Arrow;
Weitere Bibliotheken / Tools: Hortonworks Hadoop, Spark mit SQL / DataFrames / RDDs / Caching, Hive, Java, Scala.
GfK Marktforschungsunternehmen, 2015: Anwendungs-Architektur der zentralen Daten-Aggregations- und Auswertungs-Komponenten (?Report Production Lines?) mit Cloudera Hadoop, Spark, HBase, etc.
Siemens Corporate Technology (CT), Healthineers (ex: Healthcare) IT, 2014-2015: Konzeption eines Predictive Maintenance Systems für radiologische Geräte mit Teradata Unified Data Architecture (UDA), wurde später Teil von MindSphere: Teradata IDW (Integr. Data Warehouse), Aster (Discovery Platform), Hadoop (Data Platform) mit Hive/Pig (+DataFu)/Mahout, Revolution R mit RHadoop/RHIPE/Shiny, SAS, H2O, KNIME, Talend Open Studio for Big Data, Oozie, Intelligent Miner, WEKA/MOA, Giraph, Mahout, RapidMiner, Tableau, Pentaho Data Suite.
Allianz Versicherung, 2014: Migrations-Architektur für 600 SAS-Systeme und mehrere SPSS- und Hadoop-Cluster mit statistischen Analyse-Software wie R/Shiny und Apache Mahout.
Bundesarchiv, 2013-2014: Erstellen eines DB-Modells für das DWH des Archivs zur beschleunigten Suche und Auswertung der Daten sowie einer Hadoop-Architektur mit Hive.
Deutsche Post, 2012: Statistische Analyse der Paketflüsse sowie der Nachnahme-Zahlungen und möglicher Betrugsfälle und Security-Incidents mit Microsoft SQL Server Integration Services(SSIS).
Deutsche Telekom, De-Mail-Projekt, 2010-2011: Erstellung einer Hadoop-Architektur, Proof of Concept mit Hive, Pentaho, R/Shiny und Apache Mahout für strukturierte Suche und Auswertungen.
Schwaebisch-Hall/Kreditwerk, 2010: Kunden-Analyse für Marketing, Up-selling und Cross-selling
Banken (Commerzbank, Dt. Bank, Sal. Oppenheim, Sparda Bank, Targo Bank, Citigroup, PostFinance, Schwäbisch-Hall/Kreditwerk, Lloyds Banking Group, 2008-2012): Mehrere Projekte im Bereich Kundenstatistiken, Anti-Money-Laundering (AML)/Know-Your-Customer (KYC) sowie zur statistischen Ergebnis-Validierung und zur Erkennung von ungewöhnlichen Ergebnissen im Rahmen der Abgeltungssteuer, der Versicherungssteuer und sonstiger Berechnungen.
Deutsche Börse, 2009: Ich war im Bereich Indizes und strukturierter Anlageprodukte tätig und wandte Data Mining auf historische Daten an, um optimale Indizes/Derivate vorschlagen zu können.
Institut für Arbeitsmarkt- und Berufsforschung (IAB), 2007-2008: Konzeption einer Mitarbeiterverwaltung mit Analysemöglichlichkeiten sowie von DWH-Datenmodellen (SAS, Cognos, Microsoft SQL Server Integration Services(SSIS)) für den Dt. Arbeitsmarkt.
Daimler und BMW, 2006, 2008: Mitarbeit an der Modellierung der DWHs für die Produkt-Daten-Management-Systeme (PDM).
Ich habe Web-/Text-Mining Software entwickelt zur Extraktion von Informationen aus Webseiten bzw. Dokumenten.
Im Bereich intelligente Suche/Plagiatsuche habe ich mich in entsprechende statische Methoden eingearbeitet.

Meine Erfahrung mit Scala:

Meine Scala-Projekte:

Avira Operations, 2017: Konzeption und Implementierung von Inspectrum, einem Apache Spark & Big Data Data Flow Instrumentation & Configuration Framework in Scala.
Credit Suisse, 2017: Konzeption/PoC-Implementierung mit Hadoop/Spark Streaming für einen Business Transaction Store + Analytics-Komponenten.
Itizzimo, 2017: Konzeption/Erweiterung des Simplifier Kernsystems zur Generation von Web- und Mobile Clients um Rechtekonzept und Automatismen für Adapter/Konverter zwischen diversen Systemen.
Cisco Systems für AOK Nordost, 2017: Architekt eines Blueprint-Dokuments zur Integration von Microser-vices mit mobile Apps und Big Data u.A. per DDD.
TecAlliance mit Fraunhofer IESE, 2016: Konzeption der Basisarchitektur für ein Connected Car System mit Hadoop, Spark, Cassandra, Kafka, Scala, etc.
General Electric, 2016: Konzeption/Entwicklung eines Digital Windfarm Berechnungsprojekts, das für jedes einzelne Windrad die Dimensionierung über die Lebensdauer optimiert, realisiert als cloud-basierter Berechnungsservice.
Parfümerie Douglas, 2016: Migration/Erweiterung/Absicherung des Online-Shops, implementiert in Java und Scala.
Daimler Financial Services via Deloitte, 2016: Big Data Projekt mit Hive, Talend und Spark, implementiert in Java und Scala.
GfK, 2015: Konzeption/Implementierung von Predictive Analytics Pipelines mit Hadoop/Spark für die Marktanalyse.
HavasMedia, 2015: Big Data Data Management Platform (DMP) für zielgerichtetes Performance-Marketing im Internet basierend auf der Analyse der Interessen der Webnutzer.
Siemens, 2014-2015: Big Data Projekt im Bereich von Predictive Maintenance von radiologischen Geräten, wurde später Teil von MindSphere.
Ca. 10 Projekte mit ScalaCheck oder Teilanwendung von Scala ? etwa als Ersatz für Python/Perl oder für asynchrone Funktionalität, z.B. bei BG-Phoenics/DGUV, Gematik, Europ. Patent Office, Fiducia, Dt. Telekom, Dt. Bank, Commerzbank, Bank Julius Bär, PostFinance, ?

Mir bekannte Scala-Patterns/Techniken:

Die klassischen Patterns der Gang of Four (GoF) übertragen auf Scla.
Higher-kinded types, higher-order abstractions, Implicits, Case Classes, Traits, Views (ex: Projections), Builders
Cake-Pattern (z.B. für Dependency Injection; Build components which are abstracted over their dependencies)
Microservices/Evolutionary Architecture
Bulkheading/Isolation of Failure
Saga Pattern (managing long-running business transactions)
Stackable traits pattern
Dynamic scope (Make certain information available in a given context without explicitly passing it about)
Utility belt (Lightweight crosscutting resource sharing)
Reactive abstractions (Relationship among Actors, Arrows, FRP, Pub-Sub, ....)
Pimp my library (Extend existing classes with new methods)
Duck typing (structural typing)
Memoization (Memoize the result of a function)
Algebraic data types
Concept pattern

Mir bekannte Scala-Libraries:

Techniken der Integration aller Java Libraries, Build-Tool sbt
Akka (toolkit and runtime for building highly concurrent, distributed, and resilient message-driven applications)
Play (Built on Akka: Lightweight, stateless, web-friendly architecture with predictable and minimal resource consumption for highly-scalable applications)
Spray (REST/HTTP auf Basis von Akka, ersetzt durch Akka HTTP)
Spark (Big Data streaming / data processing library; hat eine Integration mit Scala, Akka und Actors)
Flink (wie Spark)
Lagom, QBit (Microservices)
Scalaz (New Data Types, Extensions to standard classes, general utility functions (ad-hoc polymorphism, traits + implicit parameters + implicit conversions)
Shapeless (type class and dependent type based generic programming library, typesafe casts, heterogenous lists, extensible records, lenses), Shapeless-contrib (integration of Scalaz, Shapeless and Spire)
Spire (Powerful new number types and numeric abstractions)
Cats (Containers, Composition, Algorithms)
Slick (Lightbend ORM mit codegenerator)
Squeryl (ORM and DB DSL)
Finagle (extensible RPC system)
ScalaNLP (Natural Laguage Processing with Breeze, Epic, etc.)
LinAlg (Linear-Algebra Scala Library)
ScalaCheck (Property-based testing)
Rapture Libraries (family of Scala libraries providing beautiful idiomatic and typesafe Scala APIs for common programming tasks, like working with I/O, cryptography and JSON & XML processing)
Twitter Bijection für Datenkonvertierungen.
Scraml (RAML code generator), swagger-codegen.
scodec: Working with binary data: performant data structures for working with bits and bytes to streaming encoding and decoding.
Netflix Hollow (small to moderately sized in-memory datasets passing from a single producer to many consumers for read-only access)
Squants (working with Quantities)
PureConfig, Typesafe/Lightbend Config.
Ammonite (Scala Scripting).
Scalate (Scala Template Engine) mit SSP-Funktionalität (Scala Server Pages)

Meine Ansätze zur Betrugserkennung:

Die Schritte im Data Mining-Prozess sind:

Problemstellung/-Definition beschreiben
Datenerhebung und Verbesserung: Definieren von Datenquellen, Joinen und Denormalisien von Daten, Daten anreichern, Daten transformieren.
Modellierungsstrategien: Auswählen der Algorithmen auf der Grundlage der Modellierungsziele, z.B. Vorhersage, Klassifizierung, Erforschung/Exploration, Affinität.
Training, Validierung und Erprobung von Modellen
Analyse der Ergebnisse
Modellierungs-Iterationen
Feste optimierte Implementierung der Ergebnisse.

Algorithmus-Klassen:

Klassische Verfahren: Gap-Analyse (ausgefallene Zahlung), "klingt wie/sounds like" ähnliche Felder und deren Unterschiede (z.B. Adressen-Betrug), Tests auf Doppelungen (Doppel-Rechnungen), Mitarbeiter, die keinen Urlaub nehmen (auf das Erwischt-werden durch Ersatz-Mitarbeiter zu vermeiden), Datenabgleich (z.B. Bankdaten von Mitarbeitern und Lieferanten), Trends/plötzliche Veränderungen, Ziffern-Auftrittshäufigkeiten in wirtschaftlichen Zahlen (z.B. Rechnungsbeträge).
Regel-basierte Methoden: benötigen Fachwissen zu bekanntem Betrugs-Verhalten, unwirksam bei neuartigen Betrügereien, z.B. zwei fast gleichzeitige Transaktionen mit der gleichen Karte an geografisch verteilten Standorten, geringe vergangene Zeit zwischen den Versuchen, den Maximalbetrag abzuheben, viele kleine Transaktionen.
Überwachte Klassifizierung: Es werden Beispiele von Betrug der vergangenen Jahre benötigt, unwirksam bei neuartigen Typen.
Anomalie-Erkennung: Gut für neue Arten von Abweichungen, nicht gut für bekannte Typen
Änderungs- bzw. Wende-Punkt-Erkennung (z.B. durch ein Diagramm der im Laufe der Zeit ausgegebenen Gelder)
Multi-Level-Methoden (Transaktion / Konto / Kaufmann)
Link-Analyse-Netzwerke: Zwischen Menschen: Betrüger arbeiten nicht isoliert voneinander (z.B. gestohlene oder geklont und weitergegebene Kreditkarten) -> Netze. Zwischen Betrugstypen: Eine Bande, die eine Art von Betrug durchführt, führt wahrscheinlich auch andere Arten durch. Hidden-Markov-Modelle für die Zustandsänderungen.
Segmentierungen: Es gibt bereits Segmentierungen von Finanzverhaltens-Typen, z.B. das FRuitTs System; man kann auch versuchen, Betrugsfälle zu segmentieren, um Betrugs-Verhaltenstypen zu definieren.
Konstruieren Sie eines ?Verdachts-Score', der alle Methoden in Verbindung mit Regeln oder Gewichten kombiniert.

Die am häufigsten verwendeten Algorithmen:

Modellierungs-Ziele und Data-Mining-Techniken:

Vorhersage
- Regression and logistische Regression
- Neuronale Netze
- Entscheidungs-Bäume
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Unmöglich
Klassifikation
- Entscheidungs-Bäume
- Neuronale Netze
- Diskriminanzanalyse
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Clustering (K-means, etc.)
  - Neuronale Netze
  - Selbst-organisierende Karten (Kohonen-Netzwerke)
Exploration / Erschließung
- Entscheidungs-Bäume
- Hinweis: Zielesysteme können binär, intervall-, nominal oder ordinal sein.
  - Principal Components
  - Clustering (K-means, etc.)
Affinität
- Unmöglich
  - Assoziationen
  - Sequenzen
  - Faktorenanalyse

Einsatz von Data-Mining nach Modellierungs-Ziel und Lernmethode:

Vorhersage
- Abrieb / Retention
- Abgehobene Bargeldmenge am Automaten
- Kosten für Krankenhausaufenthalt
- Betrugs-Erkennung
- Kampagnenanalyse
  - Unmöglich
Klassifikation
- Segmentierung
- Markenwechsel
- Ausbuchungen
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentierung
  - Abrieb / Retention
Exploration / Erschließung
- Segmentierung
- Abrieb / Retention
- Scorecard-Erstellung
- Betrugs-Erkennung
- Kampagnenanalyse
  - Segmentation
  - Profiling
Affinität
- Unmöglich
  - Cross-Selling/Up-Selling
  - Einkaufskorb-Analysis

Konkrete Beispiele von Betrugserkennungs-Lösungen, die ich erarbeitet habe:

Anti-Geldwäsche (AML, Anti Money Laundering), z.B. für Daimler Financial Services (DFS) und Lloyds Banking Group (LBG).
Identitätsdiebstahl
Kreditkartenbetrug
Geldautomaten-Betrug
Betrug / Sicherheitsangriffe auf die elektronische Gesundheitskarte (eGK)
Pass-/Personalausweis-Betrug
Gesundheits-Rück-Erstattungs- und -Rechnungsbetrug
Elektronische Manipulationssicherheit / Widerstandsfähigkeiten gegen Sicherheits-Angriffe (Man-in-the-Middle, Code-Injektion, etc.)

Herausforderungen:

Pareto-Prinzip: Die ersten 50% Betrug sind einfach zu stoppen; die nächsten 25% kosten die gleiche Anstrengung; nächsten 12,5% kosten wieder die gleiche Anstrengung, etc. - nie erreichen wir 100%
Großen Datenmengen können sich sowohl hinter d als auch n verbergen
Die meisten Variablen werden sich als irrrelevant herausstellen
Die meisten Fälle sind nicht Betrug: Klassisches Data Mining Nadel-im-Heuhaufen Problem
Evolutionäres Wettrüsten
Solides Aufsetzen, Ausbalancieren und Skalieren von Präventionsmaßnahmen vs. Erkennung
Solides Aufsetzen, Ausbalancieren und Skalieren von Operationen (Handeln) und Explorationen (Beobachten/Analysieren)
Kann komplexe Datentypen beinhalten (Bilder, Signale, Texte, Netzwerke)
Verschiedene Fehlklassifizierungskosten
Viele Arten von Betrug
Unausgewogene Klassengrößen (ca. 0,1% der Transaktionen sind betrügerisch): Oft sind rund 90% der Betrugsverdachtsfälle in der Tat legitim. Dies ist wichtig, weil operative Entscheidungen getroffen werden müssen (Karte sperren?) und gute Kunden dürfen nicht verschreckt werden.
Verzögerung bei der Kennzeichnung / Verzögerung beim Lernen von Klassen-Labels: Wenn Betrug Alarm ausgelöst wird, dann ist die wahre Klasse schnell bekannt; wenn kein Alarm ausgelöst wird, dann wird er erst nach Prüfen der Abrechnung (durch den Endkunden) erkannt; Dies unterscheidet es vom normalen Paradigma der überwachten Klassifizierung => Banken können nicht immer mit Sicherheit sagen, wenn ein Betrug beginnt
Falsch gekennzeichnete Klassen: Nicht alle betrügerischen Transaktionen werden als Betrug bezeichnet (Kontoinhaber prüfen nicht immer ausreichend sorgfältig); Nicht alle legitimen Transaktionen werden als legitim bezeichnet; Es kann Feinheiten geben, z.B. dass ein Kontoinhaber Transaktionen auslöst und dann behauptet, dass vorher die Karte gestohlen wurde; Solche Transaktionen sind betrügerische Transaktionen, weil der Halter sie als solche erklärt;
Zufällige Transaktions-Ankunftszeiten
(Reaktiver) Bevölkerungs-/Populations-Drift: Betrüger ändern ihre Strategien; jeder Strategie kann viele Varianten haben, die jeweils unterschiedliche Lösungen erfordern: Phishing, Skimming, Schulter-Surfen, libanesische Schleife, falsche Fronten, Fälschungen, Vorschussbetrug (419 Scam, Nigerianischer Überweisungs-Betrug, etc)
Ein-Klassen-Modellierung: Ausreißererkennung kann neue Arten von Anomalien ermitteln, die zuvor nicht gesehen wurden; Prinzip: Bauen eines Modell für die "Norm" für diesen Kunden und erkennen, wenn etwas davon abweicht; "Norm" kann basieren auf a) diesem Kunden gegenüber sich selbst zu früheren Zeiten (jamjarring), b) der Kunde gegenüber anderen Kunden, c) Karten-Verwendungsmuster nach Lebensphase, d) Segmentierung in Kundentypen, e) eine Kombination von diesen.
Mehr-Klassen-Modellierung: Z. B. verschiedene Konto-Nutzungsarten und Lebenssituationen; könnte, über-engineered sein, zu komplex und kostspielig mit zu vielen Fehlalarmen.
Intervention: Sieht aus wie ein Standard-zwei-Klassen-überwachte-Klassifizierungs-Problem. Aber eine Intervention ändert das Ergebnis: Das Vorhersagemodell gilt nicht mehr; das zufällige Zuweisen von Kunden zu Eingreifen (A) / nicht eingreifen (B) Gruppen ist üblicherweise nicht in Bank-Kontexten zulässig; Selektivitäts-Verschiebung; Lösungen: Heckman (Wahrscheinlichkeits-)Methode, Diskriminanzanalyse.

Betriebssysteme

AIX

Android

CentOS

CP/M

Dos

Echtzeitbetriebssysteme

Embedded Linux

HPUX

iOS

IRIX

Linux

Mac OS

MS-DOS

MVS, OS/390

Novell

OS/2

OSF/Motif

PalmOS

pSOS

RACF

Red Hat Enterprise Linux

RTOS (Real Time OS)

SUN OS, Solaris

Unix

VMS

VxWorks

Win32

Win32/Linux

Win64

Windows

Windows CE

z/OS

Programmiersprachen

angular.js

AngularJS

ASN.1

ASP.NET

Assembler

Basic

C++

Clipper

Cobol

COBOL

CORBA IDL

dBase

Delphi

Emacs

Forth

Fortran

Foxpro

Groovy/Grails

Handlebars.js

HPGL, HP PCL

Imake, GNU-Make, Make-Maker etc...

IMAP

Java

Java-Entwicklung

JavaScript

JAX-WS

JAXB

JCL

JEE

jquery

Lisp

Lotus Notes Script

Makrosprachen

Maschinensprachen

MATLAB / Simulink

MDL

Modula-2

Objective C

Paradox

Pascal

Perl

PHP

PL/SQL

Prolog

Python

Relationalen DBMS

Rexx

Scala

Scriptsprachen

Shell

Smalltalk

Tcl/Tk

TeX, LaTeX

VRML

Xt, Motif

yacc/lex

Datenbanken

Access

Adabas

B-Tree

BDE

DAO

DB2

F&A

HBase

IMS

Informix

Ingres

Interbase

JDBC

Lotus Notes

MS SQL Server

MySQL

Object Store

ODBC

Oracle

Oracle Database

Paradox

POET

Postgres

Proprietäre DB

SAS

SQL

Sybase

Teradata

Watcom SQL

xBase

Datenkommunikation

Bus

CICS

CORBA

EDIFACT

Ethernet

Exim

Fax

Internet, Intranet

ISO/OSI

JSON

LAN, LAN Manager

Message Queuing

NetBeui

NetBios

parallele Schnittstelle

PC-Anywhere

POP3

Public Networks

RESTful WebServices

RFC

Router

RPC

RS232

SMTP

SNMP

SOAP

TCP/IP

UUCP

Voice

WADL

WebServices

Windows Netzwerk

Winsock

WSDL

X.400 X.25 X.225 X.75...

Hardware

AS/400

Drucker

Echtzeitsysteme

embedded Systeme

Emulatoren

Industrie-Roboter

Messgeräte

Modem

Plotter

Proprietäre HW

Rational

Sensoren

Steuer und Regelsysteme

Streamer

SUN

VAX

Video Capture Karte

Berechnung / Simulation / Versuch / Validierung

Rapid Control Prototyping (RCP)

Design / Entwicklung / Konstruktion

CATIA

Branchen

Elektronik/Elektrotechnik
Banken
Gesundheitswesen/Pharma/Medizintechnik
Verkehrstechnik
Automobilbau, Automobilwirtschaft
Luftfahrttechnik und Raumfahrttechnik
IT/EDV
Energiewirtschaft/Energieversorgung
Verlagswesen
Maschinenbau
Telekommunikation
Versand/Handel
Touristik
Versicherungen
Handel/Onlne-Marketing und Online-Vertrieb

Vertrauen Sie auf Randstad

Im Bereich Freelancing

Im Bereich Arbeitnehmerüberlassung / Personalvermittlung

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Name E-Mail-Adresse Ihre Frage

Telefonnummer Unternehmen

Ich habe die Datenschutzbestimmungen gelesen und bin damit einverstanden.

Einsatzorte

Projekte

Aus- und Weiterbildung

Position

Kompetenzen

Top-Skills

Schwerpunkte

Aufgabenbereiche

Produkte / Standards / Erfahrungen / Methoden

Betriebssysteme

Programmiersprachen

Datenbanken

Datenkommunikation

Hardware

Berechnung / Simulation / Versuch / Validierung

Design / Entwicklung / Konstruktion

Branchen

Einsatzorte

Projekte

Aus- und Weiterbildung

Position

Kompetenzen

Top-Skills

Schwerpunkte

Aufgabenbereiche

Produkte / Standards / Erfahrungen / Methoden

Betriebssysteme

Programmiersprachen

Datenbanken

Datenkommunikation

Hardware

Berechnung / Simulation / Versuch / Validierung

Design / Entwicklung / Konstruktion

Branchen

Vertrauen Sie auf Randstad

Fragen?

Rufen Sie uns an +49 89 500316-300 oder schreiben Sie uns:

Das Freelancer-Portal

Direktester geht's nicht! Ganz einfach Freelancer finden und direkt Kontakt aufnehmen.