Edocti Training

Praktische Vector Embeddings & Datenbank-Integration

Name: Praktische Vector Embeddings & Datenbank-Integration
Rating: 4.9 (42 reviews)

Mittelstufe

7 h

4.9 (42 Bewertungen)

Kontakt aufnehmen

Geplante Sessions

Aktuell sind keine Termine verfügbar.

Informieren Sie mich über die nächste verfügbare Session

Praktische Vector Embeddings & Datenbank-Integration

Modernes AI-Data-Bootcamp: Gehen Sie über grundlegende relationale Abfragen hinaus und nutzen Sie die Leistungsfähigkeit der semantischen Suche mithilfe von Vector Embeddings.

Lernen Sie, wie man Text, Bilder und komplexe Daten in hochdimensionale Vektorräume abbildet, indem Sie moderne Embedding-Modelle (OpenAI, HuggingFace) verwenden.

Meistern Sie pgvector: Verwandeln Sie PostgreSQL in eine hocheffiziente Vektordatenbank. Verstehen Sie Indexierungsstrategien (IVFFlat, HNSW), um Abfragegeschwindigkeit und Recall-Genauigkeit auszubalancieren.

Praktische Erfahrung sammeln: Durch ~70% Hands-on-Labs bauen Sie eine produktionsreife semantische Suchmaschine von Grund auf neu auf.

Ihr Nutzen: Unerlässlich für den Aufbau von RAG-Systemen (Retrieval-Augmented Generation), Empfehlungsmaschinen und erweiterten Suchfunktionen, ohne sich auf teure, gemanagte Vektordatenbanken verlassen zu müssen.

Für wen: Software Engineers, Data Engineers und Datenbankadministratoren, die KI-Funktionen in ihre bestehende PostgreSQL-Infrastruktur integrieren möchten.

Fähigkeiten, die Sie lernen werden

Vektormathematik Embedding-Generierung (Python) PostgreSQL & pgvector Cosine Similarity & L2-Distanz HNSW & IVFFlat Indexierung Hybrid Search (Semantisch + Text) RAG Data Ingestion Pipelines

Curriculum

Entmystifizierung von Vector Embeddings

Was sind Embeddings? Der Übergang von der Stichwortsuche (BM25) zur semantischen Suche
Hochdimensionale Vektorräume und Distanzmetriken (Cosine Similarity, L2-Distanz, Inner Product)
Generierung von Embeddings in Python: Nutzung von OpenAI-APIs im Vergleich zu lokalen Open-Source-Modellen (SentenceTransformers/HuggingFace)
Mini-Lab: Generierung und Vergleich von Embeddings für Textähnlichkeit im Arbeitsspeicher

Einführung in pgvector und PostgreSQL-Integration

Warum PostgreSQL für Vektoren? ACID-Konformität + Vector Search
Installation und Konfiguration der pgvector-Erweiterung via Docker
Definition von Vektorspalten, Einfügen hochdimensionaler Daten und grundlegende k-NN-Abfragen (Exact Nearest Neighbor)
Lab: Aufbau einer grundlegenden semantischen Suchmaschine über einen Produktkatalog

Approximate Nearest Neighbor (ANN) Indexierung

Das Skalierungsproblem: Warum exaktes k-NN für die Produktion zu langsam ist
IVFFlat-Index (Inverted File Flat): Konzepte, Aufbau und Parameter-Tuning (lists, probes)
HNSW-Index (Hierarchical Navigable Small World): Der aktuelle Stand der Technik (SOTA) für Geschwindigkeit und Recall
Lab: Benchmarking von IVFFlat vs. HNSW auf einem großen Datensatz (Kompromisse zwischen Geschwindigkeit und Genauigkeit)

Aufbau einer kompletten RAG-Retriever-Pipeline

Chunking-Strategien für lange Dokumente (Token-Splitter, semantisches Chunking)
Hybrid Search: Kombination aus Full-Text Search (tsvector) und Semantic Search (pgvector) für überlegene Ergebnisse
Handhabung von Metadaten-Filterung (z.B. semantische Suche innerhalb eines bestimmten Datumsbereichs oder einer Kategorie)
Lab: End-to-End-Integration – Von der PDF-Verarbeitung bis hin zu einer funktionierenden hybriden Such-API

Optionale Module

Optional — Bild- und Multimodale Embeddings

Einführung in CLIP (Contrastive Language-Image Pretraining)
Generierung von Bild-Embeddings und deren Abfrage via pgvector
Aufbau einer umgekehrten Bildersuche (Reverse Image Search)

Kursablauf

Teil 1: Konzepte & Generierung: 09:00–10:30
Pause: 10:30–10:45
Teil 2: DB-Integration: 10:45–12:15
Mittagspause: 12:15–13:15
Teil 3: Indexierung & Tuning: 13:15–15:15
Pause: 15:15–15:30
Teil 4: Praxis-Lab: 15:30–17:30

Warum Edocti?

Die Trainer: der offensichtlichste Grund. Wir lieben, was wir tun, und teilen das Wissen aus unserer täglichen Praxis.
Relevante Inhalte: zugeschnitten auf die tatsächlichen, alltäglichen Bedürfnisse des Engineering-Teams.
Hands-on first: Alle unsere Kurse sind praxisorientiert. Wir glauben nicht an "Slide-Kurse". Unsere Programme bestehen zu ca. 70 % aus Praxis und 30 % aus fokussierter Theorie.
Edocti arbeitet seit 2016 an Automotive-Projekten.
Unsere Trainer verfügen über mehr als 11 Jahre Erfahrung im Automotive-Sektor.
Projekte im Bereich Autonomes Fahren und ADAS für Volvo und General Motors.
V2X-Projekte für GM und VW.
Enge Zusammenarbeit mit Tier-1-Unternehmen für technisches Training und Architektur.

Für wen ist dieser Kurs gedacht

Software Engineers, Backend-Entwickler und Data Engineers, die Vektormathematik verstehen, Embeddings generieren und schnelle, skalierbare semantische Suchsysteme mit PostgreSQL und pgvector aufbauen möchten.

Erforderliche Infrastruktur

Laptop (Windows/macOS/Linux) mit installiertem Docker. Wir stellen sofort lauffähige Docker-Compose-Setups bereit, einschließlich PostgreSQL mit der pgvector-Erweiterung und Jupyter Notebooks für Python-Labs.