Edocti
Fortgeschrittene technische Ausbildung für den modernen Softwareingenieur
Edocti Training

Praktische Vector Embeddings & Datenbank-Integration

Mittelstufe
7 h
4.9 (42 Bewertungen)

Geplante Sessions

Aktuell sind keine Termine verfügbar.
Praktische Vector Embeddings & Datenbank-Integration

Modernes AI-Data-Bootcamp: Gehen Sie über grundlegende relationale Abfragen hinaus und nutzen Sie die Leistungsfähigkeit der semantischen Suche mithilfe von Vector Embeddings.

Lernen Sie, wie man Text, Bilder und komplexe Daten in hochdimensionale Vektorräume abbildet, indem Sie moderne Embedding-Modelle (OpenAI, HuggingFace) verwenden.

Meistern Sie pgvector: Verwandeln Sie PostgreSQL in eine hocheffiziente Vektordatenbank. Verstehen Sie Indexierungsstrategien (IVFFlat, HNSW), um Abfragegeschwindigkeit und Recall-Genauigkeit auszubalancieren.

Praktische Erfahrung sammeln: Durch ~70% Hands-on-Labs bauen Sie eine produktionsreife semantische Suchmaschine von Grund auf neu auf.

Ihr Nutzen: Unerlässlich für den Aufbau von RAG-Systemen (Retrieval-Augmented Generation), Empfehlungsmaschinen und erweiterten Suchfunktionen, ohne sich auf teure, gemanagte Vektordatenbanken verlassen zu müssen.

Für wen: Software Engineers, Data Engineers und Datenbankadministratoren, die KI-Funktionen in ihre bestehende PostgreSQL-Infrastruktur integrieren möchten.

Fähigkeiten, die Sie lernen werden

Vektormathematik Embedding-Generierung (Python) PostgreSQL & pgvector Cosine Similarity & L2-Distanz HNSW & IVFFlat Indexierung Hybrid Search (Semantisch + Text) RAG Data Ingestion Pipelines

Curriculum

Entmystifizierung von Vector Embeddings

  • Was sind Embeddings? Der Übergang von der Stichwortsuche (BM25) zur semantischen Suche
  • Hochdimensionale Vektorräume und Distanzmetriken (Cosine Similarity, L2-Distanz, Inner Product)
  • Generierung von Embeddings in Python: Nutzung von OpenAI-APIs im Vergleich zu lokalen Open-Source-Modellen (SentenceTransformers/HuggingFace)
  • Mini-Lab: Generierung und Vergleich von Embeddings für Textähnlichkeit im Arbeitsspeicher

Einführung in pgvector und PostgreSQL-Integration

  • Warum PostgreSQL für Vektoren? ACID-Konformität + Vector Search
  • Installation und Konfiguration der pgvector-Erweiterung via Docker
  • Definition von Vektorspalten, Einfügen hochdimensionaler Daten und grundlegende k-NN-Abfragen (Exact Nearest Neighbor)
  • Lab: Aufbau einer grundlegenden semantischen Suchmaschine über einen Produktkatalog

Approximate Nearest Neighbor (ANN) Indexierung

  • Das Skalierungsproblem: Warum exaktes k-NN für die Produktion zu langsam ist
  • IVFFlat-Index (Inverted File Flat): Konzepte, Aufbau und Parameter-Tuning (lists, probes)
  • HNSW-Index (Hierarchical Navigable Small World): Der aktuelle Stand der Technik (SOTA) für Geschwindigkeit und Recall
  • Lab: Benchmarking von IVFFlat vs. HNSW auf einem großen Datensatz (Kompromisse zwischen Geschwindigkeit und Genauigkeit)

Aufbau einer kompletten RAG-Retriever-Pipeline

  • Chunking-Strategien für lange Dokumente (Token-Splitter, semantisches Chunking)
  • Hybrid Search: Kombination aus Full-Text Search (tsvector) und Semantic Search (pgvector) für überlegene Ergebnisse
  • Handhabung von Metadaten-Filterung (z.B. semantische Suche innerhalb eines bestimmten Datumsbereichs oder einer Kategorie)
  • Lab: End-to-End-Integration – Von der PDF-Verarbeitung bis hin zu einer funktionierenden hybriden Such-API

Optionale Module

Optional — Bild- und Multimodale Embeddings

  • Einführung in CLIP (Contrastive Language-Image Pretraining)
  • Generierung von Bild-Embeddings und deren Abfrage via pgvector
  • Aufbau einer umgekehrten Bildersuche (Reverse Image Search)

Kursablauf

  • Teil 1: Konzepte & Generierung: 09:00–10:30
  • Pause: 10:30–10:45
  • Teil 2: DB-Integration: 10:45–12:15
  • Mittagspause: 12:15–13:15
  • Teil 3: Indexierung & Tuning: 13:15–15:15
  • Pause: 15:15–15:30
  • Teil 4: Praxis-Lab: 15:30–17:30

Möchten Sie mehr erfahren? Wir helfen Ihnen gern!

Oder schreiben Sie uns direkt an training@edocti.com.