Integrare Baze de Date și Vector Embeddings Practice
Sesiuni programate
Bootcamp Modern AI Data: Treci dincolo de interogările relaționale clasice și deblochează puterea căutării semantice folosind vector embeddings.
Învață cum să mapezi text, imagini și date complexe în spații vectoriale multidimensionale folosind modele moderne de embedding (OpenAI, HuggingFace).
Stăpânește pgvector: Transformă PostgreSQL într-o bază de date vectorială extrem de eficientă. Înțelege strategiile de indexare (IVFFlat, HNSW) pentru a echilibra viteza de interogare și acuratețea (recall).
Experiență practică: ~70% din curs este format din laboratoare hands-on, construind de la zero un motor de căutare semantică pregătit pentru producție.
Cum te ajută: Esențial pentru construirea sistemelor RAG (Retrieval-Augmented Generation), a motoarelor de recomandare și a funcțiilor avansate de căutare, fără a depinde de baze de date vectoriale externalizate (managed) costisitoare.
Cui i se adresează: Software Engineers, Data Engineers și Administratori de Baze de Date care doresc să integreze capabilități AI în infrastructura lor existentă bazată pe PostgreSQL.
Abilități dobândite
Curriculum
Demistificarea Vector Embeddings
- Ce sunt embeddings? Trecerea de la căutarea pe bază de cuvinte cheie (BM25) la căutarea semantică
- Spații vectoriale multidimensionale și metrici de distanță (Cosine Similarity, distanța L2, Inner Product)
- Generarea de embeddings în Python: utilizarea API-urilor OpenAI vs. modele open-source rulate local (SentenceTransformers / HuggingFace)
- Mini-lab: Generarea și compararea embeddings pentru similaritate text în memorie
Introducere în pgvector și Integrarea PostgreSQL
- De ce să folosești PostgreSQL pentru vectori? Conformitate ACID + vector search
- Instalarea și configurarea extensiei pgvector via Docker
- Definirea coloanelor vectoriale, inserarea datelor multidimensionale și interogări de bază k-NN (exact nearest neighbor)
- Lab: Construirea unui motor de căutare semantică de bază peste un catalog de produse
Indexarea Approximate Nearest Neighbor (ANN)
- Problema scalării: De ce k-NN exact este prea lent pentru producție
- Indexul IVFFlat (Inverted File Flat): Concepte, construire și optimizarea parametrilor (lists, probes)
- Indexul HNSW (Hierarchical Navigable Small World): Stadiul tehnologiei (SOTA) pentru viteză și recall
- Lab: Benchmarking IVFFlat vs HNSW pe un dataset mare (trade-off între viteză și acuratețe)
Construirea unui Pipeline Complet RAG Retriever
- Strategii de chunking pentru documente lungi (Token splitters, semantic chunking)
- Căutare Hibridă (Hybrid Search): Combinarea Full-Text Search (tsvector) cu Căutarea Semantică (pgvector) pentru rezultate superioare
- Gestionarea filtrării metadatelor (ex: căutare semantică într-un interval de date sau într-o categorie specifică)
- Lab: Integrare end-to-end – De la ingestia de PDF la un API funcțional de căutare hibridă
Module opționale
Opțional — Imagini și Embeddings Multimodale
- Introducere în CLIP (Contrastive Language-Image Pretraining)
- Generarea de embeddings pentru imagini și interogarea lor via pgvector
- Construirea unui motor de căutare inversă a imaginilor (reverse image search)
Structura zilei de curs
- Partea 1: Concepte & Generare: 09:00–10:30
- Pauză: 10:30–10:45
- Partea 2: Integrare DB: 10:45–12:15
- Pauză de prânz: 12:15–13:15
- Partea 3: Indexare & Optimizare: 13:15–15:15
- Pauză: 15:15–15:30
- Partea 4: Laborator integrat: 15:30–17:30