Edocti
Training tehnic avansat pentru inginerul software de mâine
Edocti Training

Integrare Baze de Date și Vector Embeddings Practice

Intermediar
7 h
4.9 (42 recenzii)

Sesiuni programate

Nu există sesiuni disponibile în acest moment.
Integrare Baze de Date și Vector Embeddings Practice

Bootcamp Modern AI Data: Treci dincolo de interogările relaționale clasice și deblochează puterea căutării semantice folosind vector embeddings.

Învață cum să mapezi text, imagini și date complexe în spații vectoriale multidimensionale folosind modele moderne de embedding (OpenAI, HuggingFace).

Stăpânește pgvector: Transformă PostgreSQL într-o bază de date vectorială extrem de eficientă. Înțelege strategiile de indexare (IVFFlat, HNSW) pentru a echilibra viteza de interogare și acuratețea (recall).

Experiență practică: ~70% din curs este format din laboratoare hands-on, construind de la zero un motor de căutare semantică pregătit pentru producție.

Cum te ajută: Esențial pentru construirea sistemelor RAG (Retrieval-Augmented Generation), a motoarelor de recomandare și a funcțiilor avansate de căutare, fără a depinde de baze de date vectoriale externalizate (managed) costisitoare.

Cui i se adresează: Software Engineers, Data Engineers și Administratori de Baze de Date care doresc să integreze capabilități AI în infrastructura lor existentă bazată pe PostgreSQL.

Abilități dobândite

Matematică Vectorială Generare Embeddings (Python) PostgreSQL & pgvector Distanța Cosine & Distanța L2 Indexare HNSW & IVFFlat Hybrid Search (Semantic + Text) Pipeline-uri ingestie date RAG

Curriculum

Demistificarea Vector Embeddings

  • Ce sunt embeddings? Trecerea de la căutarea pe bază de cuvinte cheie (BM25) la căutarea semantică
  • Spații vectoriale multidimensionale și metrici de distanță (Cosine Similarity, distanța L2, Inner Product)
  • Generarea de embeddings în Python: utilizarea API-urilor OpenAI vs. modele open-source rulate local (SentenceTransformers / HuggingFace)
  • Mini-lab: Generarea și compararea embeddings pentru similaritate text în memorie

Introducere în pgvector și Integrarea PostgreSQL

  • De ce să folosești PostgreSQL pentru vectori? Conformitate ACID + vector search
  • Instalarea și configurarea extensiei pgvector via Docker
  • Definirea coloanelor vectoriale, inserarea datelor multidimensionale și interogări de bază k-NN (exact nearest neighbor)
  • Lab: Construirea unui motor de căutare semantică de bază peste un catalog de produse

Indexarea Approximate Nearest Neighbor (ANN)

  • Problema scalării: De ce k-NN exact este prea lent pentru producție
  • Indexul IVFFlat (Inverted File Flat): Concepte, construire și optimizarea parametrilor (lists, probes)
  • Indexul HNSW (Hierarchical Navigable Small World): Stadiul tehnologiei (SOTA) pentru viteză și recall
  • Lab: Benchmarking IVFFlat vs HNSW pe un dataset mare (trade-off între viteză și acuratețe)

Construirea unui Pipeline Complet RAG Retriever

  • Strategii de chunking pentru documente lungi (Token splitters, semantic chunking)
  • Căutare Hibridă (Hybrid Search): Combinarea Full-Text Search (tsvector) cu Căutarea Semantică (pgvector) pentru rezultate superioare
  • Gestionarea filtrării metadatelor (ex: căutare semantică într-un interval de date sau într-o categorie specifică)
  • Lab: Integrare end-to-end – De la ingestia de PDF la un API funcțional de căutare hibridă

Module opționale

Opțional — Imagini și Embeddings Multimodale

  • Introducere în CLIP (Contrastive Language-Image Pretraining)
  • Generarea de embeddings pentru imagini și interogarea lor via pgvector
  • Construirea unui motor de căutare inversă a imaginilor (reverse image search)

Structura zilei de curs

  • Partea 1: Concepte & Generare: 09:00–10:30
  • Pauză: 10:30–10:45
  • Partea 2: Integrare DB: 10:45–12:15
  • Pauză de prânz: 12:15–13:15
  • Partea 3: Indexare & Optimizare: 13:15–15:15
  • Pauză: 15:15–15:30
  • Partea 4: Laborator integrat: 15:30–17:30

Vrei să afli mai multe? Suntem aici să te ajutăm!

Sau scrie-ne direct la training@edocti.com.