Edocti Training

Integrare Baze de Date și Vector Embeddings Practice

Name: Integrare Baze de Date și Vector Embeddings Practice
Rating: 4.9 (42 reviews)

Intermediar

7 h

4.9 (42 recenzii)

Contactați-ne

Sesiuni programate

Nu există sesiuni disponibile în acest moment.

Anunță-mă când se deschide următoarea sesiune

Integrare Baze de Date și Vector Embeddings Practice

Bootcamp Modern AI Data: Treci dincolo de interogările relaționale clasice și deblochează puterea căutării semantice folosind vector embeddings.

Învață cum să mapezi text, imagini și date complexe în spații vectoriale multidimensionale folosind modele moderne de embedding (OpenAI, HuggingFace).

Stăpânește pgvector: Transformă PostgreSQL într-o bază de date vectorială extrem de eficientă. Înțelege strategiile de indexare (IVFFlat, HNSW) pentru a echilibra viteza de interogare și acuratețea (recall).

Experiență practică: ~70% din curs este format din laboratoare hands-on, construind de la zero un motor de căutare semantică pregătit pentru producție.

Cum te ajută: Esențial pentru construirea sistemelor RAG (Retrieval-Augmented Generation), a motoarelor de recomandare și a funcțiilor avansate de căutare, fără a depinde de baze de date vectoriale externalizate (managed) costisitoare.

Cui i se adresează: Software Engineers, Data Engineers și Administratori de Baze de Date care doresc să integreze capabilități AI în infrastructura lor existentă bazată pe PostgreSQL.

Abilități dobândite

Matematică Vectorială Generare Embeddings (Python) PostgreSQL & pgvector Distanța Cosine & Distanța L2 Indexare HNSW & IVFFlat Hybrid Search (Semantic + Text) Pipeline-uri ingestie date RAG

Curriculum

Demistificarea Vector Embeddings

Ce sunt embeddings? Trecerea de la căutarea pe bază de cuvinte cheie (BM25) la căutarea semantică
Spații vectoriale multidimensionale și metrici de distanță (Cosine Similarity, distanța L2, Inner Product)
Generarea de embeddings în Python: utilizarea API-urilor OpenAI vs. modele open-source rulate local (SentenceTransformers / HuggingFace)
Mini-lab: Generarea și compararea embeddings pentru similaritate text în memorie

Introducere în pgvector și Integrarea PostgreSQL

De ce să folosești PostgreSQL pentru vectori? Conformitate ACID + vector search
Instalarea și configurarea extensiei pgvector via Docker
Definirea coloanelor vectoriale, inserarea datelor multidimensionale și interogări de bază k-NN (exact nearest neighbor)
Lab: Construirea unui motor de căutare semantică de bază peste un catalog de produse

Indexarea Approximate Nearest Neighbor (ANN)

Problema scalării: De ce k-NN exact este prea lent pentru producție
Indexul IVFFlat (Inverted File Flat): Concepte, construire și optimizarea parametrilor (lists, probes)
Indexul HNSW (Hierarchical Navigable Small World): Stadiul tehnologiei (SOTA) pentru viteză și recall
Lab: Benchmarking IVFFlat vs HNSW pe un dataset mare (trade-off între viteză și acuratețe)

Construirea unui Pipeline Complet RAG Retriever

Strategii de chunking pentru documente lungi (Token splitters, semantic chunking)
Căutare Hibridă (Hybrid Search): Combinarea Full-Text Search (tsvector) cu Căutarea Semantică (pgvector) pentru rezultate superioare
Gestionarea filtrării metadatelor (ex: căutare semantică într-un interval de date sau într-o categorie specifică)
Lab: Integrare end-to-end – De la ingestia de PDF la un API funcțional de căutare hibridă

Module opționale

Opțional — Imagini și Embeddings Multimodale

Introducere în CLIP (Contrastive Language-Image Pretraining)
Generarea de embeddings pentru imagini și interogarea lor via pgvector
Construirea unui motor de căutare inversă a imaginilor (reverse image search)

Structura zilei de curs

Partea 1: Concepte & Generare: 09:00–10:30
Pauză: 10:30–10:45
Partea 2: Integrare DB: 10:45–12:15
Pauză de prânz: 12:15–13:15
Partea 3: Indexare & Optimizare: 13:15–15:15
Pauză: 15:15–15:30
Partea 4: Laborator integrat: 15:30–17:30

De ce Edocti?

Trainerii: cel mai evident motiv. Iubim ceea ce facem și împărtășim cunoștințele acumulate în practica de zi cu zi.
Conținut relevant: personalizat pe nevoile reale, de zi cu zi, ale echipei de inginerie.
Hands-on first: toate cursurile noastre sunt practice. Nu credem în "cursuri din slide-uri". Programele noastre sunt aproximativ 70% practice și 30% teorie aplicată.
Edocti lucrează pe proiecte Automotive din 2016.
Trainerii noștri au peste 11 ani de experiență în industria Automotive.
Proiecte de Autonomous Driving și ADAS pentru Volvo și General Motors.
Proiecte V2X pentru GM și VW.
Colaborare strânsă cu companii Tier-1 pentru training tehnic și arhitectură.

Cui se adresează acest curs

Ingineri software, dezvoltatori backend și data engineers care doresc să înțeleagă matematica vectorială, să genereze embeddings și să construiască sisteme de căutare semantică rapide și scalabile folosind PostgreSQL și pgvector.

Infrastructura necesară

Laptop (Windows/macOS/Linux) cu Docker instalat. Oferim medii preconfigurate via Docker Compose, incluzând PostgreSQL cu extensia pgvector și Jupyter Notebooks pentru laboratoarele de Python.