Επίσης γνωστό ως: retrieval augmented generation
Αναλυτικά
Το RAG (Retrieval-Augmented Generation) είναι τεχνική όπου ένα LLM:
- Αναζητάει πρώτα σε εξωτερική βάση γνώσης (vector database) τα σχετικά κομμάτια κειμένου.
- Παράγει απάντηση βασισμένη στα κομμάτια που βρήκε, όχι μόνο στη γνώση που έχει εκπαιδευθεί.
Είναι ο τρόπος με τον οποίο φτιάχνετε chatbot/agent που ξέρει τα δικά σας δεδομένα — εταιρικά docs, FAQs, product catalog, internal knowledge.
Πώς δουλεύει βήμα-βήμα
- Indexing. Όλα τα έγγραφά σας (PDFs, web pages, Notion) σπάνε σε chunks (~500 tokens).
- Embedding. Κάθε chunk μετατρέπεται σε vector — ένας πίνακας αριθμών που αντιπροσωπεύει το νόημα.
- Storage. Τα vectors αποθηκεύονται σε vector database (Pinecone, Weaviate, pgvector, Qdrant).
- Query time. Όταν ο χρήστης ρωτήσει, η ερώτηση γίνεται κι αυτή vector.
- Retrieval. Βρίσκουμε τα top-5 chunks με τη μεγαλύτερη similarity.
- Generation. Δίνουμε στο LLM την ερώτηση + τα 5 chunks και παράγει απάντηση.
Γιατί δουλεύει καλύτερα από fine-tuning
- Φθηνότερο. Δεν χρειάζεται custom training.
- Επικαιροποιείται γρήγορα. Νέα δεδομένα = re-index των αλλαγμένων chunks.
- Source citations. Μπορείτε να δείξετε από πού προήλθε κάθε απάντηση.
- Λιγότερα hallucinations. Το LLM «βλέπει» τα δεδομένα — δεν τα μαντεύει.
Πότε χρειάζεστε RAG
✅ Όταν έχετε proprietary content που το AI πρέπει να ξέρει. ✅ Όταν τα δεδομένα σας αλλάζουν συχνά (νέα policies, νέα products). ✅ Όταν χρειάζεστε source attribution για compliance.
Πότε δεν χρειάζεστε RAG
❌ Όταν η γνώση είναι ευρέως γνωστή και ήδη στην training data του LLM. ❌ Για απλά FAQ <100 ερωτήσεων — μπείτε τα όλα στο system prompt.
Πλατφόρμες (2026)
- LangChain / LlamaIndex — open-source RAG frameworks.
- Pinecone — managed vector DB.
- Supabase pgvector — Postgres-based, simple.
- OpenAI Assistants API — built-in RAG, λίγο customization.
Δείτε AI Knowledge Base.
Δείτε επίσης