Ga naar inhoud
Technologie

Wat is RAG (retrieval-augmented generation)?

RAG (retrieval-augmented generation) is een AI-techniek waarbij een large language model eerst relevante informatie ophaalt uit een externe kennisbank voordat het een antwoord genereert. Deze aanpak voorkomt hallucinatie en zorgt dat antwoorden accurate, actuele en verifieerbare informatie bevatten — essentieel voor zakelijke AI-toepassingen zoals klantenservice-chatbots.

Hoe RAG werkt in drie stappen

RAG splitst het generatieproces in drie fasen. Stap 1: documenten uit de kennisbank worden omgezet naar embeddings (numerieke representaties) en opgeslagen in een vector-database. Stap 2: bij een vraag wordt de vraag ook een embedding, en de meest gelijkende documentstukken worden opgehaald. Stap 3: deze context wordt samen met de vraag aan het LLM gegeven, dat een antwoord formuleert binnen die context.

Waarom RAG belangrijk is voor zakelijk gebruik

Zonder RAG verzint een LLM antwoorden op basis van zijn trainingsdata — dat is voor algemene vragen prima, maar onbruikbaar voor specifieke bedrijfsinformatie. Een chatbot op jouw site moet jouw producten kennen, niet generieke kennis hebben. RAG zorgt dat de bot alleen antwoordt vanuit jouw documentatie.

Kern-feiten

RAG (retrieval-augmented generation) in vijf punten

  • Voorkomt AI-hallucinaties door context te verankeren
  • Werkt met elke kennisbank: PDF, website, helpdesk, Notion
  • Maakt antwoorden traceerbaar tot brondocumenten
  • Up-to-date houden vereist alleen update van de kennisbank, niet retraining
  • Standaard-aanpak voor zakelijke AI-chatbots sinds 2023
Veelgestelde vragen

Veelgestelde vragen over RAG (retrieval-augmented generation)

Wat is het verschil tussen RAG en fine-tuning?

Fine-tuning leert een model nieuwe kennis door het opnieuw te trainen — duur, traag, en moeilijk te updaten. RAG laat het model nieuwe kennis raadplegen tijdens elk gesprek — goedkoop, real-time updatebaar, en transparant over waar antwoorden vandaan komen.

Welke vector-database wordt gebruikt voor RAG?

Populaire opties zijn pgvector (Postgres-extensie), Pinecone, Weaviate, Chroma en Qdrant. Denkchat gebruikt pgvector op Supabase voor EU-hosting en eenvoudige integratie met de rest van de stack.

Kan RAG meerdere documenten combineren in één antwoord?

Ja. De retrieval-stap haalt typisch 3-10 relevante fragmenten op uit verschillende documenten. Het LLM combineert deze tot een coherent antwoord en kan zelfs aangeven uit welke bron welke claim komt.

Werkt RAG ook voor andere talen dan Engels?

Ja. Embeddings-modellen zoals OpenAI text-embedding-3 ondersteunen 100+ talen. Je kunt content in het Nederlands toevoegen en vragen in het Nederlands stellen.

Klaar om zelf rag (retrieval-augmented generation) in te zetten?

Bouw een AI-chatbot getraind op jouw eigen content. Gratis starten, geen creditcard.