RAG Nedir? Kendi Verilerinizle AI Sistemi Kurma Rehberi

RAG (Retrieval-Augmented Generation), büyük dil modellerinin (LLM) yanıt üretmeden önce harici bilgi kaynaklarından ilgili verileri çekip kullanmasını sağlayan bir AI mimarisidir. Gartner'ın 2025 raporuna göre, kurumsal AI projelerinin %67'si RAG tabanlı mimariler kullanmaktadır. Bu rehberde RAG'ın teknik altyapısını, bileşenlerini ve production-ready bir sistem kurma adımlarını inceleyeceğiz.

RAG Tam Olarak Ne Anlama Geliyor?

RAG, 2020 yılında Meta AI (eski adıyla Facebook AI Research) araştırmacıları Patrick Lewis ve ekibi tarafından "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" başlıklı makalede tanıtıldı (Lewis et al., 2020). Temel fikir basit ama güçlü: LLM'e soru sormadan önce, ilgili dokümanları bir bilgi tabanından çekip bağlam olarak eklemek.

Geleneksel LLM'ler yalnızca eğitim verilerindeki bilgiyle sınırlıdır. Bu durum iki kritik sorun yaratır:

• Hallucination (halüsinasyon): Model, eğitim verisinde olmayan bilgileri uydurur.

• Güncellik eksikliği: Eğitim kesim tarihinden sonraki bilgilere erişemez.

RAG bu sorunları, modelin yanıt üretmeden önce güncel ve doğrulanmış kaynaklardan bilgi çekmesini sağlayarak çözer. McKinsey'nin analizine göre, RAG kullanan sistemlerde halüsinasyon oranı %70'e kadar düşmektedir (McKinsey Digital, 2024).

RAG Mimarisi Nasıl Çalışır?

RAG sistemi üç temel aşamadan oluşur: Indexing (indeksleme), Retrieval (çekme) ve Generation (üretme).

1. Indexing Aşaması Nedir?

Dokümanlarınız sisteme yüklenmeden önce işlenir:

Indexing Aşaması Adımları

Adım	İşlem	Araç Örnekleri
Chunking	Dokümanları küçük parçalara bölme	LangChain TextSplitter, LlamaIndex
Embedding	Metin parçalarını vektörlere dönüştürme	OpenAI Ada-002, Cohere Embed, BGE
Storage	Vektörleri veritabanında saklama	Pinecone, Weaviate, pgvector

Chunk boyutu kritik bir parametredir. Çok küçük chunk'lar bağlam kaybına, çok büyük chunk'lar ise gürültüye neden olur. LlamaIndex dokümantasyonuna göre pratikte 512-1024 token arası chunk boyutu çoğu kullanım senaryosu için optimal sonuç verir.

2. Retrieval Aşaması Nasıl İşliyor?

Kullanıcı bir soru sorduğunda:

1. Soru aynı embedding modeli ile vektöre dönüştürülür.

2. Vektör veritabanında cosine similarity veya dot product ile en yakın doküman parçaları bulunur.

3. İlgili parçalar (genellikle top-k, k=3-5) bağlam olarak LLM'e gönderilir.

3. Generation Aşamasında Ne Oluyor?

Çekilen dokümanlar bir prompt template içinde LLM'e sunulur. Model, yalnızca sağlanan bağlama dayalı yanıt üretir. Bağlamda bilgi yoksa "Bu konuda bilgim yok" demesi sağlanır.

Stanford HAI'nin araştırmasına göre, bu yaklaşım doğruluk oranını standart LLM kullanımına kıyasla %35-45 artırmaktadır (Stanford HAI, 2024).

RAG ve Fine-Tuning Arasındaki Fark Nedir?

Bu iki yaklaşım farklı problemleri çözer. Hangisini seçeceğiniz kullanım senaryonuza bağlıdır.

RAG vs Fine-Tuning Karşılaştırması

Kriter	RAG	Fine-Tuning
Veri güncelliği	Anlık güncelleme	Yeniden eğitim gerekir
Maliyet	Düşük-orta (API + vektör DB)	Yüksek (GPU, eğitim süresi)
Kurulum süresi	Saatler-günler	Günler-haftalar
Halüsinasyon kontrolü	Yüksek (kaynak gösterilebilir)	Orta
Bilgi tabanı boyutu	Sınırsız (ölçeklenebilir)	Eğitim verisiyle sınırlı
Özel terminoloji	Orta	Yüksek
Ton/stil uyumu	Düşük	Yüksek

⚗️

Chip Huyen, AI Mühendisi ve Yazar, Stanford

"RAG ve fine-tuning birbirini dışlayan yaklaşımlar değil, tamamlayıcı yaklaşımlardır. En iyi kurumsal sistemler ikisini birlikte kullanır: fine-tuning ile modelin sektörel dilini öğretir, RAG ile güncel verilere erişim sağlarsınız."

Hangi Vektör Veritabanını Seçmeli?

Vektör veritabanı seçimi RAG sisteminin performansını doğrudan etkiler. DB-Engines verilerine göre vektör veritabanı kullanımı yılda %340 artış göstermiştir (DB-Engines, 2025).

Vektör Veritabanı Karşılaştırması

Veritabanı	Tip	Ölçeklenebilirlik	Fiyatlandırma	Öne Çıkan Özellik
Pinecone	Managed	Yüksek	Ücretli (freemium)	Kolay kurulum, serverless
Weaviate	Open-source/Cloud	Yüksek	Açık kaynak + cloud	Hibrit arama (vektör + keyword)
Chroma	Open-source	Orta	Ücretsiz	Geliştirici dostu, hafif
pgvector	PostgreSQL eklentisi	Orta-yüksek	Mevcut PG maliyeti	Mevcut PG altyapısıyla uyum
Qdrant	Open-source/Cloud	Yüksek	Açık kaynak + cloud	Rust tabanlı, yüksek performans
Milvus	Open-source	Çok yüksek	Açık kaynak	Milyar ölçekli vektör desteği

Teknik öneri: Mevcut bir PostgreSQL altyapınız varsa pgvector ile başlayın. Supabase gibi platformlar pgvector'ü entegre olarak sunuyor ve böylece ayrı bir vektör veritabanı yönetmek zorunda kalmıyorsunuz.

Production-Ready RAG Sistemi Nasıl Kurulur?

Bir RAG sistemini PoC'den production'a taşımak en zorlu kısımdır. Adım adım ilerleyelim.

Adım 1: Veri Hazırlama ve Chunking Stratejisi Nasıl Belirlenir?

Chunking best practice'leri:

• Overlap kullanın: %10-20 overlap, bağlam kaybını önler.

• Metadata ekleyin: Her chunk'a kaynak dosya, tarih, bölüm bilgisi ekleyin.

• Semantik chunking deneyin: Sabit boyut yerine anlam bazlı bölme daha iyi sonuç verebilir.

Adım 2: Embedding Modeli Seçimi Nasıl Yapılır?

MTEB (Massive Text Embedding Benchmark) liderlik tablosuna göre 2025'te en iyi performans gösteren embedding modelleri:

Embedding Modeli Karşılaştırması

Model	Boyut	Performans (MTEB)	Maliyet
OpenAI text-embedding-3-large	3072	Yüksek	$0.13/1M token
Cohere embed-v3	1024	Yüksek	$0.10/1M token
BGE-M3 (açık kaynak)	1024	Yüksek	Ücretsiz
E5-mistral-7b (açık kaynak)	4096	Çok yüksek	Ücretsiz (self-host)

Açık kaynak modeller self-hosting maliyeti gerektirir ancak veri gizliliği kritik olan senaryolarda tercih edilmelidir.

Adım 3: Retrieval Kalitesi Nasıl Artırılır?

Basit similarity search çoğu zaman yeterli değildir. Gelişmiş retrieval teknikleri:

Hybrid Search (Hibrit Arama): Vektör araması ile geleneksel keyword aramasını birleştirin. Pinecone araştırmasına göre BM25 + semantic search kombinasyonu, tek başına semantic search'e göre %15-25 daha iyi sonuç verir.

Reranking: İlk aşamada geniş bir sonuç seti çekin (top-50), ardından bir reranker modeli ile en ilgili olanları seçin (top-5).

Query Transformation: Kullanıcı sorgusunu retrieval için optimize edin:

• HyDE (Hypothetical Document Embeddings): Sorgudan varsayımsal bir cevap üretip onu embed edin.

• Multi-query: Tek sorudan birden fazla sorgu türetin.

Adım 4: Evaluation (Değerlendirme) Nasıl Yapılır?

RAG sistemlerini değerlendirmek için RAGAS framework'ü endüstri standardı haline gelmiştir. Temel metrikler:

RAGAS Değerlendirme Metrikleri

Metrik	Ölçtüğü	Hedef
Faithfulness	Yanıtın bağlama sadakati	> 0.85
Answer Relevancy	Yanıtın soruyla ilgisi	> 0.80
Context Precision	Çekilen dokümanların kalitesi	> 0.75
Context Recall	Gerekli bilginin ne kadarının çekildiği	> 0.80

RAG Kullanım Senaryoları Nelerdir?

Kurumsal Bilgi Tabanı

Şirket dokümanları, politikalar, teknik dokümantasyon üzerinden çalışan iç asistan. Accenture'ın raporuna göre, RAG tabanlı kurumsal asistanlar çalışan verimliliğini ortalama %40 artırmaktadır (Accenture, 2024).

Müşteri Destek Otomasyonu

Zendesk'in verilerine göre RAG tabanlı destek botları, geleneksel chatbot'lara kıyasla %60 daha doğru yanıt vermektedir (Zendesk Benchmark Report, 2024).

Kod Asistanı

Şirketin kendi kod tabanı ve dokümantasyonu üzerinde çalışan AI asistan. GitHub Copilot'un kurumsal versiyonu bu mimariyi kullanmaktadır.

Hukuk ve Uyum (Compliance)

Yasal dokümanlar, mevzuat ve içtihatlar üzerinde çalışan RAG sistemleri. Özellikle KVKK, GDPR gibi düzenlemelerde güncellik kritik olduğu için RAG ideal bir çözümdür.

RAG Sistemlerinde Sık Karşılaşılan Hatalar Nelerdir?

RAG Sistemlerinde Sık Hatalar ve Çözümleri

Hata	Sonuç	Çözüm
Chunk boyutu çok büyük	İlgisiz bilgi eklenmesi	512-1024 token arası kullanın
Overlap olmadan chunking	Bağlam kaybı	%10-20 overlap ekleyin
Tek embedding modeli ile devam	Suboptimal performans	MTEB'de benchmark yapın
Retrieval sonuçlarını filtrelememe	Gürültülü bağlam	Reranking ekleyin
Prompt engineering ihmal etme	Düşük yanıt kalitesi	System prompt'u optimize edin
Evaluation yapmama	Kalite takibi eksikliği	RAGAS ile düzenli test edin
Metadata kullanmama	Filtreleme imkansızlığı	Her chunk'a metadata ekleyin

2026'da RAG Trendleri Neler Olacak?

Agentic RAG Nedir?

Tek seferlik retrieval yerine, AI ajanlarının iteratif olarak bilgi çekmesi ve çoklu kaynaklara erişmesi. LangChain/LangGraph ve CrewAI gibi framework'ler bu yaklaşımı desteklemektedir.

GraphRAG Ne Getiriyor?

Microsoft'un tanıttığı GraphRAG, geleneksel vektör aramasını bilgi grafikleri (knowledge graphs) ile birleştirerek özellikle çok adımlı muhakeme gerektiren sorularda %30-50 daha iyi performans sağlamaktadır (Microsoft Research, 2024).

Multimodal RAG Neden Önemli?

Sadece metin değil, görsel, tablo, grafik ve hatta video içeriklerinden de bilgi çekebilen RAG sistemleri. Google'ın Gemini ve OpenAI'ın GPT-4o modelleri bu alana yatırım yapmaktadır.

⚗️

Simyacı Notu

RAG projenize başlarken en büyük hata, karmaşık bir mimari ile başlamaktır. Önce basit bir RAG pipeline kurun, RAGAS ile değerlendirin, sonra iteratif olarak hybrid search, reranking gibi katmanları ekleyin. "Make it work, make it right, make it fast" prensibi burada da geçerli.

Sık Sorulan Sorular

RAG sistemi kurmak için minimum teknik gereksinimler nelerdir?

RAG sistemi kurmak için Python bilgisi, bir embedding modeli (OpenAI API veya açık kaynak), bir vektör veritabanı (pgvector ile başlayabilirsiniz) ve bir LLM API erişimi yeterlidir. LangChain veya LlamaIndex gibi framework'ler kurulum sürecini önemli ölçüde basitleştirir.

RAG mı yoksa fine-tuning mı tercih edilmeli?

Verileriniz sık güncelleniyorsa, kaynak gösterme önemliyse ve hızlı kurulum istiyorsanız RAG tercih edin. Modelin özel bir terminoloji veya yazım stili öğrenmesi gerekiyorsa fine-tuning daha uygun olur. En etkili kurumsal çözümler her iki yaklaşımı hibrit olarak kullanır.

RAG sistemi ne kadar maliyetlidir?

Maliyet, ölçeğe göre değişir. Küçük ölçekli bir PoC için OpenAI API, Chroma ve birkaç bin doküman ile aylık $50-200 arası yeterlidir. Kurumsal ölçekte Pinecone veya Weaviate Cloud ile bu maliyet aylık $500-5000 aralığına çıkabilir. Açık kaynak stack ile self-hosting maliyetleri sunucu altyapısına bağlıdır.

Vektör veritabanı olmadan RAG yapılabilir mi?

Teknik olarak evet — küçük veri setlerinde in-memory FAISS veya basit TF-IDF tabanlı arama kullanılabilir. Ancak production ortamında ölçeklenebilirlik, persistency ve performans açısından bir vektör veritabanı şarttır. pgvector gibi mevcut PostgreSQL altyapınıza eklenebilen çözümler geçiş maliyetini düşürür.

RAG sisteminde halüsinasyonu tamamen önlemek mümkün mü?

Tamamen önlemek mümkün değildir, ancak önemli ölçüde azaltılabilir. Faithfulness skoru 0.85 üzerinde tutulmalıdır. Prompt'ta "yalnızca verilen bağlama dayanarak yanıtla" talimatı, confidence threshold ekleme ve kaynak gösterme zorunluluğu halüsinasyonu %70-80 oranında azaltır (Stanford HAI, 2024).

RAG ile kaç doküman işlenebilir?

Teorik bir üst sınır yoktur. Pinecone ve Milvus gibi platformlar milyarlarca vektörü destekler. Pratikte performans, chunk boyutu, embedding modeli ve veritabanı konfigürasyonuna bağlıdır. Orta ölçekli bir kurumsal sistemde 100.000-1.000.000 doküman sorunsuz işlenebilir.

RAG sistemi hangi dilleri destekler?

RAG sistemi, kullanılan embedding modelinin desteklediği tüm dillerde çalışır. Multilingual modeller (BGE-M3, Cohere multilingual) Türkçe dahil 100+ dili destekler. Ancak en iyi performans İngilizce içeriklerde alınır; Türkçe için multilingual modelleri benchmark yapmanız önerilir.

Mevcut bir chatbot'a RAG nasıl eklenir?

Mevcut chatbot'unuzun LLM çağrısından önce bir retrieval katmanı ekleyerek RAG entegre edilebilir. LangChain'in RetrievalQA chain'i veya LlamaIndex'in query engine'i bu entegrasyonu birkaç satır kodla yapmanızı sağlar. Mevcut konuşma geçmişi yönetimi korunarak retrieval katmanı eklenir.

Sonuç

RAG, kurumsal AI uygulamalarında doğruluk, güncellik ve özelleştirme sorunlarını çözen en pratik mimari yaklaşımdır. Basit bir pipeline ile başlayıp, RAGAS metrikleriyle kaliteyi ölçerek iteratif geliştirme yapmanız en sağlıklı yoldur.

Başlamak için LangChain dokümantasyonu veya LlamaIndex rehberleri ile ilk RAG pipeline'ınızı oluşturabilirsiniz.