RAG Nedir? Kendi Verilerinizle AI Sistemi Kurma Rehberi

🧙‍♂️
Dijital Simya
28 Ocak 2026
İş Yönetimi
13 dk

RAG (Retrieval-Augmented Generation), büyük dil modellerinin (LLM) yanıt üretmeden önce harici bilgi kaynaklarından ilgili verileri çekip kullanmasını sağlayan bir AI mimarisidir. Gartner'ın 2025 raporuna göre, kurumsal AI projelerinin %67'si RAG tabanlı mimariler kullanmaktadır. Bu rehberde RAG'ın teknik altyapısını, bileşenlerini ve production-ready bir sistem kurma adımlarını inceleyeceğiz.

RAG Tam Olarak Ne Anlama Geliyor?

RAG, 2020 yılında Meta AI (eski adıyla Facebook AI Research) araştırmacıları Patrick Lewis ve ekibi tarafından "Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks" başlıklı makalede tanıtıldı (Lewis et al., 2020). Temel fikir basit ama güçlü: LLM'e soru sormadan önce, ilgili dokümanları bir bilgi tabanından çekip bağlam olarak eklemek.

Geleneksel LLM'ler yalnızca eğitim verilerindeki bilgiyle sınırlıdır. Bu durum iki kritik sorun yaratır:

• Hallucination (halüsinasyon): Model, eğitim verisinde olmayan bilgileri uydurur.

• Güncellik eksikliği: Eğitim kesim tarihinden sonraki bilgilere erişemez.

RAG bu sorunları, modelin yanıt üretmeden önce güncel ve doğrulanmış kaynaklardan bilgi çekmesini sağlayarak çözer. McKinsey'nin analizine göre, RAG kullanan sistemlerde halüsinasyon oranı %70'e kadar düşmektedir (McKinsey Digital, 2024).

RAG Mimarisi Nasıl Çalışır?

RAG sistemi üç temel aşamadan oluşur: Indexing (indeksleme), Retrieval (çekme) ve Generation (üretme).

1. Indexing Aşaması Nedir?

Dokümanlarınız sisteme yüklenmeden önce işlenir:

Indexing Aşaması Adımları

AdımİşlemAraç Örnekleri
ChunkingDokümanları küçük parçalara bölmeLangChain TextSplitter, LlamaIndex
EmbeddingMetin parçalarını vektörlere dönüştürmeOpenAI Ada-002, Cohere Embed, BGE
StorageVektörleri veritabanında saklamaPinecone, Weaviate, pgvector

Chunk boyutu kritik bir parametredir. Çok küçük chunk'lar bağlam kaybına, çok büyük chunk'lar ise gürültüye neden olur. LlamaIndex dokümantasyonuna göre pratikte 512-1024 token arası chunk boyutu çoğu kullanım senaryosu için optimal sonuç verir.

2. Retrieval Aşaması Nasıl İşliyor?

Kullanıcı bir soru sorduğunda:

1. Soru aynı embedding modeli ile vektöre dönüştürülür.

2. Vektör veritabanında cosine similarity veya dot product ile en yakın doküman parçaları bulunur.

3. İlgili parçalar (genellikle top-k, k=3-5) bağlam olarak LLM'e gönderilir.

3. Generation Aşamasında Ne Oluyor?

Çekilen dokümanlar bir prompt template içinde LLM'e sunulur. Model, yalnızca sağlanan bağlama dayalı yanıt üretir. Bağlamda bilgi yoksa "Bu konuda bilgim yok" demesi sağlanır.

Stanford HAI'nin araştırmasına göre, bu yaklaşım doğruluk oranını standart LLM kullanımına kıyasla %35-45 artırmaktadır (Stanford HAI, 2024).

RAG ve Fine-Tuning Arasındaki Fark Nedir?

Bu iki yaklaşım farklı problemleri çözer. Hangisini seçeceğiniz kullanım senaryonuza bağlıdır.

RAG vs Fine-Tuning Karşılaştırması

KriterRAGFine-Tuning
Veri güncelliğiAnlık güncellemeYeniden eğitim gerekir
MaliyetDüşük-orta (API + vektör DB)Yüksek (GPU, eğitim süresi)
Kurulum süresiSaatler-günlerGünler-haftalar
Halüsinasyon kontrolüYüksek (kaynak gösterilebilir)Orta
Bilgi tabanı boyutuSınırsız (ölçeklenebilir)Eğitim verisiyle sınırlı
Özel terminolojiOrtaYüksek
Ton/stil uyumuDüşükYüksek
⚗️

Chip Huyen, AI Mühendisi ve Yazar, Stanford

"RAG ve fine-tuning birbirini dışlayan yaklaşımlar değil, tamamlayıcı yaklaşımlardır. En iyi kurumsal sistemler ikisini birlikte kullanır: fine-tuning ile modelin sektörel dilini öğretir, RAG ile güncel verilere erişim sağlarsınız."

Hangi Vektör Veritabanını Seçmeli?

Vektör veritabanı seçimi RAG sisteminin performansını doğrudan etkiler. DB-Engines verilerine göre vektör veritabanı kullanımı yılda %340 artış göstermiştir (DB-Engines, 2025).

Vektör Veritabanı Karşılaştırması

VeritabanıTipÖlçeklenebilirlikFiyatlandırmaÖne Çıkan Özellik
PineconeManagedYüksekÜcretli (freemium)Kolay kurulum, serverless
WeaviateOpen-source/CloudYüksekAçık kaynak + cloudHibrit arama (vektör + keyword)
ChromaOpen-sourceOrtaÜcretsizGeliştirici dostu, hafif
pgvectorPostgreSQL eklentisiOrta-yüksekMevcut PG maliyetiMevcut PG altyapısıyla uyum
QdrantOpen-source/CloudYüksekAçık kaynak + cloudRust tabanlı, yüksek performans
MilvusOpen-sourceÇok yüksekAçık kaynakMilyar ölçekli vektör desteği

Teknik öneri: Mevcut bir PostgreSQL altyapınız varsa pgvector ile başlayın. Supabase gibi platformlar pgvector'ü entegre olarak sunuyor ve böylece ayrı bir vektör veritabanı yönetmek zorunda kalmıyorsunuz.

Production-Ready RAG Sistemi Nasıl Kurulur?

Bir RAG sistemini PoC'den production'a taşımak en zorlu kısımdır. Adım adım ilerleyelim.

Adım 1: Veri Hazırlama ve Chunking Stratejisi Nasıl Belirlenir?

Chunking best practice'leri:

• Overlap kullanın: %10-20 overlap, bağlam kaybını önler.

• Metadata ekleyin: Her chunk'a kaynak dosya, tarih, bölüm bilgisi ekleyin.

• Semantik chunking deneyin: Sabit boyut yerine anlam bazlı bölme daha iyi sonuç verebilir.

Adım 2: Embedding Modeli Seçimi Nasıl Yapılır?

MTEB (Massive Text Embedding Benchmark) liderlik tablosuna göre 2025'te en iyi performans gösteren embedding modelleri:

Embedding Modeli Karşılaştırması

ModelBoyutPerformans (MTEB)Maliyet
OpenAI text-embedding-3-large3072Yüksek$0.13/1M token
Cohere embed-v31024Yüksek$0.10/1M token
BGE-M3 (açık kaynak)1024YüksekÜcretsiz
E5-mistral-7b (açık kaynak)4096Çok yüksekÜcretsiz (self-host)

Açık kaynak modeller self-hosting maliyeti gerektirir ancak veri gizliliği kritik olan senaryolarda tercih edilmelidir.

Adım 3: Retrieval Kalitesi Nasıl Artırılır?

Basit similarity search çoğu zaman yeterli değildir. Gelişmiş retrieval teknikleri:

Hybrid Search (Hibrit Arama): Vektör araması ile geleneksel keyword aramasını birleştirin. Pinecone araştırmasına göre BM25 + semantic search kombinasyonu, tek başına semantic search'e göre %15-25 daha iyi sonuç verir.

Reranking: İlk aşamada geniş bir sonuç seti çekin (top-50), ardından bir reranker modeli ile en ilgili olanları seçin (top-5).

Query Transformation: Kullanıcı sorgusunu retrieval için optimize edin:

• HyDE (Hypothetical Document Embeddings): Sorgudan varsayımsal bir cevap üretip onu embed edin.

• Multi-query: Tek sorudan birden fazla sorgu türetin.

Adım 4: Evaluation (Değerlendirme) Nasıl Yapılır?

RAG sistemlerini değerlendirmek için RAGAS framework'ü endüstri standardı haline gelmiştir. Temel metrikler:

RAGAS Değerlendirme Metrikleri

MetrikÖlçtüğüHedef
FaithfulnessYanıtın bağlama sadakati> 0.85
Answer RelevancyYanıtın soruyla ilgisi> 0.80
Context PrecisionÇekilen dokümanların kalitesi> 0.75
Context RecallGerekli bilginin ne kadarının çekildiği> 0.80

RAG Kullanım Senaryoları Nelerdir?

Kurumsal Bilgi Tabanı

Şirket dokümanları, politikalar, teknik dokümantasyon üzerinden çalışan iç asistan. Accenture'ın raporuna göre, RAG tabanlı kurumsal asistanlar çalışan verimliliğini ortalama %40 artırmaktadır (Accenture, 2024).

Müşteri Destek Otomasyonu

Zendesk'in verilerine göre RAG tabanlı destek botları, geleneksel chatbot'lara kıyasla %60 daha doğru yanıt vermektedir (Zendesk Benchmark Report, 2024).

Kod Asistanı

Şirketin kendi kod tabanı ve dokümantasyonu üzerinde çalışan AI asistan. GitHub Copilot'un kurumsal versiyonu bu mimariyi kullanmaktadır.

Hukuk ve Uyum (Compliance)

Yasal dokümanlar, mevzuat ve içtihatlar üzerinde çalışan RAG sistemleri. Özellikle KVKK, GDPR gibi düzenlemelerde güncellik kritik olduğu için RAG ideal bir çözümdür.

RAG Sistemlerinde Sık Karşılaşılan Hatalar Nelerdir?

RAG Sistemlerinde Sık Hatalar ve Çözümleri

HataSonuçÇözüm
Chunk boyutu çok büyükİlgisiz bilgi eklenmesi512-1024 token arası kullanın
Overlap olmadan chunkingBağlam kaybı%10-20 overlap ekleyin
Tek embedding modeli ile devamSuboptimal performansMTEB'de benchmark yapın
Retrieval sonuçlarını filtrelememeGürültülü bağlamReranking ekleyin
Prompt engineering ihmal etmeDüşük yanıt kalitesiSystem prompt'u optimize edin
Evaluation yapmamaKalite takibi eksikliğiRAGAS ile düzenli test edin
Metadata kullanmamaFiltreleme imkansızlığıHer chunk'a metadata ekleyin

2026'da RAG Trendleri Neler Olacak?

Agentic RAG Nedir?

Tek seferlik retrieval yerine, AI ajanlarının iteratif olarak bilgi çekmesi ve çoklu kaynaklara erişmesi. LangChain/LangGraph ve CrewAI gibi framework'ler bu yaklaşımı desteklemektedir.

GraphRAG Ne Getiriyor?

Microsoft'un tanıttığı GraphRAG, geleneksel vektör aramasını bilgi grafikleri (knowledge graphs) ile birleştirerek özellikle çok adımlı muhakeme gerektiren sorularda %30-50 daha iyi performans sağlamaktadır (Microsoft Research, 2024).

Multimodal RAG Neden Önemli?

Sadece metin değil, görsel, tablo, grafik ve hatta video içeriklerinden de bilgi çekebilen RAG sistemleri. Google'ın Gemini ve OpenAI'ın GPT-4o modelleri bu alana yatırım yapmaktadır.

⚗️

Simyacı Notu

RAG projenize başlarken en büyük hata, karmaşık bir mimari ile başlamaktır. Önce basit bir RAG pipeline kurun, RAGAS ile değerlendirin, sonra iteratif olarak hybrid search, reranking gibi katmanları ekleyin. "Make it work, make it right, make it fast" prensibi burada da geçerli.

Sık Sorulan Sorular

RAG sistemi kurmak için minimum teknik gereksinimler nelerdir?

RAG sistemi kurmak için Python bilgisi, bir embedding modeli (OpenAI API veya açık kaynak), bir vektör veritabanı (pgvector ile başlayabilirsiniz) ve bir LLM API erişimi yeterlidir. LangChain veya LlamaIndex gibi framework'ler kurulum sürecini önemli ölçüde basitleştirir.

RAG mı yoksa fine-tuning mı tercih edilmeli?

Verileriniz sık güncelleniyorsa, kaynak gösterme önemliyse ve hızlı kurulum istiyorsanız RAG tercih edin. Modelin özel bir terminoloji veya yazım stili öğrenmesi gerekiyorsa fine-tuning daha uygun olur. En etkili kurumsal çözümler her iki yaklaşımı hibrit olarak kullanır.

RAG sistemi ne kadar maliyetlidir?

Maliyet, ölçeğe göre değişir. Küçük ölçekli bir PoC için OpenAI API, Chroma ve birkaç bin doküman ile aylık $50-200 arası yeterlidir. Kurumsal ölçekte Pinecone veya Weaviate Cloud ile bu maliyet aylık $500-5000 aralığına çıkabilir. Açık kaynak stack ile self-hosting maliyetleri sunucu altyapısına bağlıdır.

Vektör veritabanı olmadan RAG yapılabilir mi?

Teknik olarak evet — küçük veri setlerinde in-memory FAISS veya basit TF-IDF tabanlı arama kullanılabilir. Ancak production ortamında ölçeklenebilirlik, persistency ve performans açısından bir vektör veritabanı şarttır. pgvector gibi mevcut PostgreSQL altyapınıza eklenebilen çözümler geçiş maliyetini düşürür.

RAG sisteminde halüsinasyonu tamamen önlemek mümkün mü?

Tamamen önlemek mümkün değildir, ancak önemli ölçüde azaltılabilir. Faithfulness skoru 0.85 üzerinde tutulmalıdır. Prompt'ta "yalnızca verilen bağlama dayanarak yanıtla" talimatı, confidence threshold ekleme ve kaynak gösterme zorunluluğu halüsinasyonu %70-80 oranında azaltır (Stanford HAI, 2024).

RAG ile kaç doküman işlenebilir?

Teorik bir üst sınır yoktur. Pinecone ve Milvus gibi platformlar milyarlarca vektörü destekler. Pratikte performans, chunk boyutu, embedding modeli ve veritabanı konfigürasyonuna bağlıdır. Orta ölçekli bir kurumsal sistemde 100.000-1.000.000 doküman sorunsuz işlenebilir.

RAG sistemi hangi dilleri destekler?

RAG sistemi, kullanılan embedding modelinin desteklediği tüm dillerde çalışır. Multilingual modeller (BGE-M3, Cohere multilingual) Türkçe dahil 100+ dili destekler. Ancak en iyi performans İngilizce içeriklerde alınır; Türkçe için multilingual modelleri benchmark yapmanız önerilir.

Mevcut bir chatbot'a RAG nasıl eklenir?

Mevcut chatbot'unuzun LLM çağrısından önce bir retrieval katmanı ekleyerek RAG entegre edilebilir. LangChain'in RetrievalQA chain'i veya LlamaIndex'in query engine'i bu entegrasyonu birkaç satır kodla yapmanızı sağlar. Mevcut konuşma geçmişi yönetimi korunarak retrieval katmanı eklenir.

Sonuç

RAG, kurumsal AI uygulamalarında doğruluk, güncellik ve özelleştirme sorunlarını çözen en pratik mimari yaklaşımdır. Basit bir pipeline ile başlayıp, RAGAS metrikleriyle kaliteyi ölçerek iteratif geliştirme yapmanız en sağlıklı yoldur.

Başlamak için LangChain dokümantasyonu veya LlamaIndex rehberleri ile ilk RAG pipeline'ınızı oluşturabilirsiniz.

Son güncelleme: 28 Ocak 2026

Efsunu Mühürle

Bilgini Sına

1.RAG mimarisinin temel amacı nedir?

2.RAG sistemlerinde optimal chunk boyutu genellikle ne kadardır?

Öğreniliyor • %0