Human Feedback (İnsan Geri Bildirimi)

Model çıktılarını değerlendiren insan yorumlarının eğitime dahil edilmesi.

Neden Önemli?

RLHF ile modellerin tercih ve değerlere uyumlu davranmasını sağlamanın temel yöntemi.