LLM Bukan Search Engine
Kenapa RAG sering gagal di production walau retrieval-nya "benar".
RAG (Retrieval-Augmented Generation) sering dijual sebagai “search yang lebih pintar”. Di praktik, framing ini menyesatkan.
Search optimizes for recall, RAG needs precision
Search engine return top-K hasil — user yang filter. LLM tidak akan “abaikan” konteks yang tidak relevan; dia akan karangkan koneksi.
Re-ranker mengubah hidup
Bi-encoder retrieval cocok untuk recall. Cross-encoder re-ranker mahal tapi krusial untuk precision. Tanpa re-ranker, p95 jawaban kami punya hallucination rate >15%. Dengan re-ranker, turun ke 3%.
Eval > Prompt
Sebagian besar tim menghabiskan waktu prompt engineering. Yang lebih besar dampaknya: build eval set 200+ contoh dengan ground truth, dan iterasi sistem sampai eval naik. Prompt engineering tanpa eval = guessing.