0. 응답 품질 평가 진행 배경

기존의 정답 기반 정확도 평가는 RAG에서 사용되는 사용자 의도에 맞는 다양한 정답이 존재하는 경우 평가지표로서 부족하다고 느낌.
이에 따라 LLM을 이용해서 사람이 하는 평가와 유사하게 정확도, 근거 적합성, 신뢰성을 종합적으로 평가할 수 있는 RAGAS를 선택하여 응답 품질 평가를 진행함.

1. 평가 방법

지표명	의미
answer_relevancy	사용자의 질문에 대한 응답의 관련성
context_recall	검색된 컨텍스트 중 정답과 관련된 정보를 얼마나 많이 포함했는지
context_precision	검색된 컨텍스트 중 실제로 정답에 기여한 정보의 비율
faithfulness	생성 응답이 제공된 컨텍스트에 충실한 정도(할루시네이션 여부)
answer_correctness	실제 정답과 응답이 얼마나 일치하는지
response_time	평균 응답 시간 (ms)