0. 응답 품질 평가 진행 배경

1. 응답 품질 평가 필요한 이유

2. 기존 평가 지표의 한계


1. 평가 방법

1-1. 평가 프레임워크 - RAGAS

Ragas

https://github.com/explodinggradients/ragas

1-2. 평가 지표

지표명 의미
answer_relevancy 사용자의 질문에 대한 응답의 관련성
context_recall 검색된 컨텍스트 중 정답과 관련된 정보를 얼마나 많이 포함했는지
context_precision 검색된 컨텍스트 중 실제로 정답에 기여한 정보의 비율
faithfulness 생성 응답이 제공된 컨텍스트에 충실한 정도(할루시네이션 여부)
answer_correctness 실제 정답과 응답이 얼마나 일치하는지
response_time 평균 응답 시간 (ms)

2. 비교 모델 목록

2-1. Huggingface : intfloat/multilingual-e5-small