이 연구에서 연구자들은 사실 확인이나 최선의 답변 선택과 같은 작업에서 AI 모델이 인간과 비교했을 때 얼마나 잘 수행하는지 살펴봤습니다. 그 결과, AI가 두 가지 옵션 중 하나를 선택하는 쌍별 비교라는 방법을 사용하는 것이 직접 채점하는 것보다 인간의 판단과 더 유사하다는 사실을 발견했습니다. 전반적으로 사용자가 설정한 기준과 함께 PoLL 접근 방식을 사용하면 AI 모델만 사용할 때보다 AI 평가와 인간의 판단을 일치시키는 데 더 나은 결과를 얻을 수 있었습니다.
LLM-평가자의 효과성 평가하기(일명 LLM-as-Judge)
—