심사위원으로서 언어 학습 모델과 같은 모델을 평가할 때는 좋은 프롬프트를 만드는 것이 중요합니다. 이를 위해 명확한 평가 지표를 정의하고, 가산점을 사용하고, 질문과 답변의 예를 제공하여 모델이 인간과 유사한 선호도를 갖도록 유도할 수 있습니다. 검색 증강 생성(RAG)과 같은 모델을 평가할 때는 3점 가산점 메트릭과 몇 개의 예시를 사용하여 문맥 준수, 완전성, 관련성을 기반으로 응답을 간결하게 평가하여 모델을 인간 전문가와 일치시키는 것이 중요합니다.
LLM 평가, 복잡할 필요 없어요
—