최근 LLM이 다양한 분야에 적용되면서, 이러한 모델들의 성능을 어떻게 평가하고 비교할 것인가에 대한 관심이 높아지고 있습니다.
최근 LLM(대형 언어 모델)의 성능 평가에 대한 관심이 높아지고 있으며, KoBEST와 KMMLU 같은 한국어 벤치마크 데이터셋을 통해 이를 평가합니다. 평가 지표로는 정확도(Accuracy), F1 Score, BLEU, ROUGE 등이 사용되며, 모델의 출력이 정형화되지 않은 경우 확률 기반 평가 방식을 적용할 수 있습니다. 성능 평가 자동화 도구로는 lm-eval-harness가 일반적으로 사용됩니다.