KoBALT-700

Korean Benchmark for Advanced Linguistic Tasks

한국어 대규모 언어 모델(LLM)을 평가하기 위한 언어학 기반 벤치마크

KoBALT는 한국어 대규모 언어 모델(LLM)을 평가하기 위한 언어학 기반 벤치마크입니다. 5개의 핵심 언어학 영역에 걸쳐 24개의 세분화된 언어학적 현상을 다루는700개의 전문가 작성 객관식 문제로 구성되어 있습니다.

300
Syntax
구문론
215
Semantics
의미론
81
Pragmatics
화용론
62
Phonetics
음성학
42
Morphology
형태론

데이터 오염 최소화

KoBALT는 표준 한국어 코퍼스와 8.6% bigram0.7% trigram 이하의 겹침을 보여 훈련 데이터 오염을 최소화하여 진정한 언어 이해 능력을 평가할 수 있는 견고한 도구입니다.

데이터셋 구성

DomainPhenomenon# ItemsDescription
SyntaxAgreement104주어-동사, 높임법, 시제, 극성, 피동/사동 일치
Argument Structure & Valency96술어-논항 관계, 격 실현
Embedded Clauses86복잡한 절 이해
Ellipsis11문법적 생략 패턴
Scrambling3어순 유연성
SemanticsSemantic Compatibility60술어-논항 호환성
Rhetorical Expressions28은유, 아이러니, 관용구
Word Relationships28동의어, 반의어, 의미 프레임
Ambiguity27어휘적, 구조적, 범위 모호성
Numeral Classifiers27수량화된 명사와 분류사 형태소
Conjunctions24인과, 시간, 함의 기반 접속사
Inter-sentence Relations21문장 간 의미 일관성
PragmaticsSpeech Acts22서술, 질문, 지시, 약속, 표현
Implicature22문자적 내용을 넘어선 함축된 의미
Discourse Principles17대화 격률 및 담화 전략
Deixis & Reference17인칭, 공간, 시간 지시
Social Relationship Marking3높임법, 말투, 호칭
Phonetics/PhonologyPhonological Alternation34대치, 탈락, 동화 등
Phonological Constraints14허용 가능한 음운 패턴
Articulatory Phonetics7음성의 조음
Suprasegmental Features7억양, 운율, 의문 억양
MorphologyWord Formation22파생, 합성
Verbal Conjugation12동사/형용사의 활용
POS & Morphemes8품사 태깅, 형태소 분석

베이스라인 성능 (도메인별 정확도)

ModelAvgSyntaxSemanticsPragmaticsMorphologyPhonetics
Claude-3-7-sonnet61%66%66%64%36%31%
Claude-3-5-sonnet52%52%65%51%36%24%
DeepSeek-V3-XL47%49%56%42%24%29%
GPT-4o44%45%55%40%17%26%
DeepSeek-V343%41%57%42%26%23%
Qwen2.5-72B37%33%51%37%24%18%
C4ai-command-a-0336%30%52%36%24%18%
Gemma-3-27b35%30%53%27%24%11%
Mistral-Small-24B32%27%49%30%21%11%
Llama-3.3-70B32%25%50%35%17%15%
Qwen2.5-32B30%23%49%28%21%11%
Aya-expanse-32b25%21%40%12%10%16%
Gemma-2-9b21%17%34%15%12%11%
Qwen2.5-7B19%14%33%11%19%6%
Aya-expanse-8b19%15%33%11%12%6%
Llama-3.1-8B17%13%26%12%10%11%
Ministral-8B17%11%29%15%10%11%
Mistral-7B-v0.312%11%16%11%14%6%

Contributors

Researchers

CL_NLP Lab, Seoul National University

  • • Dongjun Jang
  • • Wooseok Song
  • • Jaeyoon Kim
  • • Chaeyoung Oh
  • • Hyemi Jo
  • • Youngchae Ahn
  • • Sihyun Oh
  • • Hyohyeong Jang

Advisors

Seoul National University

  • • Prof. Hyopil Shin
  • • Prof. Sangah Lee

LG AI Research

  • • Jinsik Lee
  • • Sunkyoung Kim

Sponsor

LG AI Research

License

KoBALT는 Creative Commons Attribution-NonCommercial 4.0 International (CC BY-NC 4.0) 라이선스 하에 배포됩니다.

라이선스 보기

Citation

이 리소스를 사용하시는 경우 다음과 같이 인용해 주시기 바랍니다:

@misc{shin2025kobaltkoreanbenchmarkadvanced,
  title={KoBALT: Korean Benchmark For 
         Advanced Linguistic Tasks}, 
  author={Hyopil Shin and Sangah Lee and 
          Dongjun Jang and Wooseok Song and 
          others},
  year={2025},
  eprint={2505.16125},
  archivePrefix={arXiv},
  url={https://arxiv.org/abs/2505.16125}
}