큰 LLM이 과도하게 설명(over-elaborate)하면서 오류를 도입하는 현상. 파라미터가 많을수록 장황해지며, 이것이 벤치마크에서 작은 모델보다 낮은 성능으로 이어지는 inverse scaling의 한 원인이 된다.

핵심 내용

31개 모델(0.5B~405B) × 1,485문제에 걸친 체계적 평가에서 발견된 현상이다 (출처: Brevity Constraints Reverse Performance Hierarchies in Language Models):

  • **벤치마크 7.7%**에서 큰 모델(10~100x 파라미터)이 작은 모델보다 28.4pp 낮은 성능
  • 원인은 scale-dependent verbosity: 큰 모델이 불필요하게 상세한 설명을 생성하며 그 과정에서 오류를 도입
  • 이것은 근본적 능력 한계가 아니라 교정 가능한 prompt design 문제

Brevity Constraint의 효과

간결한 응답을 요구하는 제약을 추가하면:

  • 정확도 +26pp 향상
  • 성능 격차 최대 2/3 감소
  • 수학/과학 벤치마크에서 성능 위계가 완전 역전: 큰 모델이 +7.7~15.9pp 우위

실용적 함의

Scale-aware prompt engineering이 필요하다:

  • 큰 모델에는 brevity constraint가 정확도를 높인다
  • Universal evaluation(모든 모델에 같은 프롬프트)은 큰 모델의 능력을 과소평가할 수 있다
  • 정확도 향상과 연산 비용 절감을 동시에 달성 — 짧은 출력은 더 적은 토큰을 소비한다

관련 링크

  • Simple Self-Distillation — LLM 디코딩 행동 개선의 또 다른 접근: 자체 출력으로 토큰 분포를 재형성
  • LLM Harness — 모델에 정보를 제시하는 방식(harness)이 출력 행동에 영향을 주는 관점에서 관련
  • Over-Editing — 코드 영역의 대응 현상. GPT-5/GPT-5.4가 여기서도 최악 over-editor. Brevity 지시가 Levenshtein 감소와 Pass@1 동시 향상을 낳는 구조 공유