hj blog

❯

❯

Scale-Dependent Verbosity

Scale-Dependent Verbosity

2026년 4월 23일

kb
llm
scaling
evaluation
prompt-engineering

큰 LLM이 과도하게 설명(over-elaborate)하면서 오류를 도입하는 현상. 파라미터가 많을수록 장황해지며, 이것이 벤치마크에서 작은 모델보다 낮은 성능으로 이어지는 inverse scaling의 한 원인이 된다.

핵심 내용

31개 모델(0.5B~405B) × 1,485문제에 걸친 체계적 평가에서 발견된 현상이다 (출처: Brevity Constraints Reverse Performance Hierarchies in Language Models):

**벤치마크 7.7%**에서 큰 모델(10~100x 파라미터)이 작은 모델보다 28.4pp 낮은 성능
원인은 scale-dependent verbosity: 큰 모델이 불필요하게 상세한 설명을 생성하며 그 과정에서 오류를 도입
이것은 근본적 능력 한계가 아니라 교정 가능한 prompt design 문제

Brevity Constraint의 효과

간결한 응답을 요구하는 제약을 추가하면:

정확도 +26pp 향상
성능 격차 최대 2/3 감소
수학/과학 벤치마크에서 성능 위계가 완전 역전: 큰 모델이 +7.7~15.9pp 우위

실용적 함의

Scale-aware prompt engineering이 필요하다:

큰 모델에는 brevity constraint가 정확도를 높인다
Universal evaluation(모든 모델에 같은 프롬프트)은 큰 모델의 능력을 과소평가할 수 있다
정확도 향상과 연산 비용 절감을 동시에 달성 — 짧은 출력은 더 적은 토큰을 소비한다

관련 링크

Simple Self-Distillation — LLM 디코딩 행동 개선의 또 다른 접근: 자체 출력으로 토큰 분포를 재형성
LLM Harness — 모델에 정보를 제시하는 방식(harness)이 출력 행동에 영향을 주는 관점에서 관련
Over-Editing — 코드 영역의 대응 현상. GPT-5/GPT-5.4가 여기서도 최악 over-editor. Brevity 지시가 Levenshtein 감소와 Pass@1 동시 향상을 낳는 구조 공유

그래프 뷰

핵심 내용
Brevity Constraint의 효과
실용적 함의
관련 링크

백링크

Autoreason
INDEX
LLM Harness
Over-Editing
Simple Self-Distillation

Created with Quartz v5.0.0 © 2026

GitHub