자기 반복 개선의 구조적 실패(prompt bias, scope creep, lack of restraint)를 A/B/AB 세 버전 경쟁 + 블라인드 Borda 투표로 해결하는 self-refinement 프레임워크. “Do nothing”이 1급 옵션.

핵심 내용

NousResearch/autoreason(SHL0MS, 2026)은 기존 self-refinement 방식이 세 가지 구조적 문제로 실패한다고 주장한다 (출처: NousResearchautoreason Autoresearch for subjective domains.).

  • Prompt bias: 모델에 “비판해라”고 시키면 문제없는 출력에서도 문제를 환각.
  • Scope creep: 매 pass마다 출력이 무한정 팽창.
  • Lack of restraint: “수정 불필요”를 말하지 못함.

A/B/AB 토너먼트

각 iteration에서 세 버전 생성:

  • A (incumbent): 변경 없음
  • B (adversarial revision): fresh critic + author가 생성한 개정판
  • AB (synthesis): A와 B를 결합한 fresh synthesizer 출력

블라인드 판정: Context를 공유하지 않는 3~7명의 fresh judge agents가 Borda count로 우승 선정. “Do nothing”(A) 선택 가능 → 불필요한 변경 억제.

수렴 조건: A가 연속 k=2번 우승하면 정지.

주요 결과

  • 42/42 perfect sweep (Haiku 3.5 + autoreason, 3개 task). 다른 baseline은 모두 single-pass 이하로 degrade.
  • CodeContests 150문제, private test: Sonnet 4.6 autoreason 77% vs single-pass 73%. Haiku 3.5 autoreason 40% vs best-of-6 sampling 31% (동일 compute).
  • Scaling curve: Haiku 3.5 (40%) → Haiku 4.5 (60%) → Sonnet 4 (64%) → Sonnet 4.6 (77%). Haiku 4.5에서 held-out 이득 소실 — generation-evaluation gap이 닫히는 transition point.
  • Weak model 파괴: Critique-and-revise가 Haiku 3.5 출력을 15-pass 동안 59-70% 단어 수 감소. Autoreason은 이 붕괴를 차단.
  • Judge scaling: 1명은 noisy+slow, 3명 OK, 7명이 수렴 3배 빠름.
  • Component ablation: B 또는 AB 중 하나라도 제거하면 토너먼트 붕괴 (24 pass 수렴 → 2-3 pass 조기 수렴 = 비평 없이 통과).

왜 유효한가

  • 각 judge에 fresh context → self-critique의 prompt bias 제거
  • A가 1급 옵션 → “변경 필요 없다”를 표현 가능
  • Length-controlled 평가에서도 21/28 승 — 단순 장황함의 승리가 아님

한계

Sonnet 4.6 이상 스케일에서 held-out task의 이득은 사라지기 시작. 논문은 8개 remedy 실험과 failure taxonomy를 공개.

단일 출처(NousResearch repo + arXiv 미공개 PDF). 벤치 숫자는 hedging 톤. 재현 가능한 human_eval/ 제공.

관련 링크