Autogenesis Protocol (AGP)은 self-evolving agent에서 prompt, agent, tool, environment, memory를 versioned resource로 등록하고, 변경 제안-검증-commit-rollback 루프를 protocol layer로 분리하려는 제안이다 (출처: Untitled).

핵심 내용

Zhang et al. (2026)은 MCP와 A2A가 connectivity protocol로는 유용하지만 self-evolution에는 부족하다고 본다. MCP는 model-tool invocation, A2A는 inter-agent communication을 표준화하지만, self-evolving system의 핵심인 state mutation, lifecycle, version lineage, rollback을 직접 다루지 않는다.

AGP는 두 layer로 나뉜다.

RSPL: Resource Substrate Protocol Layer

RSPL은 무엇이 진화 가능한지를 정의한다. 논문은 다섯 entity를 minimal substrate로 둔다.

Resource의미
Promptinstruction, system prompt, task prompt
Agentdecision policy 또는 agent instance
Toolnative script, MCP tool, agent skill
Environmenttask/world dynamics
Memorypersistent state와 agent outputs

각 resource는 name, description, input-output mapping, trainable marker, metadata를 가진 protocol-registered resource가 된다. Context manager는 resource registry와 version history를 관리하고, server interface는 list, get_state, update, restore, run, save_to_json 같은 안정된 operation surface를 제공한다.

핵심은 resource가 passive하다는 점이다. Prompt, tool, memory는 스스로 최적화하지 않고, 상위 evolution layer가 interface를 통해서만 state transition을 수행한다.

SEPL: Self-Evolution Protocol Layer

SEPL은 어떻게 진화할지를 정의한다. 논문은 evolution을 typed operator algebra로 모델링한다.

Operator역할
Reflectexecution trace에서 failure hypothesis 생성
Selecthypothesis를 concrete modification proposal로 변환
Improveproposal을 RSPL interface로 candidate state에 적용
Evaluatecandidate를 objective와 safety invariant로 평가
Commit개선 또는 invariant 보존 시 versioned update, 실패 시 rollback

이 구조의 목적은 self-evolution을 heuristic prompt rewrite가 아니라 auditable state transition으로 만드는 것이다. 모든 update는 versioned lineage를 남기고, 실패한 update는 side effect 없이 rollback된다.

AGS 구현

Autogenesis System (AGS)은 AGP 위에 만든 multi-agent system이다. Orchestrator가 plan.md artifact를 만들고 versioned RSPL resource로 등록한다. Sub-agent들은 bus를 통해 작업을 받고, 필요한 prompt/tool resource를 semantic search로 retrieval하며, 결과와 trace를 shared memory에 쓴다.

Tool generator agent는 적합한 tool이 없으면 새 tool을 생성하고 registry에 versioned resource로 등록한다. 적합한 tool이 있지만 실패하면 reflection으로 source code를 수정하고, 평가를 통과한 변경만 commit한다.

이 점에서 AGS는 File-as-Bus와 유사하게 durable artifact와 shared state를 중시하지만, AGP는 파일 자체보다 resource lifecycle/version protocol을 더 전면에 둔다.

실험 결과

논문은 GPQA-Diamond, AIME24/25, GAIA Test, LeetCode 기반 coding benchmark에서 AGS를 평가했다.

  • Reasoning benchmark에서는 prompt와 solution evolution을 비교했고, combined prompt+solution evolution이 대체로 가장 좋았다.
  • GAIA에서는 tool evolution이 평균 79.07% → 89.04%로 개선됐고, Level 3에서 61.22% → 81.63%로 가장 큰 개선을 보였다.
  • LeetCode benchmark에서는 five-language setting에서 self-evolution이 pass rate를 Python3 +10.1%, C++ +17.9%, Java +16.7%, Go +15.9%, Kotlin +26.7% relative로 개선했다고 보고했다.

단일 출처 기준으로는 leaderboard comparison, in-house LeetCode construction, protocol abstraction의 실제 interoperability를 독립 검증할 필요가 있다.

실무 함의

  • Self-evolving agent에서 중요한 boundary는 “agent가 똑똑한가”보다 무엇을 mutable resource로 허용할 것인가다.
  • Prompt/tool/memory를 hard-coded internal component로 두면 evolution이 glue code가 되고 audit이 어려워진다.
  • Evolution loop에는 최소한 trace, hypothesis, proposal, evaluation, commit/rollback 기록이 필요하다.
  • Tool evolution은 특히 long-horizon task에서 static toolkit의 병목을 줄일 수 있지만, 안전한 sandbox와 version rollback이 없으면 위험하다.

관련 링크