AI 智能体评估

AI 编程智能体在 Nuxt 代码生成任务中的性能结果,包括成功率和执行时间的测量。
在 GitHub 上查看上次运行日期:2026年3月6日

智能体性能结果

模型智能体总评估数成功率
Claude Opus 4.6
Claude Code2596%
Claude Sonnet 4.6
Claude Code2592%
Gemini 3.1 Pro Preview
Gemini CLI2588%
GPT 5.3 Codex (xhigh)
Codex2588%
Cursor Composer 1.5
Cursor2584%
Gemini 3 Pro Preview
Gemini CLI2580%
Claude Sonnet 4.5
Claude Code2564%
Devstral 2
OpenCode2536%