概述
Zilli 是一个面向 AI 自主开发的下一代 Agent 工具工程方案,核心理念是"AI 写 AI"、 "评估即开发"、"从环境中来"以及"从 Agent 到 RL"。整个系统围绕一个五阶段执行蓝图构建, 形成自我进化的闭环。
五阶段架构
Phase 1: 定义
定义可自动验证的任务集,设计基于 Pydantic 的类型安全 Agent API 契约。
Phase 2: 数据
搭建模拟沙箱环境,生成轨迹数据,建立分层经验回放池(黄金轨迹 + 失败反思)。
Phase 3: 基础设施
部署 SGLang + Megatron-LM 异构算力,实现长度自适应控制和异步 Rollout 调度。
Phase 4: 训练
CISPO 算法确保多轮 Agent 训练稳定性,支持 RLVR 奖励塑形和 GRPO 基线。
Phase 5: 进化
离线进化引擎(DSPy + GEPA)优化 Skill,从生产数据持续学习。
与 IClawOS 的关系
Zilli
AI Agent 训练基础设施层。
为 IClawOS 的 Agent 提供 RL 训练、Skill 进化和轨迹数据反馈能力。
IClawOS
AI 原生 Linux 操作系统,你的 24/7 数字管家。
Zilli 训练的模型部署到 IClawOS,生产交互数据回流到 Zilli 持续优化。