概述

Zilli 是一个面向 AI 自主开发的下一代 Agent 工具工程方案,核心理念是"AI 写 AI"、 "评估即开发"、"从环境中来"以及"从 Agent 到 RL"。整个系统围绕一个五阶段执行蓝图构建, 形成自我进化的闭环。

五阶段架构

Phase 1: 定义

定义可自动验证的任务集,设计基于 Pydantic 的类型安全 Agent API 契约。

Phase 2: 数据

搭建模拟沙箱环境,生成轨迹数据,建立分层经验回放池(黄金轨迹 + 失败反思)。

Phase 3: 基础设施

部署 SGLang + Megatron-LM 异构算力,实现长度自适应控制和异步 Rollout 调度。

Phase 4: 训练

CISPO 算法确保多轮 Agent 训练稳定性,支持 RLVR 奖励塑形和 GRPO 基线。

Phase 5: 进化

离线进化引擎(DSPy + GEPA)优化 Skill,从生产数据持续学习。

与 IClawOS 的关系

Zilli

AI Agent 训练基础设施层。

为 IClawOS 的 Agent 提供 RL 训练、Skill 进化和轨迹数据反馈能力。

IClawOS

AI 原生 Linux 操作系统,你的 24/7 数字管家。

Zilli 训练的模型部署到 IClawOS,生产交互数据回流到 Zilli 持续优化。

技术栈

语言

  • Python 3.11+

核心库

  • pydantic
  • numpy
  • dspy-ai

RL 算法

  • CISPO
  • GRPO