浏览话题 "evaluation" 下的 Claude Skill 项目。
🦞 OpenClaw 官方插件,用于将代理轨迹导出至 Opik。可查看并监控代理行为、成本、令牌消耗、错误等信息。
ClawProBench 是一个以实时执行为优先的基准测试框架,用于在 OpenClaw 运行时环境中评估 LLM 代理,具备确定性评分和重复试验可靠性。
YAO = 可产出AI成果。一个针对可复用智能体技能的严谨工程、评估、治理与可移植性系统。