话题: evaluation

浏览话题 "evaluation" 下的 Claude Skill 项目。

语言

suyoumo/ClawProBench

ClawProBench 是一个以实时执行为优先的基准测试框架，用于在 OpenClaw 运行时环境中评估 LLM 代理，具备确定性评分和重复试验可靠性。

⭐ 719🍴 51Python

agent benchmark evaluation

comet-ml/opik-openclaw

🦞 OpenClaw 官方插件，用于将代理轨迹导出至 Opik。可查看并监控代理行为、成本、令牌消耗、错误等信息。

⭐ 620🍴 69TypeScript

clawdbot evaluation moltbot

yaojingang/yao-meta-skill

YAO = 可产出AI成果。一个针对可复用智能体技能的严谨工程、评估、治理与可移植性系统。

⭐ 441🍴 58Python

agent-skills ai-agents evaluation

显示 3/3