话题: benchmark

浏览话题 "benchmark" 下的 Claude Skill 项目。

语言

suyoumo/ClawProBench

ClawProBench 是一个以实时执行为优先的基准测试框架，用于在 OpenClaw 运行时环境中评估 LLM 代理，具备确定性评分和重复试验可靠性。

⭐ 809🍴 52Python

agent benchmark evaluation

LeoYeAI/myclaw-bench

OpenClaw上AI智能体的权威基准测试。涵盖4个层级共45项任务。由MyClaw.ai提供技术支持。

⭐ 232🍴 39Python

agent-testing ai-agent ai-benchmark

显示 2/2