Claude Skill
darkrishabh/agent-skills-eval
一个 TypeScript CLI 工具,用于以 agentskills.io 格式评估 AI 代理技能。支持 JSONL/YAML 测试和兼容 OpenAI 的 LLM 评估。
概览
仓库信息
安装这个 Skill
npx agent-skills-eval ./skills \Registry 信息
npx agent-skills-eval ./skills \npm install agent-skills-evalnpx agent-skills-eval --helpnpx agent-skills-eval [root] \
项目简介
一个基于 TypeScript 的测试运行器,用于评估 agentskills.io 格式的 AI 代理技能。支持 CLI 使用、JSONL 和 YAML 测试定义,以及兼容 OpenAI 的 LLM 评估。
A test runner for agentskills.io-style AI agent skills
要点
- 运行 agentskills.io 风格的代理技能评估
- 支持 JSONL 和 YAML 测试文件格式
- 兼容 OpenAI 的 LLM 评估集成
- 命令行界面 (CLI) 便于自动化
- 使用 TypeScript 构建,确保类型安全与可靠性
使用场景
- 在标准化技能测试中评估 AI 代理性能
- 在 CI/CD 工作流中自动化 LLM 评估流程
- 针对 agentskills.io 任务对不同的 AI 代理进行基准测试
- 使用可复现的评估开发和测试新的代理技能
README 摘要
<div align="center"> <img src="https://github.com/user-attachments/assets/094b8e11-e19e-4c96-ae82-ba701cfcf7e3" alt="agent-skills-eval — a test runner for Agent Skills" width="100%" /> <br /> # agent-skills-eval **A test runner for [Agent Skills](https://agentskills.io).** Write a `SKILL.md`, drop in some evals, and find out — empirically — whether your skill actually makes the model better at the task. [](https://www.npmjs.com/package/agent-skills-eval) [](https://github.com/darkrishabh/agent-skills-eval/actions/workflows/ci.yml) [](LICENSE) [](package.json) [](https://darkrishabh.github.io/agent-skills-eval/) [](https://www.typescriptlang.org/) [Documentation](https://darkrishabh.github.io/agent-skills-eval/) · [Quickstart](#quickstart) · [SDK](#sdk) · [agentskills.io](https://agentskills.io) </div> --- ## Why this exists [Agent Skills](https://agentskills.io) — the open standard from Anthropic for giving agents domain knowledge — make it easy to ship a `SKILL.md` and assume your agent is now better at the task. The hard part is *proving* it. `agent-skills-eval` is the missing piece. It runs your skill against the same prompts twice — once `with_