darkrishabh/agent-skills-eval 有哪些主要特性？

运行 agentskills.io 风格的代理技能评估; 支持 JSONL 和 YAML 测试文件格式; 兼容 OpenAI 的 LLM 评估集成; 命令行界面 (CLI) 便于自动化; 使用 TypeScript 构建，确保类型安全与可靠性

darkrishabh/agent-skills-eval 有哪些使用场景？

在标准化技能测试中评估 AI 代理性能; 在 CI/CD 工作流中自动化 LLM 评估流程; 针对 agentskills.io 任务对不同的 AI 代理进行基准测试; 使用可复现的评估开发和测试新的代理技能

darkrishabh/agent-skills-eval 使用什么编程语言？

darkrishabh/agent-skills-eval 主要使用 TypeScript 编写。

如何安装 darkrishabh/agent-skills-eval？

运行命令：openclaw install darkrishabh/agent-skills-eval

Claude Skill

darkrishabh/agent-skills-eval

一个 TypeScript CLI 工具，用于以 agentskills.io 格式评估 AI 代理技能。支持 JSONL/YAML 测试和兼容 OpenAI 的 LLM 评估。

语言

概览

Stars608

Forks30

语言TypeScript

最后更新2026-07-01

最近同步2026-07-03

前往 GitHub

仓库信息

拥有者darkrishabh

仓库agent-skills-eval

完整名称darkrishabh/agent-skills-eval

Repo ID1,230,541,272

GitHub 地址https://github.com/darkrishabh/agent-skills-eval

安装这个 Skill

npx agent-skills-eval ./skills \

GitHub

Registry 信息

类型workflow

质量分85/100

验证状态readme_parsed

最近验证2026-06-08

平台

Claude

能力

pdfterminalworkflowagent-evalsagent-skillsagentskillsai-agentsclijsonlllm-evals

识别文件

README.mddocsexamplespackage.jsontest

配置键

OPENAI_API_KEYPACKAGE_JSON

安装方式

npx agent-skills-eval ./skills \
npm install agent-skills-eval
npx agent-skills-eval --help
npx agent-skills-eval [root] \

项目简介

一个基于 TypeScript 的测试运行器，用于评估 agentskills.io 格式的 AI 代理技能。支持 CLI 使用、JSONL 和 YAML 测试定义，以及兼容 OpenAI 的 LLM 评估。

英文描述

A test runner for agentskills.io-style AI agent skills

要点

运行 agentskills.io 风格的代理技能评估
支持 JSONL 和 YAML 测试文件格式
兼容 OpenAI 的 LLM 评估集成
命令行界面 (CLI) 便于自动化
使用 TypeScript 构建，确保类型安全与可靠性

使用场景

在标准化技能测试中评估 AI 代理性能
在 CI/CD 工作流中自动化 LLM 评估流程
针对 agentskills.io 任务对不同的 AI 代理进行基准测试
使用可复现的评估开发和测试新的代理技能

README 摘要

<div align="center"> <img src="https://github.com/user-attachments/assets/094b8e11-e19e-4c96-ae82-ba701cfcf7e3" alt="agent-skills-eval — a test runner for Agent Skills" width="100%" /> <br /> # agent-skills-eval **A test runner for [Agent Skills](https://agentskills.io).** Write a `SKILL.md`, drop in some evals, and find out — empirically — whether your skill actually makes the model better at the task. [![npm version](https://img.shields.io/npm/v/agent-skills-eval.svg?style=flat-square&logo=npm&label=npm)](https://www.npmjs.com/package/agent-skills-eval) [![CI](https://img.shields.io/github/actions/workflow/status/darkrishabh/agent-skills-eval/ci.yml?style=flat-square&logo=github&label=ci)](https://github.com/darkrishabh/agent-skills-eval/actions/workflows/ci.yml) [![license: MIT](https://img.shields.io/badge/license-MIT-green?style=flat-square)](LICENSE) [![node](https://img.shields.io/node/v/agent-skills-eval.svg?style=flat-square&logo=nodedotjs&logoColor=white)](package.json) [![docs](https://img.shields.io/badge/docs-GitHub%20Pages-0f766e?style=flat-square)](https://darkrishabh.github.io/agent-skills-eval/) [![TypeScript](https://img.shields.io/badge/TypeScript-3178C6?style=flat-square&logo=typescript&logoColor=white)](https://www.typescriptlang.org/) [Documentation](https://darkrishabh.github.io/agent-skills-eval/) · [Quickstart](#quickstart) · [SDK](#sdk) · [agentskills.io](https://agentskills.io) </div> --- ## Why this exists [Agent Skills](https://agentskills.io) — the open standard from Anthropic for giving agents domain knowledge — make it easy to ship a `SKILL.md` and assume your agent is now better at the task. The hard part is *proving* it. `agent-skills-eval` is the missing piece. It runs your skill against the same prompts twice — once `with_

话题

agent-evals agent-skills agentskills ai-agents cli jsonl llm-evals llm-evaluation openai-compatible typescript yaml

darkrishabh/agent-skills-eval

概览

仓库信息

安装这个 Skill

Registry 信息

项目简介

要点

使用场景

README 摘要

话题

探索更多

相关技能

nexu-io/open-design

NVIDIA/NemoClaw

heilcheng/awesome-agent-skills

builderz-labs/mission-control

onecli/onecli

ComposioHQ/awesome-claude-skills