Claude Skill

darkrishabh/agent-skills-eval

一个 TypeScript CLI 工具,用于以 agentskills.io 格式评估 AI 代理技能。支持 JSONL/YAML 测试和兼容 OpenAI 的 LLM 评估。

概览

Stars492
Forks17
语言TypeScript
最后更新2026-05-13
最近同步2026-05-15
前往 GitHub

仓库信息

拥有者darkrishabh
仓库agent-skills-eval
完整名称darkrishabh/agent-skills-eval
Repo ID1,230,541,272

🚀 安装这个 Skill

openclaw install darkrishabh/agent-skills-eval

项目简介

一个基于 TypeScript 的测试运行器,用于评估 agentskills.io 格式的 AI 代理技能。支持 CLI 使用、JSONL 和 YAML 测试定义,以及兼容 OpenAI 的 LLM 评估。

英文描述

A test runner for agentskills.io-style AI agent skills

要点

  • 运行 agentskills.io 风格的代理技能评估
  • 支持 JSONL 和 YAML 测试文件格式
  • 兼容 OpenAI 的 LLM 评估集成
  • 命令行界面 (CLI) 便于自动化
  • 使用 TypeScript 构建,确保类型安全与可靠性

使用场景

  • 在标准化技能测试中评估 AI 代理性能
  • 在 CI/CD 工作流中自动化 LLM 评估流程
  • 针对 agentskills.io 任务对不同的 AI 代理进行基准测试
  • 使用可复现的评估开发和测试新的代理技能

话题

探索更多

数据来自 GitHub,同步时间:2026-05-15