🛠️ 技能库

发现和使用优秀的技能扩展

Agent Evaluation

rustyorb 作者:@rustyorb
⬇️ 下载量:2.5K ⭐ 收藏量:5 版本:v1 v

OpenClaw的Agent Evaluation-技能(skill)的描述

测试和基准测试大型语言模型(LLM)智能体,包括行为测试、能力评估、可靠性指标和生产监控——在现实世界的基准测试中,即使是顶级智能体的得分也低于50%。适用场景:智能体测试、智能体评估、智能体基准测试、智能体可靠性、测试智能体。

OpenClaw's Agent Evaluation skill

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.


安装 Agent Evaluation 技能


将下面的AI引导词,复制到您的openClaw对话中,发送给大龙虾,即可安装该技能
请先检查是否已安装 SkillHub 商店,若未安装,请根据 http://openclawweb.cn/skillhub.md 安装Skillhub商店,但是只安装CLI,然后安装 Agent Evaluation 技能。

Agent Evaluation - skill原始代码包

访问Agent Evaluation技能原始代码



该作者的其他技能