Agent Evaluation

作者：@rustyorb

⬇️ 下载量：2.5K ⭐ 收藏量：5 版本：v1 v

OpenClaw的Agent Evaluation-技能（skill）的描述

测试和基准测试大型语言模型（LLM）智能体，包括行为测试、能力评估、可靠性指标和生产监控——在现实世界的基准测试中，即使是顶级智能体的得分也低于50%。适用场景：智能体测试、智能体评估、智能体基准测试、智能体可靠性、测试智能体。

OpenClaw's Agent Evaluation skill

Testing and benchmarking LLM agents including behavioral testing, capability assessment, reliability metrics, and production monitoring—where even top agents achieve less than 50% on real-world benchmarks Use when: agent testing, agent evaluation, benchmark agents, agent reliability, test agent.

安装 Agent Evaluation 技能

将下面的AI引导词，复制到您的openClaw对话中，发送给大龙虾，即可安装该技能

请先检查是否已安装 SkillHub 商店，若未安装，请根据 http://openclawweb.cn/skillhub.md 安装Skillhub商店，但是只安装CLI，然后安装 Agent Evaluation 技能。

Agent Evaluation - skill原始代码包

访问Agent Evaluation技能原始代码

该作者的其他技能

Agent Orchestration Multi Agent Optimize

⬇️ 1.2K ⭐ 1