Marketplace
llm-eval-designer
LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。使用タイミング:- LLMベースのワークフロー/エージェントの評価設計時- ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時- 既存テストが特定パターンに過学習していないか検証時- LLM出力の品質スコアラー設計時- 「なぜこのテストケースが必要か」の根拠を示す時
$ Installer
git clone https://github.com/CAPHTECH/claude-marketplace /tmp/claude-marketplace && cp -r /tmp/claude-marketplace/caphtech-plugin/skills/llm-eval-designer ~/.claude/skills/claude-marketplace// tip: Run this command in your terminal to install the skill
Repository

CAPHTECH
Author
CAPHTECH/claude-marketplace/caphtech-plugin/skills/llm-eval-designer
0
Stars
0
Forks
Updated1w ago
Added1w ago