Marketplace

llm-eval-designer

LLM生成システムの検証設計スキル。assay-kitフレームワークを活用し、LLM特有の失敗モード(幻覚、例への過学習、部分的処理)を考慮した総合的なテストケース設計を支援する。使用タイミング:- LLMベースのワークフロー/エージェントの評価設計時- ゴールデンデータセット(golden-dataset.yaml)の設計・拡張時- 既存テストが特定パターンに過学習していないか検証時- LLM出力の品質スコアラー設計時- 「なぜこのテストケースが必要か」の根拠を示す時

$ インストール

git clone https://github.com/CAPHTECH/claude-marketplace /tmp/claude-marketplace && cp -r /tmp/claude-marketplace/caphtech-plugin/skills/llm-eval-designer ~/.claude/skills/claude-marketplace

// tip: Run this command in your terminal to install the skill