🔧

Monitoring

153 skills in DevOps > Monitoring

zai-mcp-manager

Comprehensive management capabilities for Z.AI MCP servers, including quota tracking, health monitoring, configuration validation, and usage analytics for the Z.AI Lite Plan. Manages web-search-prime and web-reader MCP servers with intelligent monitoring and optimization.

Zazzles2908/Mini-Agent_ACP

Mis à jour 5d ago

datadog-cli

Marketplace

Datadog CLI for searching logs, querying metrics, tracing requests, and managing dashboards. Use this when debugging production issues or working with Datadog observability.

leonardocouy/cc-datadog

Mis à jour 5d ago

monitoring-coordinator

RAN monitoring coordination with real-time dashboards, cognitive consciousness, and intelligent observability for comprehensive network monitoring. Use when coordinating RAN monitoring, implementing real-time dashboards, managing observability stacks, or enabling intelligent monitoring systems in 5G networks.

majiayu000/claude-skill-registry

Mis à jour 5d ago

phantom-protocol

PHANTOM v6: Ultimate cognitive architecture for debugging, code review, generation, and self-analysis. Combines Abductive Fault Inversion, Spectral Execution Tracing (Ghost/Demon dual traces), Dialectical Assumption Collapse, Cognitive Immune System (CIS) with 16 antibodies, Intelligence Amplification Framework (IAF) with 7 enhancement methods, Cognitive Capability Activation (CCA), 7-Level Architecture (ARCH), and Mem0 as primary unlimited memory system. Features 58 capabilities, monitoring checkpoints, persona verification (Constructor/Destroyer/Defender/Judge), calibrated confidence, Responsive Generator Model (RGM), GRIMOIRE spell format, and cross-conversation persistence via Mem0. Activates for: debugging, code review, "why isn't this working", architecture design, high-stakes reasoning, ULTRATHINK sessions, or understanding code/cognitive behavior.

majiayu000/claude-skill-registry

Mis à jour 5d ago

cernji-logging

Add structured JSON logging with ECS format, correlation ID tracking, and performance timing to Python or TypeScript projects. This skill should be used when implementing observability, replacing print/console.log statements, adding structured logging, or improving log aggregation for ELK stack integration.

TerraCo89/Cernji-Agents

Mis à jour 5d ago

observability

Analyzes distributed systems using Prometheus (PromQL), Loki (LogQL), and Tempo (TraceQL). Constructs efficient queries for metrics, logs, and traces. Interprets results with token-efficient structured output. Use when debugging performance issues, investigating errors, analyzing latency, or correlating observability signals across metrics, logs, and traces.

blueswen/observability-with-llm

Mis à jour 5d ago

aiops

Generic AIOps (AI for IT Operations) patterns and best practices for 2025. Provides comprehensive implementation strategies for intelligent monitoring, automation, incident response, and observability across any infrastructure. Framework-agnostic approach supporting multiple monitoring platforms, cloud providers, and automation tools.

majiayu000/claude-skill-registry

Mis à jour 5d ago

holmesgpt-skill

Guide for implementing HolmesGPT - an AI agent for troubleshooting cloud-native environments. Use when investigating Kubernetes issues, analyzing alerts from Prometheus/AlertManager/PagerDuty, performing root cause analysis, configuring HolmesGPT installations (CLI/Helm/Docker), setting up AI providers (OpenAI/Anthropic/Azure), creating custom toolsets, or integrating with observability platforms (Grafana, Loki, Tempo, DataDog).

majiayu000/claude-skill-registry

Mis à jour 5d ago

site-reliability-engineer

Production monitoring, observability, SLO/SLI management, and incident response.Trigger terms: monitoring, observability, SRE, site reliability, alerting, incident response,SLO, SLI, error budget, Prometheus, Grafana, Datadog, New Relic, ELK stack, logs, metrics,traces, on-call, production monitoring, health checks, uptime, availability, dashboards,post-mortem, incident management, runbook.Completes SDD Stage 8 (Monitoring) with comprehensive production observability:- SLI/SLO definitions and tracking- Monitoring stack setup (Prometheus, Grafana, ELK, Datadog, etc.)- Alert rules and notification channels- Incident response runbooks- Observability dashboards (logs, metrics, traces)- Post-mortem templates and analysis- Health check endpoints- Error budget trackingUse when: user needs production monitoring, observability platform, alerting, SLOs,incident response, or post-deployment health tracking.

majiayu000/claude-skill-registry

Mis à jour 5d ago

rust-tracing

Rust tracing and structured logging with the tracing ecosystem. Use when adding logging, instrumenting functions, setting up observability, configuring log output, or debugging with traces.

majiayu000/claude-skill-registry

Mis à jour 5d ago

agent-observability

Production tracing and metrics for multi-agent workflows. Track agent decisions, tool calls, and performance without monitoring conversation content.

k002bill2/LiveMetro

Mis à jour 5d ago

monitoring-observability

Prometheus, Grafana, ELK stack, distributed tracing, and alerting.

pluginagentmarketplace/custom-plugin-machine-learning

Mis à jour 5d ago

distributed-tracing

Marketplace

Implement distributed tracing with Jaeger and Tempo to track requests across microservices and identify performance bottlenecks. Use when debugging microservices, analyzing request flows, or implementing observability for distributed systems.

HermeticOrmus/after-the-third-cup

Mis à jour 5d ago