🎨

Image Processing

912 skills in Content & Media > Image Processing

segment-anything-model

Foundation model for image segmentation with zero-shot transfer. Use when you need to segment any object in images using points, boxes, or masks as prompts, or automatically generate all object masks in an image.

zechenzhangAGI/AI-research-SKILLs

481

Actualizado 4d ago

blip-2-vision-language

Marketplace

Vision-language pre-training framework bridging frozen image encoders and LLMs. Use when you need image captioning, visual question answering, image-text retrieval, or multimodal chat with state-of-the-art zero-shot performance.

zechenzhangAGI/AI-research-SKILLs

481

Actualizado 4d ago

nano-banana-pro

Generate or edit images via Gemini 3 Pro Image (Nano Banana Pro).

steipete/clawdis

430

Actualizado 4d ago

summarize

Summarize URLs or files with the summarize CLI (web, PDFs, images, audio, YouTube).

steipete/clawdis

430

Actualizado 4d ago

openai-image-gen

Batch-generate images via OpenAI Images API. Random prompt sampler + `index.html` gallery.

steipete/clawdis

430

Actualizado 4d ago

jimeng-api

Generate images using the Jimeng API based on text prompts. Use this skill when users request AI-generated images from the Jimeng (即梦AI) service, artwork, illustrations, or visual content creation. Supports text-to-image and image-to-image generation with customizable ratios and resolutions.

devup-ui

A zero-runtime CSS-in-JS preprocessor framework for React. Use this skill when working with Devup UI components, styling, theming, or build configuration. This skill covers component usage (Box, Flex, Grid, Text, Button, etc.), styling APIs (css, styled, globalCss, keyframes), theme configuration, and build plugin setup for Vite, Next.js, Webpack, and Rsbuild.

dev-five-git/devup-ui•Rust

314

Actualizado 4d ago

moai-lang-csharp

C# 12 / .NET 8 development specialist covering ASP.NET Core, Entity Framework, Blazor, and modern C# patterns. Use when developing .NET APIs, web applications, or enterprise solutions.

modu-ai/moai-adk

310

Actualizado 4d ago

moai-lang-csharp

C# 12 / .NET 8 development specialist covering ASP.NET Core, Entity Framework, Blazor, and modern C# patterns. Use when developing .NET APIs, web applications, or enterprise solutions.

modu-ai/moai-adk

310

Actualizado 4d ago

markitdown

Convert files and office documents to Markdown. Supports PDF, DOCX, PPTX, XLSX, images (with OCR), audio (with transcription), HTML, CSV, JSON, XML, ZIP, YouTube URLs, EPubs and more.

jimmc414/Kosmos

304

Actualizado 4d ago

markitdown

Convert various file formats (PDF, Office documents, images, audio, web content, structured data) to Markdown optimized for LLM processing. Use when converting documents to markdown, extracting text from PDFs/Office files, transcribing audio, performing OCR on images, extracting YouTube transcripts, or processing batches of files. Supports 20+ formats including DOCX, XLSX, PPTX, PDF, HTML, EPUB, CSV, JSON, images with OCR, and audio with transcription.

jimmc414/Kosmos

304

Actualizado 4d ago

market-research-reports

Marketplace

Generate comprehensive market research reports (50+ pages) in the style of top consulting firms (McKinsey, BCG, Gartner). Features professional LaTeX formatting, extensive visual generation with scientific-schematics and generate-image, deep integration with research-lookup for data gathering, and multi-framework strategic analysis including Porter's Five Forces, PESTLE, SWOT, TAM/SAM/SOM, and BCG Matrix.

K-Dense-AI/claude-scientific-writer

215

Actualizado 4d ago

vision

Analyze images, screenshots, diagrams, and visual content - Use when you need to understand visual content like screenshots, architecture diagrams, UI mockups, or error screenshots.

0xSero/orchestra

205

Actualizado 4d ago

snapdom

snapDOM is a fast, accurate DOM-to-image capture tool that converts HTML elements into scalable SVG images. Use for capturing HTML elements, converting DOM to images (SVG, PNG, JPG, WebP), preserving styles, fonts, and pseudo-elements.

2025Emma/vibe-coding-cn

177

Actualizado 4d ago

mermaid-tools

Marketplace

Extracts Mermaid diagrams from markdown files and generates high-quality PNG images using bundled scripts. Activates when working with Mermaid diagrams, converting diagrams to PNG, extracting diagrams from markdown, or processing markdown files with embedded Mermaid code.

daymade/claude-code-skills

148

Actualizado 4d ago

markdown-tools

Marketplace

Converts documents to markdown (PDFs, Word docs, PowerPoint, Confluence exports) with Windows/WSL path handling. Activates when converting .doc/.docx/PDF/PPTX files to markdown, processing Confluence exports, handling Windows/WSL path conversions, extracting images from PDFs, or working with markitdown utility.

daymade/claude-code-skills

148

Actualizado 4d ago

llm-icon-finder

Marketplace

Finding and accessing AI/LLM model brand icons from lobe-icons library. Use when users need icon URLs, want to download brand logos for AI models/providers/applications (Claude, GPT, Gemini, etc.), or request icons in SVG/PNG/WEBP formats.

daymade/claude-code-skills

148

Actualizado 4d ago

ios-vision

Marketplace

Use when implementing ANY computer vision feature - image analysis, object detection, pose detection, person segmentation, subject lifting, hand/body pose tracking.

CharlesWiltgen/Axiom

142

Actualizado 3d ago

ios-integration

Marketplace

Use when integrating ANY iOS system feature - Siri, Shortcuts, Apple Intelligence, widgets, IAP, camera, photo library, photos picker, audio, haptics, localization, privacy. Covers App Intents, WidgetKit, StoreKit, AVFoundation, PHPicker, PhotosPicker, Core Haptics, App Shortcuts, Spotlight.

CharlesWiltgen/Axiom

142

Actualizado 3d ago

vision-ref

Marketplace

Vision framework API, VNDetectHumanHandPoseRequest, VNDetectHumanBodyPoseRequest, person segmentation, face detection, VNImageRequestHandler, recognized points, joint landmarks, VNRecognizeTextRequest, VNDetectBarcodesRequest, DataScannerViewController, VNDocumentCameraViewController, RecognizeDocumentsRequest

CharlesWiltgen/Axiom

142

Actualizado 3d ago