Producciónv2.0.0

WebScraper Toolkit

Suite completa de scraping web: extensión Chrome, backend con API REST, scraper headless, servidor MCP para agentes de IA, y dashboard con visualización de sitemaps. Captura DOM, estilos, assets, requests de red y metadatos de cualquier sitio.

TypeScriptNode.jsExpressSQLitePuppeteerChrome Extension (Manifest V3)D3.jsMCP Protocol

Demo Interactiva

Interactúa con una versión en vivo del producto. Sin capturas de pantalla — código real.

Web Scrape Toolkit

v2.0.0

Storage

Send to backend server

Session

competitor-analysis• example.com

Scrape Mode

endpoints

mcpTools

162

tests

dbTables

Funcionalidades

30 funcionalidades incluidas

Funcionalidades Core

Captura completa de página
DOM, estilos computados, imágenes, scripts y hojas de estilo
Scraping selectivo
Selector visual de elementos, reglas CSS y modos por página o sitio completo
Crawling multi-página
Motor BFS con profundidad configurable, límite de páginas y delay entre requests
Captura de red
Intercepción de XHR/fetch con captura de request bodies (10KB)
Auto-captura en navegación
Captura automática de cada página durante navegación manual
Filtrado de URLs
Patrones glob/regex para incluir o excluir URLs durante el crawl
Motor de paginación
Auto-detección de botones next, load-more, paginación numerada e infinite scroll
Descubrimiento de sitemap y rutas JS
Auto-fetch de sitemap.xml, detección de rutas en código JavaScript, URLs semilla manuales
Búsqueda full-text
Búsqueda cross-page con snippets de contexto resaltados

Stealth & Anti-detección

Modo stealth
Rotación de 15+ User-Agents, jitter de viewport, 12+ flags anti-detección de Chrome
Cumplimiento de rate-limiting
Respeta headers Retry-After, backoff automático en HTTP 429, delays aleatorios 5-12s

Automatización

Presets de crawl
Quick Scan, Full Site, Stealth y Blitz — configuraciones predefinidas para cada escenario
Scraping programado
Jobs recurrentes con expresiones cron via API REST
Scraping por lotes
Múltiples URLs en un solo job, cola async con límites concurrentes

Seguridad

Manejo de sesiones de login
Detección automática de logout, pausa de crawl para re-autenticación
Perfiles de autenticación
Cookies y headers encriptados con AES-256-GCM por dominio

Inteligencia de Datos

Extracción de contactos
Emails, teléfonos, perfiles sociales (20+ plataformas), direcciones físicas y formularios
Análisis SEO
Scoring por página y agregado por sitio, 12 categorías, recomendaciones accionables
Escaneo de seguridad
XSS, contenido mixto, formularios inseguros, keys expuestas, correlación CVE
Detección de stack tecnológico
Identifica frameworks, CMS, librerías y versiones detectadas en cada página
Dashboard de inteligencia
KPIs, distribución de severidad, tabla de hallazgos, navegación interactiva
Visualización de mapa de sitio
Grafo force-directed (D3.js) mostrando la estructura de enlaces entre páginas

Monitoreo

Detección de cambios
Hashing SHA-256, diffs línea por línea, historial de snapshots
Feeds RSS/Atom
Descubrimiento automático de feeds y polling de items estructurados

Integraciones

Integración YouTube
Listado de videos de canal, detalles y extracción de links de descripción
API REST
21 endpoints con auth Bearer token, spec OpenAPI 3.0, jobs async y batch
Servidor MCP
11 herramientas para agentes de IA (Claude, etc.) via protocolo MCP

Exportación

WST Explorer
Visor interactivo de datos con dark mode, atajos de teclado y múltiples vistas
Reporte ejecutivo PDF
Reporte profesional con KPIs, hallazgos, contactos, SEO y recomendaciones
Exportación multi-formato
.wst.json (IA), CSV, JSON, sitio estático auto-contenido con reescritura de URLs

Solicitar acceso