WebScraper Toolkit
Suite completa de scraping web: extensión Chrome, backend con API REST, scraper headless, servidor MCP para agentes de IA, y dashboard con visualización de sitemaps. Captura DOM, estilos, assets, requests de red y metadatos de cualquier sitio.
Demo Interactiva
Interactúa con una versión en vivo del producto. Sin capturas de pantalla — código real.
Funcionalidades
30 funcionalidades incluidas
Funcionalidades Core
- Captura completa de página
DOM, estilos computados, imágenes, scripts y hojas de estilo
- Scraping selectivo
Selector visual de elementos, reglas CSS y modos por página o sitio completo
- Crawling multi-página
Motor BFS con profundidad configurable, límite de páginas y delay entre requests
- Captura de red
Intercepción de XHR/fetch con captura de request bodies (10KB)
- Auto-captura en navegación
Captura automática de cada página durante navegación manual
- Filtrado de URLs
Patrones glob/regex para incluir o excluir URLs durante el crawl
- Motor de paginación
Auto-detección de botones next, load-more, paginación numerada e infinite scroll
- Descubrimiento de sitemap y rutas JS
Auto-fetch de sitemap.xml, detección de rutas en código JavaScript, URLs semilla manuales
- Búsqueda full-text
Búsqueda cross-page con snippets de contexto resaltados
Stealth & Anti-detección
- Modo stealth
Rotación de 15+ User-Agents, jitter de viewport, 12+ flags anti-detección de Chrome
- Cumplimiento de rate-limiting
Respeta headers Retry-After, backoff automático en HTTP 429, delays aleatorios 5-12s
Automatización
- Presets de crawl
Quick Scan, Full Site, Stealth y Blitz — configuraciones predefinidas para cada escenario
- Scraping programado
Jobs recurrentes con expresiones cron via API REST
- Scraping por lotes
Múltiples URLs en un solo job, cola async con límites concurrentes
Seguridad
- Manejo de sesiones de login
Detección automática de logout, pausa de crawl para re-autenticación
- Perfiles de autenticación
Cookies y headers encriptados con AES-256-GCM por dominio
Inteligencia de Datos
- Extracción de contactos
Emails, teléfonos, perfiles sociales (20+ plataformas), direcciones físicas y formularios
- Análisis SEO
Scoring por página y agregado por sitio, 12 categorías, recomendaciones accionables
- Escaneo de seguridad
XSS, contenido mixto, formularios inseguros, keys expuestas, correlación CVE
- Detección de stack tecnológico
Identifica frameworks, CMS, librerías y versiones detectadas en cada página
- Dashboard de inteligencia
KPIs, distribución de severidad, tabla de hallazgos, navegación interactiva
- Visualización de mapa de sitio
Grafo force-directed (D3.js) mostrando la estructura de enlaces entre páginas
Monitoreo
- Detección de cambios
Hashing SHA-256, diffs línea por línea, historial de snapshots
- Feeds RSS/Atom
Descubrimiento automático de feeds y polling de items estructurados
Integraciones
- Integración YouTube
Listado de videos de canal, detalles y extracción de links de descripción
- API REST
21 endpoints con auth Bearer token, spec OpenAPI 3.0, jobs async y batch
- Servidor MCP
11 herramientas para agentes de IA (Claude, etc.) via protocolo MCP
Exportación
- WST Explorer
Visor interactivo de datos con dark mode, atajos de teclado y múltiples vistas
- Reporte ejecutivo PDF
Reporte profesional con KPIs, hallazgos, contactos, SEO y recomendaciones
- Exportación multi-formato
.wst.json (IA), CSV, JSON, sitio estático auto-contenido con reescritura de URLs