githubEdit

Apify Website Content Crawler

Carga datos desde el Rastreador de Contenido Web de Apify.

Apifyarrow-up-right es una plataforma de web scraping y extracción de datos que proporciona una tienda de aplicaciones con más de mil herramientas listas para usar llamadas Actors.

El Actor Website Content Crawlerarrow-up-right puede rastrear sitios web en profundidad, limpiar su HTML eliminando modales de cookies, pies de página o navegación, y luego transformar el HTML en Markdown. Este Markdown puede ser almacenado en una base de datos vectorial para búsqueda semántica o Generación Aumentada por Recuperación (RAG).

Nodo del Rastreador de Contenido Web Apify

Rastrear Sitio Web Completo

  1. (Opcional) Conecta Text Splitter.

  2. Conecta Apify API (crea una nueva credencial con tu token de API de Apifyarrow-up-right).

  3. Ingresa una o más URLs (separadas por comas) donde el rastreador comenzará, por ejemplo https://docs.flowiseai.com/.

  4. (Opcional) Especifica parámetros adicionales como la profundidad máxima de rastreo y el número máximo de páginas a rastrear.

Salida

Carga el contenido del sitio web como un Documento.

Recursos

Last updated