Apify Website Content Crawler
Carga datos desde el Rastreador de Contenido Web de Apify.
Last updated
Carga datos desde el Rastreador de Contenido Web de Apify.
Last updated
Apify es una plataforma de web scraping y extracción de datos que proporciona una tienda de aplicaciones con más de mil herramientas listas para usar llamadas Actors.
El Actor Website Content Crawler puede rastrear sitios web en profundidad, limpiar su HTML eliminando modales de cookies, pies de página o navegación, y luego transformar el HTML en Markdown. Este Markdown puede ser almacenado en una base de datos vectorial para búsqueda semántica o Generación Aumentada por Recuperación (RAG).
(Opcional) Conecta Text Splitter.
Conecta Apify API (crea una nueva credencial con tu token de API de Apify).
Ingresa una o más URLs (separadas por comas) donde el rastreador comenzará, por ejemplo https://docs.flowiseai.com/
.
Selecciona el tipo de rastreador. Consulta la documentación de Website Content Crawler para más información.
(Opcional) Especifica parámetros adicionales como la profundidad máxima de rastreo y el número máximo de páginas a rastrear.
Carga el contenido del sitio web como un Documento.