Record Managers
Nodos Record Manager de LangChain
Last updated
Nodos Record Manager de LangChain
Last updated
Los Record Managers hacen un seguimiento de tus documentos indexados, evitando embeddings vectoriales duplicados en Vector Store.
Cuando se realizan upserts de fragmentos de documentos, cada fragmento será hasheado usando el algoritmo SHA-1. Estos hashes se almacenarán en el Record Manager. Si existe un hash, el proceso de embedding y upsert será omitido.
En algunos casos, podrías querer eliminar documentos existentes que se derivan de las mismas fuentes que los nuevos documentos que se están indexando. Para eso, hay 3 modos de limpieza para Record Manager:
Cuando estás haciendo upsert de múltiples documentos y quieres evitar la eliminación de los documentos existentes que no son parte del proceso actual de upsert, usa el modo de limpieza Incremental.
Tengamos un Record Manager con modo de limpieza Incremental
y source
como SourceId Key
Y tengamos los siguientes 2 documentos:
Cat
{source:"cat"}
Dog
{source:"dog"}
Después de un upsert, veremos 2 documentos que se han insertado:
Ahora, si eliminamos el documento Dog y actualizamos Cat a Cats, veremos lo siguiente:
El documento original Cat es eliminado
Un nuevo documento con Cats es añadido
El documento Dog no se modifica
Los embeddings vectoriales restantes en Vector Store son Cats y Dog
Los nodos Record Manager actualmente disponibles son:
SQLite
MySQL
PostgresQL