Record Managers

Nodos Record Manager de LangChain


Los Record Managers hacen un seguimiento de tus documentos indexados, evitando embeddings vectoriales duplicados en Vector Store.

Cuando se realizan upserts de fragmentos de documentos, cada fragmento será hasheado usando el algoritmo SHA-1. Estos hashes se almacenarán en el Record Manager. Si existe un hash, el proceso de embedding y upsert será omitido.

En algunos casos, podrías querer eliminar documentos existentes que se derivan de las mismas fuentes que los nuevos documentos que se están indexando. Para eso, hay 3 modos de limpieza para Record Manager:

Cuando estás haciendo upsert de múltiples documentos y quieres evitar la eliminación de los documentos existentes que no son parte del proceso actual de upsert, usa el modo de limpieza Incremental.

  1. Tengamos un Record Manager con modo de limpieza Incremental y source como SourceId Key

  1. Y tengamos los siguientes 2 documentos:

Texto
Metadata

Cat

{source:"cat"}

Dog

{source:"dog"}

  1. Después de un upsert, veremos 2 documentos que se han insertado:

  1. Ahora, si eliminamos el documento Dog y actualizamos Cat a Cats, veremos lo siguiente:

  • El documento original Cat es eliminado

  • Un nuevo documento con Cats es añadido

  • El documento Dog no se modifica

  • Los embeddings vectoriales restantes en Vector Store son Cats y Dog

Los nodos Record Manager actualmente disponibles son:

  • SQLite

  • MySQL

  • PostgresQL

Recursos

Last updated