FlowiseAI
Español
Español
  • Introduction
  • Partes
    • Parte 1: Introducción
      • Recursos
    • Parte 2: Chains Avanzadas
      • Desafío 1: Traductor de Lenguas Antiguas
    • Parte 3: Gestión de Documentos y Memoria
      • Desafío 2: Chatbot Nikola Tesla
    • Parte 4: Despliegue y API
    • Parte 5: Introducción a Agentes
      • Desafíos
    • Parte 6: Agentes Avanzados
      • Desafíos
    • Parte 7: Multi-Agentes
      • Desafíos
    • Parte 8: AgentFlows
      • Desafíos
    • Parte 9: Agentes Secuenciales
      • Desafíos
    • Parte 10: Sequential Agents Avanzados
  • Recursos
    • Enlaces Útiles
    • Documentación Oficial
    • Ejemplos de Código
    • Mejores Prácticas
  • Documentación Oficial
    • Introduction
    • Primeros Pasos
    • Guía de Contribución
      • Building Node
    • Referencia de API
      • Assistants
      • Attachments
      • Chat Message
      • Chatflows
      • Document Store
      • Feedback
      • Leads
      • Ping
      • Prediction
      • Tools
      • Upsert History
      • Variables
      • Vector Upsert
    • Usar Flowise
      • Agentflows
        • Multi-Agents
        • Sequential Agents
          • Tutoriales en Video
      • API
      • Analytic
      • Almacenes de Documentos
      • Embed
      • Monitoring
      • Streaming
      • Telemetry
      • Subidas
      • Variables
      • Workspaces
      • Evaluaciones
    • Configuración
      • Auth
        • Nivel de App
        • Nivel de Chatflow
      • Databases
      • Deployment
        • AWS
        • Azure
        • Alibaba Cloud
        • Digital Ocean
        • Elestio
        • GCP
        • Hugging Face
        • Kubernetes using Helm
        • Railway
        • Render
        • Replit
        • RepoCloud
        • Sealos
        • Zeabur
      • Variables de Entorno
      • Rate Limit
      • Ejecutar Flowise detrás de proxy corporativo
      • SSO
    • Integraciones
      • LangChain
        • Agents
          • Airtable Agent
          • AutoGPT
          • BabyAGI
          • CSV Agent
          • Conversational Agent
          • Conversational Retrieval Agent
          • MistralAI Tool Agent
          • OpenAI Assistant
            • Threads
          • OpenAI Function Agent
          • OpenAI Tool Agent
          • ReAct Agent Chat
          • ReAct Agent LLM
          • Tool Agent
          • XML Agent
        • Cache
          • InMemory Cache
          • InMemory Embedding Cache
          • Momento Cache
          • Redis Cache
          • Redis Embeddings Cache
          • Upstash Redis Cache
        • Chains
          • GET API Chain
          • OpenAPI Chain
          • POST API Chain
          • Conversation Chain
          • Conversational Retrieval QA Chain
          • LLM Chain
          • Multi Prompt Chain
          • Multi Retrieval QA Chain
          • Retrieval QA Chain
          • Sql Database Chain
          • Vectara QA Chain
          • VectorDB QA Chain
        • Chat Models
          • AWS ChatBedrock
          • Azure ChatOpenAI
          • NVIDIA NIM
          • ChatAnthropic
          • ChatCohere
          • Chat Fireworks
          • ChatGoogleGenerativeAI
          • Google VertexAI
          • ChatHuggingFace
          • ChatLocalAI
          • ChatMistralAI
          • IBM Watsonx
          • ChatOllama
          • ChatOpenAI
          • ChatTogetherAI
          • GroqChat
        • Document Loaders
          • API Loader
          • Airtable
          • Apify Website Content Crawler
          • Cheerio Web Scraper
          • Confluence
          • Csv File
          • Custom Document Loader
          • Document Store
          • Docx File
          • File Loader
          • Figma
          • FireCrawl
          • Folder with Files
          • GitBook
          • Github
          • Json File
          • Json Lines File
          • Notion Database
          • Notion Folder
          • Notion Page
          • PDF Files
          • Plain Text
          • Playwright Web Scraper
          • Puppeteer Web Scraper
          • S3 File Loader
          • SearchApi For Web Search
          • SerpApi For Web Search
          • Spider Web Scraper/Crawler
          • Text File
          • Unstructured File Loader
          • Unstructured Folder Loader
          • VectorStore To Document
        • Embeddings
          • AWS Bedrock Embeddings
          • Azure OpenAI Embeddings
          • Cohere Embeddings
          • Google GenerativeAI Embeddings
          • Google VertexAI Embeddings
          • HuggingFace Inference Embeddings
          • LocalAI Embeddings
          • MistralAI Embeddings
          • Ollama Embeddings
          • OpenAI Embeddings
          • OpenAI Embeddings Custom
          • TogetherAI Embedding
          • VoyageAI Embeddings
        • LLMs
          • AWS Bedrock
          • Azure OpenAI
          • Cohere
          • GoogleVertex AI
          • HuggingFace Inference
          • Ollama
          • OpenAI
          • Replicate
        • Memory
          • Buffer Memory
          • Buffer Window Memory
          • Conversation Summary Memory
          • Conversation Summary Buffer Memory
          • DynamoDB Chat Memory
          • MongoDB Atlas Chat Memory
          • Redis-Backed Chat Memory
          • Upstash Redis-Backed Chat Memory
          • Zep Memory
        • Moderation
          • OpenAI Moderation
          • Simple Prompt Moderation
        • Output Parsers
          • CSV Output Parser
          • Custom List Output Parser
          • Structured Output Parser
          • Advanced Structured Output Parser
        • Prompts
          • Chat Prompt Template
          • Few Shot Prompt Template
          • Prompt Template
        • Record Managers
        • Retrievers
          • Custom Retriever
          • Cohere Rerank Retriever
          • Embeddings Filter Retriever
          • HyDE Retriever
          • LLM Filter Retriever
          • Multi Query Retriever
          • Prompt Retriever
          • Reciprocal Rank Fusion Retriever
          • Similarity Score Threshold Retriever
          • Vector Store Retriever
          • Voyage AI Rerank Retriever
        • Text Splitters
          • Character Text Splitter
          • Code Text Splitter
          • Html-To-Markdown Text Splitter
          • Markdown Text Splitter
          • Recursive Character Text Splitter
          • Token Text Splitter
        • Tools
          • BraveSearch API
          • Calculator
          • Chain Tool
          • Chatflow Tool
          • Custom Tool
          • Exa Search
          • Google Custom Search
          • OpenAPI Toolkit
          • Code Interpreter by E2B
          • Read File
          • Request Get
          • Request Post
          • Retriever Tool
          • SearchApi
          • SearXNG
          • Serp API
          • Serper
          • Web Browser
          • Write File
        • Vector Stores
          • AstraDB
          • Chroma
          • Elastic
          • Faiss
          • In-Memory Vector Store
          • Milvus
          • MongoDB Atlas
          • OpenSearch
          • Pinecone
          • Postgres
          • Qdrant
          • Redis
          • SingleStore
          • Supabase
          • Upstash Vector
          • Vectara
          • Weaviate
          • Zep Collection - Open Source
          • Zep Collection - Cloud
      • LiteLLM Proxy
      • LlamaIndex
        • Agents
          • OpenAI Tool Agent
          • Anthropic Tool Agent
        • Chat Models
          • AzureChatOpenAI
          • ChatAnthropic
          • ChatMistral
          • ChatOllama
          • ChatOpenAI
          • ChatTogetherAI
          • ChatGroq
        • Embeddings
          • Azure OpenAI Embeddings
          • OpenAI Embedding
        • Engine
          • Query Engine
          • Simple Chat Engine
          • Context Chat Engine
          • Sub-Question Query Engine
        • Response Synthesizer
          • Refine
          • Compact And Refine
          • Simple Response Builder
          • Tree Summarize
        • Tools
          • Query Engine Tool
        • Vector Stores
          • Pinecone
          • SimpleStore
      • Utilities
        • Custom JS Function
        • Set/Get Variable
        • If Else
        • Sticky Note
      • External Integrations
        • Zapier Zaps
    • Migration Guide
      • v1.3.0 Migration Guide
      • v1.4.3 Migration Guide
      • v2.1.4 Migration Guide
    • Use Cases
      • Calling Children Flows
      • Calling Webhook
      • Interacting with API
      • Multiple Documents QnA
      • SQL QnA
      • Upserting Data
      • Web Scrape QnA
  • Flowise
    • Flowise GitHub
    • Flowise Cloud
Powered by GitBook
On this page
  • Conjuntos de Datos
  • Evaluadores
  • Evaluaciones
  • Volver a ejecutar evaluación
  • Tutorial en Video
Edit on GitHub
  1. Documentación Oficial
  2. Usar Flowise

Evaluaciones

PreviousWorkspacesNextConfiguración

Last updated 3 months ago

Las Evaluaciones solo están disponibles para los planes Cloud y Enterprise

Las evaluaciones te ayudan a monitorear y entender el rendimiento de tu aplicación de Flujo de Chat/Flujo de Agente. A alto nivel, una evaluación es un proceso que toma un conjunto de entradas y salidas correspondientes de tu Flujo de Chat/Flujo de Agente, y genera puntuaciones. Estas puntuaciones pueden derivarse comparando salidas con resultados de referencia, como a través de coincidencia de cadenas, comparación numérica, o incluso aprovechando un LLM como juez. Estas evaluaciones se realizan usando Conjuntos de Datos y Evaluadores.

Conjuntos de Datos

Los conjuntos de datos son las entradas que se utilizarán para ejecutar tu Flujo de Chat/Flujo de Agente, junto con las salidas correspondientes para comparación. El usuario puede agregar la entrada y la salida anticipada manualmente, o cargar un archivo CSV con 2 columnas: Entrada y Salida.

Entrada
Salida

¿Cuál es la capital del Reino Unido?

La capital del Reino Unido es Londres

¿Cuántos días hay en un año?

Hay 365 días en un año

Evaluadores

Los evaluadores son como pruebas unitarias. Durante una evaluación, las entradas de los Conjuntos de Datos se ejecutan en los flujos seleccionados y las salidas se evalúan usando los evaluadores seleccionados. Hay 3 tipos de evaluadores:

  • Basado en Texto: comprobación basada en cadenas:

    • Contiene Alguno

    • Contiene Todos

    • No Contiene Ninguno

    • No Contiene Todos

    • Comienza Con

    • No Comienza Con

  • Basado en Números: comprobación de tipos numéricos:

    • Total de Tokens

    • Tokens de Prompt

    • Tokens de Completado

    • Latencia de API

    • Latencia de LLM

    • Latencia de Flujo de Chat

    • Latencia de Flujo de Agente (próximamente)

    • Longitud de Caracteres de Salida

  • Basado en LLM: usando otro LLM para calificar la salida

    • Alucinación

    • Corrección

Evaluaciones

Ahora que tenemos los Conjuntos de Datos y Evaluadores preparados, podemos comenzar a ejecutar una evaluación.

1.) Selecciona el conjunto de datos y el flujo de chat a evaluar. Puedes seleccionar múltiples conjuntos de datos y flujos de chat. Usando el ejemplo a continuación, cada entrada del Conjunto de Datos 1 se ejecutará contra 2 flujos de chat. Como el Conjunto de Datos 1 tiene 2 entradas, se producirán y evaluarán un total de 4 salidas.

2.) Selecciona los evaluadores. Solo los evaluadores basados en cadenas y números están disponibles para ser seleccionados en esta etapa.

3.) (Opcional) Selecciona el evaluador Basado en LLM. Inicia la Evaluación:

4.) Espera a que se complete la evaluación:

5.) Después de que se complete la evaluación, haz clic en el icono de gráfico en el lado derecho para ver los detalles:

Los 3 gráficos anteriores muestran el resumen de la evaluación:

  • Tasa de aprobación/fallo

  • Promedio de tokens de prompt y completado utilizados

  • Latencia promedio de la solicitud

La tabla debajo de los gráficos muestra los detalles de cada ejecución.

Volver a ejecutar evaluación

Cuando los flujos utilizados en la evaluación han sido actualizados/modificados, se mostrará un mensaje de advertencia:

Puedes volver a ejecutar la misma evaluación usando el botón Volver a Ejecutar Evaluación en la esquina superior derecha. Podrás ver las diferentes versiones:

También puedes ver y comparar los resultados de diferentes versiones:

Tutorial en Video