Evaluaciones

Las Evaluaciones solo están disponibles para los planes Cloud y Enterprise

Las evaluaciones te ayudan a monitorear y entender el rendimiento de tu aplicación de Flujo de Chat/Flujo de Agente. A alto nivel, una evaluación es un proceso que toma un conjunto de entradas y salidas correspondientes de tu Flujo de Chat/Flujo de Agente, y genera puntuaciones. Estas puntuaciones pueden derivarse comparando salidas con resultados de referencia, como a través de coincidencia de cadenas, comparación numérica, o incluso aprovechando un LLM como juez. Estas evaluaciones se realizan usando Conjuntos de Datos y Evaluadores.

Conjuntos de Datos

Los conjuntos de datos son las entradas que se utilizarán para ejecutar tu Flujo de Chat/Flujo de Agente, junto con las salidas correspondientes para comparación. El usuario puede agregar la entrada y la salida anticipada manualmente, o cargar un archivo CSV con 2 columnas: Entrada y Salida.

Entrada

Salida

¿Cuál es la capital del Reino Unido?

La capital del Reino Unido es Londres

¿Cuántos días hay en un año?

Hay 365 días en un año

Evaluadores

Los evaluadores son como pruebas unitarias. Durante una evaluación, las entradas de los Conjuntos de Datos se ejecutan en los flujos seleccionados y las salidas se evalúan usando los evaluadores seleccionados. Hay 3 tipos de evaluadores:

Basado en Texto: comprobación basada en cadenas:
- Contiene Alguno
- Contiene Todos
- No Contiene Ninguno
- No Contiene Todos
- Comienza Con
- No Comienza Con

Basado en Números: comprobación de tipos numéricos:
- Total de Tokens
- Tokens de Prompt
- Tokens de Completado
- Latencia de API
- Latencia de LLM
- Latencia de Flujo de Chat
- Latencia de Flujo de Agente (próximamente)
- Longitud de Caracteres de Salida

Basado en LLM: usando otro LLM para calificar la salida
- Alucinación
- Corrección

Evaluaciones

Ahora que tenemos los Conjuntos de Datos y Evaluadores preparados, podemos comenzar a ejecutar una evaluación.

1.) Selecciona el conjunto de datos y el flujo de chat a evaluar. Puedes seleccionar múltiples conjuntos de datos y flujos de chat. Usando el ejemplo a continuación, cada entrada del Conjunto de Datos 1 se ejecutará contra 2 flujos de chat. Como el Conjunto de Datos 1 tiene 2 entradas, se producirán y evaluarán un total de 4 salidas.

2.) Selecciona los evaluadores. Solo los evaluadores basados en cadenas y números están disponibles para ser seleccionados en esta etapa.

3.) (Opcional) Selecciona el evaluador Basado en LLM. Inicia la Evaluación:

4.) Espera a que se complete la evaluación:

5.) Después de que se complete la evaluación, haz clic en el icono de gráfico en el lado derecho para ver los detalles:

Los 3 gráficos anteriores muestran el resumen de la evaluación:

Tasa de aprobación/fallo
Promedio de tokens de prompt y completado utilizados
Latencia promedio de la solicitud

La tabla debajo de los gráficos muestra los detalles de cada ejecución.

Volver a ejecutar evaluación

Cuando los flujos utilizados en la evaluación han sido actualizados/modificados, se mostrará un mensaje de advertencia:

Puedes volver a ejecutar la misma evaluación usando el botón Volver a Ejecutar Evaluación en la esquina superior derecha. Podrás ver las diferentes versiones:

También puedes ver y comparar los resultados de diferentes versiones: