Directrices

La calidad de los resultados de extracción depende de muchos factores.

Aquí tienes un conjunto de directrices para ayudarte a obtener el mejor rendimiento de tus modelos:

Establece la temperatura del modelo en 0.
Mejora la consigna. La consigna debe ser precisa y directa al punto.
Documenta el esquema: Asegúrate de documentar el esquema para proporcionar más información al LLM.
¡Proporciona ejemplos de referencia! Ejemplos variados pueden ayudar, incluyendo ejemplos donde no debería extraerse nada.
Si tienes muchos ejemplos, utiliza un recuperador para obtener los ejemplos más relevantes.
Realiza una prueba comparativa con el mejor modelo de LLM/Chat disponible (por ejemplo, gpt-4, claude-3, etc.) – ¡consulta con el proveedor del modelo cuál es el más reciente y el mejor!
Si el esquema es muy extenso, intenta dividirlo en varios esquemas más pequeños, ejecuta extracciones separadas y fusiona los resultados.
Asegúrate de que el esquema permita al modelo RECHAZAR la extracción de información. ¡Si no lo hace, el modelo se verá obligado a inventar información!
Añade pasos de verificación/corrección (pídele a un LLM que corrija o verifique los resultados de la extracción).

¡Ten en cuenta!

¡Los LLM son geniales, pero no son necesarios para todos los casos! Si estás extrayendo información de una única fuente estructurada (por ejemplo, LinkedIn), usar un LLM no es una buena idea: el scraping tradicional será mucho más barato y fiable.
humano en el bucle Si necesitas calidad perfecta, es probable que necesites planificar la participación de un humano en el proceso, incluso los mejores LLM cometerán errores al enfrentarse a tareas de extracción complejas.