Diretrizes
A qualidade dos resultados de extração depende de muitos fatores.
Aqui está um conjunto de diretrizes para ajudar a obter o melhor desempenho de seus modelos:
- Defina a temperatura do modelo como
0
. - Melhore a instrução. A instrução deve ser precisa e direta.
- Documente o esquema: Certifique-se de documentar o esquema para fornecer mais informações ao LLM.
- Forneça exemplos de referência! Exemplos diversos podem ajudar, incluindo exemplos onde nada deve ser extraído.
- Se você tiver muitos exemplos, use um recuperador para obter os exemplos mais relevantes.
- Avalie com o melhor modelo de LLM/Chat disponível (por exemplo, gpt-4, claude-3, etc) – verifique com o provedor do modelo qual é o mais recente e melhor!
- Se o esquema for muito extenso, tente dividi-lo em vários esquemas menores, execute extrações separadas e una os resultados.
- Certifique-se de que o esquema permita que o modelo REJEITE extrair informações. Se não permitir, o modelo será forçado a inventar informações!
- Adicione etapas de verificação/correção (peça a um LLM para corrigir ou verificar os resultados da extração).
Tenha em mente!
- Os LLMs são ótimos, mas não são necessários para todos os casos! Se você está extraindo informações de uma única fonte estruturada (por exemplo, linkedin), usar um LLM não é uma boa ideia – a raspagem tradicional de páginas da web será muito mais barata e confiável.
- humano no circuito Se você precisa de qualidade perfeita, provavelmente precisará contar com um humano no circuito – mesmo os melhores LLMs cometerão erros ao lidar com tarefas complexas de extração.