Diretrizes

A qualidade dos resultados de extração depende de muitos fatores.

Aqui está um conjunto de diretrizes para ajudar a obter o melhor desempenho de seus modelos:

  • Defina a temperatura do modelo como 0.
  • Melhore a instrução. A instrução deve ser precisa e direta.
  • Documente o esquema: Certifique-se de documentar o esquema para fornecer mais informações ao LLM.
  • Forneça exemplos de referência! Exemplos diversos podem ajudar, incluindo exemplos onde nada deve ser extraído.
  • Se você tiver muitos exemplos, use um recuperador para obter os exemplos mais relevantes.
  • Avalie com o melhor modelo de LLM/Chat disponível (por exemplo, gpt-4, claude-3, etc) – verifique com o provedor do modelo qual é o mais recente e melhor!
  • Se o esquema for muito extenso, tente dividi-lo em vários esquemas menores, execute extrações separadas e una os resultados.
  • Certifique-se de que o esquema permita que o modelo REJEITE extrair informações. Se não permitir, o modelo será forçado a inventar informações!
  • Adicione etapas de verificação/correção (peça a um LLM para corrigir ou verificar os resultados da extração).

Tenha em mente!

  • Os LLMs são ótimos, mas não são necessários para todos os casos! Se você está extraindo informações de uma única fonte estruturada (por exemplo, linkedin), usar um LLM não é uma boa ideia – a raspagem tradicional de páginas da web será muito mais barata e confiável.
  • humano no circuito Se você precisa de qualidade perfeita, provavelmente precisará contar com um humano no circuito – mesmo os melhores LLMs cometerão erros ao lidar com tarefas complexas de extração.