Diretrizes

A qualidade dos resultados de extração depende de muitos fatores.

Aqui está um conjunto de diretrizes para ajudar a obter o melhor desempenho de seus modelos:

Defina a temperatura do modelo como 0.
Melhore a instrução. A instrução deve ser precisa e direta.
Documente o esquema: Certifique-se de documentar o esquema para fornecer mais informações ao LLM.
Forneça exemplos de referência! Exemplos diversos podem ajudar, incluindo exemplos onde nada deve ser extraído.
Se você tiver muitos exemplos, use um recuperador para obter os exemplos mais relevantes.
Avalie com o melhor modelo de LLM/Chat disponível (por exemplo, gpt-4, claude-3, etc) – verifique com o provedor do modelo qual é o mais recente e melhor!
Se o esquema for muito extenso, tente dividi-lo em vários esquemas menores, execute extrações separadas e una os resultados.
Certifique-se de que o esquema permita que o modelo REJEITE extrair informações. Se não permitir, o modelo será forçado a inventar informações!
Adicione etapas de verificação/correção (peça a um LLM para corrigir ou verificar os resultados da extração).

Tenha em mente!

Os LLMs são ótimos, mas não são necessários para todos os casos! Se você está extraindo informações de uma única fonte estruturada (por exemplo, linkedin), usar um LLM não é uma boa ideia – a raspagem tradicional de páginas da web será muito mais barata e confiável.
humano no circuito Se você precisa de qualidade perfeita, provavelmente precisará contar com um humano no circuito – mesmo os melhores LLMs cometerão erros ao lidar com tarefas complexas de extração.