지침 - LangChain을 사용한 구조화된 데이터 추출

지침

추출 결과의 품질은 여러 요소에 따라 달라집니다.

다음은 모델에서 최상의 성능을 뽑아내기 위한 지침 세트입니다:

모델 온도를 0으로 설정하세요.
프롬프트를 개선하세요. 프롬프트는 명확하고 간결해야 합니다.
스키마를 문서화하세요: 스키마를 문서화하여 LLM에 더 많은 정보를 제공하세요.
참조 예시를 제공하세요! 아무 것도 추출되지 않아야 하는 예시를 포함하여 여러 가지 예시가 도움이 됩니다.
많은 예시가 있는 경우, 관련성이 높은 예시를 검색하기 위해 검색기를 사용하세요.
최고의 사용 가능한 LLM/대화 모델 (예: gpt-4, claude-3 등)로 벤치마킹하세요. - 어떤 것이 최신이며 가장 좋은지 모델 공급 업체와 확인하세요!
스키마가 매우 큰 경우, 여러 개의 작은 스키마로 분할하여 별도의 추출을 실행하고 결과를 병합하세요.
모델이 정보를 추출하지 않을 수 있도록 스키마를 설정하세요. 그렇지 않으면 모델이 정보를 꾸며내야 할 수도 있습니다!
확인/수정 단계를 추가하세요 (LLM에게 추출 결과를 수정하거나 확인하도록 요청하세요).

LLM은 훌륭하지만 모든 경우에 필수는 아닙니다! 단일 구조화된 소스(예: linkedin)에서 정보를 추출하는 경우 LLM 사용은 좋은 생각이 아닙니다 - 전통적인 웹 스크래핑이 훨씬 더 저렴하고 신뢰할 수 있습니다.
사람이 개입하는 ** 정보가 완벽하게 필요한 경우, 복잡한 추출 작업을 다룰 때 최고의 LLM도 실수를 할 수 있으므로 사람이 개입할 계획을 세우는 것이 좋습니다.