Hướng dẫn

Chất lượng kết quả trích xuất phụ thuộc vào nhiều yếu tố.

Dưới đây là một tập hướng dẫn để giúp bạn đạt được hiệu suất tốt nhất từ mô hình của bạn:

Đặt nhiệt độ mô hình thành 0.
Cải thiện câu nhắc. Câu nhắc nên cụ thể và súc tích.
Tài liệu hóa lược đồ: Đảm bảo rằng lược đồ được tài liệu hóa để cung cấp thêm thông tin cho LLM.
Cung cấp ví dụ tham chiếu! Các ví dụ đa dạng có thể giúp, bao gồm cả các ví dụ nơi không cần phải trích xuất gì cả.
Nếu bạn có rất nhiều ví dụ, hãy sử dụng một bộ tìm kiếm để tìm các ví dụ có liên quan nhất.
Đo lường với mô hình LLM/Chat tốt nhất có sẵn (ví dụ: gpt-4, claude-3, v.v.) – hỏi nhà cung cấp mô hình xem đó là mô hình mới nhất và tốt nhất!
Nếu lược đồ rất lớn, hãy thử chia nó thành nhiều lược đồ nhỏ hơn, chạy trích xuất riêng rẽ và hợp nhất kết quả.
Đảm bảo rằng lược đồ cho phép mô hình TỪ CHỐI trích xuất thông tin. Nếu không, mô hình sẽ bị buộc phải tạo ra thông tin!
Thêm bước xác minh/sửa lỗi (yêu cầu một LLM sửa lỗi hoặc xác minh kết quả của việc trích xuất).

Lưu ý!

LLMs tuyệt vời, nhưng không yêu cầu cho tất cả các trường hợp! Nếu bạn đang trích xuất thông tin từ một nguồn cấu trúc đơn (ví dụ: linkedin), sử dụng LLM không phải là ý tưởng tốt – việc cào dữ liệu truyền thống sẽ rẻ và đáng tin cậy hơn nhiều.
con người trong chuỗi Nếu bạn cần chất lượng hoàn hảo, có thể bạn cần dự định có một con người trong chuỗi – ngay cả những LLM tốt nhất cũng sẽ mắc lỗi khi xử lý các nhiệm vụ trích xuất phức tạp.