راهنماییها
کیفیت نتایج استخراج بستگی به بسیاری از عوامل دارد.
در زیر مجموعهای از راهنماییها برای کمک به شما در بهترین عملکرد مدلهایتان آمده است:
- دمای مدل را به
0
تنظیم کنید. - الگوی ورودی را بهبود بخشید. الگو باید دقیق و مختصر باشد.
- اسکیمای سند را مستند کنید: اطمینان حاصل کنید که اسکیما مستند شده است تا اطلاعات بیشتری به LLM ارائه دهد.
- مثالهای مرجع ارائه دهید! مثالهای متنوع میتوانند کمک کنند، از جمله مواردی که در آنها هیچ چیز باید استخراج نشود.
- اگر مثالهای زیادی دارید، از یک بازیاب برای بازیابی مثالهای مربوط استفاده کنید.
- با بهترین مدل LLM/مدل چت موجود (به عنوان مثال gpt-4، claude-3 و غیره) مقایسه کنید – با ارائهدهنده مدل بررسی کنید که کدام یک آخرین و بهترین است!
- اگر اسکیما بسیار بزرگ است، سعی کنید آن را به چندین اسکیمای کوچکتر تقسیم کنید، استخراجهای جداگانه انجام دهید و نتایج را ادغام کنید.
- اطمینان حاصل کنید که اسکیما به مدل اجازه استخراج اطلاعات را رد کند. اگر اجازه این کار را ندهید، مدل مجبور میشود اطلاعات را اختراع کند!
- گامهای تأیید/اصلاح (درخواست از یک LLM برای اصلاح یا تأیید نتایج استخراج) را اضافه کنید.
در نظر داشته باشید!
مدلهای زبانی بسیار عالی هستند، اما برای همه موارد لازم نیست! اگر اطلاعات را از یک منبع ساختار یافته واحد استخراج میکنید (به عنوان مثال، linkedin)، استفاده از یک مدل زبانی برایتان ایده خوبی نیست – جمعآوری سنتی وب (web-scraping) ارزانتر و قابل اطمینانتر خواهد بود.
- انسان در حلقه اگر به کیفیت کامل نیاز دارید، احتمالاً باید برنامهریزی کنید که انسانی در حلقه باشد – حتی بهترین مدلهای زبانی هنگام مواجه شدن با وظایف استخراج پیچیده، اشتباه میکنند.