راهنمایی‌ها

کیفیت نتایج استخراج بستگی به بسیاری از عوامل دارد.

در زیر مجموعه‌ای از راهنمایی‌ها برای کمک به شما در بهترین عملکرد مدل‌هایتان آمده است:

  • دمای مدل را به 0 تنظیم کنید.
  • الگوی ورودی را بهبود بخشید. الگو باید دقیق و مختصر باشد.
  • اسکیمای سند را مستند کنید: اطمینان حاصل کنید که اسکیما مستند شده است تا اطلاعات بیشتری به LLM ارائه دهد.
  • مثال‌های مرجع ارائه دهید! مثال‌های متنوع می‌توانند کمک کنند، از جمله مواردی که در آن‌ها هیچ چیز باید استخراج نشود.
  • اگر مثال‌های زیادی دارید، از یک بازیاب برای بازیابی مثال‌های مربوط استفاده کنید.
  • با بهترین مدل LLM/مدل چت موجود (به عنوان مثال gpt-4، claude-3 و غیره) مقایسه کنید – با ارائه‌دهنده مدل بررسی کنید که کدام یک آخرین و بهترین است!
  • اگر اسکیما بسیار بزرگ است، سعی کنید آن را به چندین اسکیمای کوچک‌تر تقسیم کنید، استخراج‌های جداگانه انجام دهید و نتایج را ادغام کنید.
  • اطمینان حاصل کنید که اسکیما به مدل اجازه استخراج اطلاعات را رد کند. اگر اجازه این کار را ندهید، مدل مجبور می‌شود اطلاعات را اختراع کند!
  • گام‌های تأیید/اصلاح (درخواست از یک LLM برای اصلاح یا تأیید نتایج استخراج) را اضافه کنید.

در نظر داشته باشید!

مدل‌های زبانی بسیار عالی هستند، اما برای همه موارد لازم نیست! اگر اطلاعات را از یک منبع ساختار یافته واحد استخراج می‌کنید (به عنوان مثال، linkedin)، استفاده از یک مدل زبانی برایتان ایده خوبی نیست – جمع‌آوری سنتی وب (web-scraping) ارزان‌تر و قابل اطمینان‌تر خواهد بود.

  • انسان در حلقه اگر به کیفیت کامل نیاز دارید، احتمالاً باید برنامه‌ریزی کنید که انسانی در حلقه باشد – حتی بهترین مدل‌های زبانی هنگام مواجه شدن با وظایف استخراج پیچیده، اشتباه می‌کنند.