مدل نظارت بر ایمنی محتوا (نظارت)

1. معرفی API بررسی محتوای OpenAI

1.1. مرور اجمالی از API بررسی محتوای OpenAI

OpenAI یک خدمات API بررسی محتوا ارائه می دهد که برای کمک به توسعه دهندگان در شناسایی و فیلتر کردن سریع و دقیق محتوای آنلاین که مقررات استفاده از آنها را نقض می کند، طراحی شده است. این API از مدل‌های پیشرفته یادگیری ماشین برای تحلیل زمان واقعی محتوای متنی استفاده می‌کند، که از پتانسیل های گفته شده، سخن‌های نفرت‌آمیز، آزار، محتوای صریح و دسته‌بندی و قضاوت روشن ارائه می‌دهد.

1.2. توضیح دسته‌های محتوا

API بررسی محتوای OpenAI محتواهای نامناسب را به چندین دسته مختلف دسته‌بندی می‌کند تا برای انجام روش‌های متفاوت برخوردهای دقیق‌تر فراهم آید. اینجا توضیحات خاص برای این دسته‌بندی‌ها داده شده است:

نفرت: شامل سخن‌های نفرت‌آمیز بر اساس نژاد، جنسیت، قومیت، مذهب، ملیت، جنسیتی، وضعیت معلولیت یا قومیت است.
نفرت/تهدیدآمیز: به علاوه از سخن‌های نفرت‌آمیز، شامل وعده‌های خشونت یا تهدید جدی به آسیب دیدن به افراد مشخص فوق‌الذکر است.
آزار: ترویج یا تشویق به زبان‌های آزارگری بر علیه هر هدفی.
آزار/تهدیدآمیز: حاوی محتوای آزار همراه با وعده‌های خشونت یا تهدید جدی به آسیب دیدن به هر هدفی.
خود‌آسیبی: ترویج، تشویق یا تصویر کشی‌های خود‌آسیبی‌آمیز مانند خودکشی، بریدن و اختلالات خوردن.
خود‌آسیبی/نیت: سخنران اطلاع می دهد که در رفتار خودآسیبی‌آمیز شرکت می‌کند یا قصد شرکت در آن را دارد.
خود‌آسیبی/دستورالعمل‌ها: تشویق به رفتار خود‌آسیبی و یا ارائه راهنمایی یا مشاوره درباره چگونگی انجام چنین رفتاری.
جنسی: حاوی محتوایی است که هدف آن برانگیختن هیجان جنسی است مانند شرح فعالیت جنسی یا ترویج خدمات جنسی (به استثنای آموزش جنسی و سلامت جنسی).
جنسی/زیرسن: شامل محتوای جنسی مرتبط با افراد زیر ۱۸ سال است.
خشونت: توصیف محتوای مرتبط با مرگ، خشونت یا آسیب جسمی.
خشونت/گرافیک: محتوایی که به طور گرافیکی مرگ، خشونت یا آسیب جسمی را توصیف می‌کند.

3. استفاده از API مدیریت محتوای OpenAI

برای استفاده از API مدیریت محتوای OpenAI، می‌توانید با استفاده از ابزارهای خط فرمانی مانند cURL درخواست‌های شبکه ای ارسال کنید. یک مثال ساده به شرح زیر است:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "اینجا یک متن نمونه است"}'

در دستور بالا، عبارت $OPENAI_API_KEY را با کلید API واقعی OpenAI خود جایگزین کنید. متن "اینجا یک متن نمونه است" را در فیلد input با متن واقعی مورد نظر خود که می‌خواهید مدیریت کنید، جایگزین کنید.

پس از فراخوانی API، یک پاسخ به شکل زیر دریافت خواهید کرد:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

در پاسخ از API، فیلد flagged نشان دهنده این است که آیا محتوا مقررات استفاده از OpenAI را نقض می‌کند یا خیر. فیلد categories شامل اعلامی‌های بولی برای اینکه محتوا نقض دسته‌های مختلف را دارد و فیلد category_scores امتیازهای اطمینان را برای نقض دسته‌بندی‌های مربوطه ارائه می‌دهد. امتیازهای بالاتر نشان دهنده احتمال بالاتر نقض است. توجه داشته باشید که این امتیازها نباید به عنوان احتمال‌ها تفسیر شوند.

لازم به ذکر است که OpenAI به طور مداوم مدل پشت API مدیریت محتوا را به روز می‌کند، که به معنای آن است که سیاست‌های سفارشی که بر روی category_scores وابسته هستند ممکن است نیاز به تنظیم مداوم در طول زمان داشته باشد.

1. معرفی API بررسی محتوای OpenAI

1.1. مرور اجمالی از API بررسی محتوای OpenAI

1.2. توضیح دسته‌های محتوا

3. استفاده از API مدیریت محتوای OpenAI

آموزش‌های مرتبط