İçerik Güvenliği Düzenleme Modeli (Düzenleme)

1. OpenAI İçerik İnceleme API Tanıtımı

1.1. OpenAI İçerik İnceleme API'nin Genel Bakışı

OpenAI, geliştiricilere hızlı ve doğru bir şekilde çevrimiçi içerikleri tanımlayıp filtrelemelerine yardımcı olacak bir içerik inceleme API hizmeti sunmaktadır. Bu API, gelişmiş makine öğrenimi modellerini kullanarak metin içeriğini gerçek zamanlı olarak analiz ederek potansiyel nefret söylemi, taciz ve açık içerikleri belirleyerek net bir kategorizasyon ve değerlendirme sağlar.

1.2. İçerik Kategorilerinin Açıklaması

OpenAI içerik inceleme API'sı, uygun olmayan içeriği farklı ihlal türlerine daha detaylı bir şekilde işlemek üzere birden fazla kategoriye ayırır. İşte bu kategoriler için spesifik açıklamalar:

nefret: Irk, cinsiyet, etnik köken, din, milliyet, cinsel yönelim, engellilik durumu veya kast temelli nefret söylemi içerir.
nefret/tehditkâr: Nefret söyleminin yanı sıra yukarıda belirtilen belirli gruplara karşı şiddet veya ciddi zarar tehditlerini içerir.
taciz: Herhangi bir hedefe karşı taciz etmeyi teşvik eden veya destekleyen bir dil içerir.
taciz/tehditkâr: Herhangi bir hedefe karşı şiddet veya ciddi zarar tehditlerini içeren taciz içeriği bulunur.
kendine-zarar: İntihar, kesme ve yeme bozuklukları gibi kendine zarar verme davranışlarını teşvik eder, yansıtır veya betimler.
kendine-zarar/niyet: Konuşmacı, kendine zarar verici davranışlarda bulunduğunu veya bunu yapmayı amaçladığını belirtir.
kendine-zarar/talimatlar: Kendine zarar verici davranışları teşvik eder veya böyle davranışları nasıl gerçekleştireceğine dair rehberlik veya tavsiye sunar.
cinsel: Cinsel faaliyetlerin betimlemeleri gibi cinsel heyecanı uyandırmayı amaçlayan içerikleri içerir (cinsel eğitim ve sağlık dışında).
cinsel/çocuklar: 18 yaşın altındaki bireyleri içeren cinsel içerikleri kapsar.
şiddet: Ölüm, şiddet veya fiziksel yaralanma ile ilgili içeriği tanımlar.
şiddet/graphic: Ölüm, şiddet veya fiziksel yaralanmayı görsel olarak betimleyen içeriği içerir.

3. OpenAI İçerik Moderasyon API'sinin Kullanımı

OpenAI İçerik Moderasyon API'sini kullanmak için, cURL gibi komut satırı araçlarını kullanarak ağ istekleri yapabilirsiniz. İşte basit bir örnek:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "İşte örnek metin"}'

Yukarıdaki komutta, $OPENAI_API_KEY yerine gerçek OpenAI API anahtarınızı koyun. input alanındaki "İşte örnek metin" kısmını kontrol etmek istediğiniz gerçek metinle değiştirin.

API'yi çağırdıktan sonra, aşağıdakine benzer bir yanıt alacaksınız:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

API'den gelen yanıtta, flagged alanı içeriğin OpenAI'nın kullanım politikalarını ihlal edip etmediğini gösterir. categories alanı, içeriğin farklı kategorilerde ihlal edilip edilmediği için boolean bayraklar içerir ve category_scores alanı, ilgili kategorilerin ihlal edilme olasılığına dair güven skorlarını sunar. Daha yüksek skorlar daha yüksek bir ihlal olasılığını gösterir. Bu skorların olasılık olarak yorumlanmaması gerektiğini unutmayın.

OpenAI, İçerik Moderasyon API'nin arkasındaki modeli sürekli güncelleyeceğini belirtmek önemlidir. Bu, category_scores'a dayalı özel politikaların zamanla sürekli kalibrasyon gerektirebileceği anlamına gelir.

1. OpenAI İçerik İnceleme API Tanıtımı

1.1. OpenAI İçerik İnceleme API'nin Genel Bakışı

1.2. İçerik Kategorilerinin Açıklaması

3. OpenAI İçerik Moderasyon API'sinin Kullanımı

İlgili Rehberler