Model moderacji bezpieczeństwa treści (Moderacja)

1. Wprowadzenie do interfejsu API Oceny Treści OpenAI

1.1. Przegląd interfejsu API Oceny Treści OpenAI

OpenAI dostarcza usługę interfejsu API oceny treści, która ma na celu pomóc programistom szybko i dokładnie zidentyfikować oraz filtrować treści online naruszające zasady użytkowania. To API wykorzystuje zaawansowane modele uczenia maszynowego do przeprowadzenia analizy czasu rzeczywistego treści tekstowych, identyfikując potencjalne treści nienawiści, nękania oraz eksplicitne treści, a także zapewniając jasne kategoryzacje i oceny.

1.2. Opis kategorii treści

Interfejs API oceny treści OpenAI kategoryzuje nieodpowiednie treści na wiele kategorii, co umożliwia bardziej szczegółową obsługę różnych rodzajów naruszeń. Oto konkretne wyjaśnienia tych kategorii:

nienawiść: Zawiera mowę nienawiści opartą na rasie, płci, pochodzeniu etnicznym, religii, narodowości, orientacji seksualnej, statusie niepełnosprawności lub kastowej przynależności.
nienawiść/zagrożenie: Oprócz mowy nienawiści, obejmuje przemoc lub groźby poważnych szkód skierowane przeciwko wyżej wymienionym grupom.
nękanie: Promuje lub zachęca do języka nękania wobec dowolnego celu.
nękanie/zagrożenie: Zawiera treści nękania z przemocą lub groźbami poważnych szkód skierowanymi przeciwko dowolnemu celowi.
autoagresja: Promuje, zachęca lub przedstawia zachowania autoagresywne, takie jak samobójstwo, samookaleczanie i zaburzenia odżywiania.
autoagresja/zamiar: Mówca sygnalizuje, że angażuje się lub zamierza angażować w zachowania autoagresywne.
autoagresja/instrukcje: Zachęca do zachowań autoagresywnych lub udziela wskazówek lub porad dotyczących wykonywania takich zachowań.
seksualna: Zawiera treści mające na celu wzbudzenie podniecenia seksualnego, takie jak opisy aktywności seksualnej, lub promuje usługi seksualne (z wyłączeniem edukacji seksualnej i zdrowotnej).
seksualna/nieletni: Dotyczy treści seksualnych dotyczących osób niepełnoletnich, czyli poniżej 18 roku życia.
przemoc: Opisuje treści związane ze śmiercią, przemocą lub obrażeniami cielesnymi.
przemoc/graficzna: Treści, które graficznie opisują śmierć, przemoc lub obrażenia cielesne.

3. Korzystanie z interfejsu API Moderacji Treści OpenAI

Aby skorzystać z interfejsu API Moderacji Treści OpenAI, możesz wysłać żądanie sieciowe przy użyciu narzędzi wiersza poleceń, takich jak cURL. Oto prosty przykład:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $KLUCZ_API_OPENAI" \
  -d '{"input": "Oto przykładowy tekst"}'

W powyższym poleceniu, zastąp $KLUCZ_API_OPENAI swoim rzeczywistym kluczem API OpenAI. Zastąp "Oto przykładowy tekst" w polu input aktualnym tekstem, który chcesz ocenić.

Po wywołaniu interfejsu API otrzymasz odpowiedź o podobnej strukturze jak poniżej:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

W odpowiedzi z interfejsu API pole flagged wskazuje, czy treść narusza zasady użytkowania OpenAI. Pole categories zawiera wartości logiczne dla naruszenia różnych kategorii, a pole category_scores dostarcza wyniki pewności naruszenia odpowiednich kategorii. Wyższe wyniki wskazują wyższe prawdopodobieństwo naruszenia. Należy zauważyć, że te wyniki nie powinny być interpretowane jako prawdopodobieństwa.

Należy zauważyć, że OpenAI będzie ciągle aktualizować model interfejsu API Moderacji Treści, co oznacza, że niestandardowe zasady oparte na category_scores mogą wymagać ciągłej kalibracji w czasie.

1. Wprowadzenie do interfejsu API Oceny Treści OpenAI

1.1. Przegląd interfejsu API Oceny Treści OpenAI

1.2. Opis kategorii treści

3. Korzystanie z interfejsu API Moderacji Treści OpenAI

Powiązane Tutoriale