Inhaltsicherheitsmoderationsmodell (Moderation)

1. OpenAI Content Review API Einführung

1.1. Überblick über die OpenAI Content Review API

OpenAI bietet einen Content-Review-API-Dienst an, der dazu entwickelt wurde, Entwicklern dabei zu helfen, online Inhalte, die gegen Nutzungsrichtlinien verstoßen, schnell und präzise zu identifizieren und zu filtern. Diese API verwendet fortschrittliche Machine-Learning-Modelle zur Echtzeitanalyse von Textinhalten, um potenzielle Hassrede, Belästigung und explizite Inhalte zu identifizieren und eine klare Kategorisierung und Bewertung bereitzustellen.

1.2. Beschreibung der Content-Kategorien

Die OpenAI Content-Review-API kategorisiert unangemessene Inhalte in mehrere Kategorien, um eine detailliertere Behandlung verschiedener Arten von Verstößen zu ermöglichen. Hier sind spezifische Erklärungen für diese Kategorien:

hate: Enthält Hassrede aufgrund von Rasse, Geschlecht, Ethnizität, Religion, Nationalität, sexueller Orientierung, Behinderungsstatus oder Kaste.
hate/threatening: Enthält neben Hassrede auch Gewalt oder ernsthafte Bedrohungen gegen die zuvor genannten spezifischen Gruppen.
harassment: Fördert oder ermutigt Belästigungssprache gegenüber jedem Ziel.
harassment/threatening: Enthält Belästigungsinhalte mit Gewalt oder ernsthaften Bedrohungen gegenüber jedem Ziel.
self-harm: Fördert, ermutigt oder stellt selbstschädigendes Verhalten dar, wie Selbstmord, Ritzen und Essstörungen.
self-harm/intent: Der Sprecher gibt an, dass er selbstschädigendes Verhalten ausübt oder beabsichtigt, sich daran zu beteiligen.
self-harm/instructions: Ermutigt selbstschädigendes Verhalten oder gibt Anleitungen oder Ratschläge dazu, ein solches Verhalten auszuführen.
sexual: Enthält Inhalte, die darauf abzielen, sexuelle Erregung zu erzeugen, wie Beschreibungen sexueller Aktivitäten, oder fördert sexuelle Dienstleistungen (mit Ausnahme der Sexualaufklärung und -gesundheit).
sexual/minors: Umfasst sexuelle Inhalte von Personen unter 18 Jahren.
violence: Beschreibt Inhalte im Zusammenhang mit Tod, Gewalt oder körperlichen Verletzungen.
violence/graphic: Enthält grafische Beschreibungen von Tod, Gewalt oder körperlichen Verletzungen.

3. Verwendung der OpenAI Content Moderation API

Um die OpenAI Content Moderation API zu nutzen, können Sie Netzwerkanfragen mithilfe von Befehlszeilentools wie cURL durchführen. Hier ist ein einfaches Beispiel:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Hier ist ein Beispieltext"}'

In dem obigen Befehl ersetzen Sie $OPENAI_API_KEY durch Ihren tatsächlichen OpenAI-API-Schlüssel. Ersetzen Sie den Text "Hier ist ein Beispieltext" im input-Feld durch den tatsächlichen Text, den Sie moderieren möchten.

Nach dem Aufruf der API erhalten Sie eine Antwort, die ähnlich strukturiert ist wie die folgende:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

In der Antwort von der API gibt das Feld flagged an, ob der Inhalt gegen die Nutzungsrichtlinien von OpenAI verstößt. Das Feld categories enthält boolesche Flags dafür, ob der Inhalt gegen verschiedene Kategorien verstößt, und das Feld category_scores bietet Vertrauensscores für den Verstoß gegen entsprechende Kategorien. Höhere Scores zeigen eine höhere Wahrscheinlichkeit eines Verstoßes an. Beachten Sie, dass diese Scores nicht als Wahrscheinlichkeiten interpretiert werden sollten.

Es ist zu beachten, dass OpenAI kontinuierlich das Modell hinter der Content Moderation API aktualisieren wird, was bedeutet, dass benutzerdefinierte Richtlinien, die auf category_scores basieren, im Laufe der Zeit eine fortlaufende Kalibrierung erfordern könnten.

1. OpenAI Content Review API Einführung

1.1. Überblick über die OpenAI Content Review API

1.2. Beschreibung der Content-Kategorien

3. Verwendung der OpenAI Content Moderation API

Verwandte Tutorials