Modèle de modération de la sécurité du contenu (Modération)

1. Introduction à l'API de révision de contenu OpenAI

1.1. Aperçu de l'API de révision de contenu OpenAI

OpenAI propose un service d'API de révision de contenu conçu pour aider les développeurs à identifier et filtrer rapidement et avec précision le contenu en ligne qui viole les politiques d'utilisation. Cette API utilise des modèles avancés d'apprentissage automatique pour réaliser une analyse en temps réel du contenu textuel, identifiant les discours haineux potentiels, le harcèlement et le contenu explicite, et fournissant une catégorisation et une évaluation claires.

1.2. Description des catégories de contenu

L'API de révision de contenu OpenAI catégorise le contenu inapproprié en plusieurs catégories pour une prise en charge plus détaillée des différents types de violations. Voici des explications spécifiques pour ces catégories :

haine : Contient des discours de haine basés sur la race, le genre, l'ethnicité, la religion, la nationalité, l'orientation sexuelle, le statut d'handicap, ou la caste.
haine/menace : En plus des discours de haine, cela inclut la violence ou des menaces de dommages sérieux contre les groupes spécifiques mentionnés ci-dessus.
harcèlement : Promouvoir ou encourager le langage de harcèlement contre n'importe quelle cible.
harcèlement/menace : Contient du contenu de harcèlement avec des menaces de violence ou de dommages sérieux contre n'importe quelle cible.
automutilation : Promouvoir, encourager, ou dépeindre des comportements d'automutilation, tels que le suicide, l'automutilation et les troubles alimentaires.
automutilation/intention : Le locuteur indique qu'il est engagé dans des comportements d'automutilation ou a l'intention de s'engager dans de tels comportements.
automutilation/instructions : Encourage les comportements d'automutilation ou donne des instructions ou des conseils sur la manière de réaliser de tels comportements.
sexuel : Contient du contenu destiné à susciter l'excitation sexuelle, tel que des descriptions d'activités sexuelles, ou promeut des services sexuels (à l'exclusion de l'éducation sexuelle et de la santé sexuelle).
sexuel/mineurs : Implique du contenu sexuel concernant des individus de moins de 18 ans.
violence : Décrit du contenu lié à la mort, la violence, ou les blessures physiques.
violence/graphique : Contenu décrivant graphiquement la mort, la violence, ou les blessures physiques.

3. Utilisation de l'API de modération de contenu OpenAI

Pour utiliser l'API de modération de contenu OpenAI, vous pouvez effectuer des requêtes réseau à l'aide d'outils en ligne de commande tels que cURL. Voici un exemple simple :

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Voici un exemple de texte"}'

Dans la commande ci-dessus, remplacez $OPENAI_API_KEY par votre véritable clé API OpenAI. Remplacez "Voici un exemple de texte" dans le champ input par le texte réel que vous souhaitez modérer.

Après avoir appelé l'API, vous recevrez une réponse structurée de manière similaire à ce qui suit :

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexuel": false,
        "haine": false,
        "harcèlement": false,
        "automutilation": false,
        "sexuel/mineurs": false,
        "haine/menace": false,
        "violence/graphique": false,
        "automutilation/intention": false,
        "automutilation/instructions": false,
        "harcèlement/menace": true,
        "violence": true
      },
      "category_scores": {
        "sexuel": 1.2282071e-06,
        "haine": 0.010696256,
        "harcèlement": 0.29842457,
        "automutilation": 1.5236925e-08,
        "sexuel/mineurs": 5.7246268e-08,
        "haine/menace": 0.0060676364,
        "violence/graphique": 4.435014e-06,
        "automutilation/intention": 8.098441e-10,
        "automutilation/instructions": 2.8498655e-11,
        "harcèlement/menace": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

Dans la réponse de l'API, le champ flagged indique si le contenu viole les politiques d'utilisation d'OpenAI. Le champ categories contient des indicateurs booléens indiquant si le contenu viole différentes catégories, et le champ category_scores fournit des scores de confiance pour la violation des catégories correspondantes. Des scores plus élevés indiquent une probabilité plus élevée de violation. Notez que ces scores ne doivent pas être interprétés comme des probabilités.

Il convient de noter qu'OpenAI mettra continuellement à jour le modèle derrière l'API de modération de contenu, ce qui signifie que les politiques personnalisées reposant sur les category_scores peuvent nécessiter un étalonnage continu au fil du temps.

1. Introduction à l'API de révision de contenu OpenAI

1.1. Aperçu de l'API de révision de contenu OpenAI

1.2. Description des catégories de contenu

3. Utilisation de l'API de modération de contenu OpenAI

Tutoriels Associés