Modello di moderazione della sicurezza dei contenuti (Moderazione)

1. Introduzione all'API di revisione dei contenuti di OpenAI

1.1. Panoramica dell'API di revisione dei contenuti di OpenAI

OpenAI fornisce un servizio di API di revisione dei contenuti progettato per aiutare gli sviluppatori a identificare e filtrare rapidamente e accuratamente i contenuti online che violano le politiche d'uso. Questa API utilizza modelli avanzati di apprendimento automatico per eseguire un'analisi in tempo reale dei contenuti testuali, identificando potenziali discorsi di odio, molestie e contenuti espliciti, e fornendo una chiara categorizzazione e valutazione.

1.2. Descrizione delle Categorie di Contenuti

L'API di revisione dei contenuti di OpenAI categorizza i contenuti inappropriati in diverse categorie per una gestione più dettagliata dei diversi tipi di violazioni. Ecco spiegazioni specifiche per queste categorie:

odio: Contiene discorsi di odio basati su razza, genere, etnia, religione, nazionalità, orientamento sessuale, stato di disabilità o casta.
odio/minacce: Oltre ai discorsi di odio, include minacce di violenza o danni gravi contro i suddetti gruppi specifici.
molestie: Promuove o incoraggia il linguaggio molesto contro qualsiasi bersaglio.
molestie/minacce: Contiene contenuti molesto con minacce di violenza o danni gravi contro qualsiasi bersaglio.
autolesionismo: Promuove, incoraggia o raffigura comportamenti autolesionisti, come il suicidio, il taglio e i disturbi alimentari.
autolesionismo/intenzione: Il parlante indica che sta praticando o intende praticare comportamenti autolesionisti.
autolesionismo/istruzioni: Incoraggia comportamenti autolesionisti o fornisce orientamenti o consigli su come mettere in atto tali comportamenti.
sessuale: Contiene contenuti intesi a suscitare eccitazione sessuale, come descrizioni di attività sessuali, o promuove servizi sessuali (esclusa l'educazione sessuale e sanitaria).
sessuale/minori: Coinvolge contenuti sessuali concernenti individui sotto i 18 anni.
violenza: Descrive contenuti legati alla morte, alla violenza o alle lesioni fisiche.
violenza/grafica: Contenuti che descrivono in modo grafico la morte, la violenza o le lesioni fisiche.

3. Utilizzo dell'API di Moderazione dei Contenuti di OpenAI

Per utilizzare l'API di Moderazione dei Contenuti di OpenAI, è possibile effettuare richieste di rete utilizzando strumenti a riga di comando come cURL. Ecco un semplice esempio:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Ecco un esempio di testo"}'

Nel comando sopra, sostituire $OPENAI_API_KEY con la propria chiave API effettiva di OpenAI. Sostituire "Ecco un esempio di testo" nel campo input con il testo effettivo che si desidera moderare.

Dopo aver chiamato l'API, si riceverà una risposta strutturata in modo simile a quanto segue:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sessuale": false,
        "odio": false,
        "molestie": false,
        "autolesionismo": false,
        "sessuale/minori": false,
        "odio/minacce": false,
        "violenza/grafica": false,
        "autolesionismo/intenzione": false,
        "autolesionismo/istruzioni": false,
        "molestie/minacce": true,
        "violenza": true
      },
      "category_scores": {
        "sessuale": 1.2282071e-06,
        "odio": 0.010696256,
        "molestie": 0.29842457,
        "autolesionismo": 1.5236925e-08,
        "sessuale/minori": 5.7246268e-08,
        "odio/minacce": 0.0060676364,
        "violenza/grafica": 4.435014e-06,
        "autolesionismo/intenzione": 8.098441e-10,
        "autolesionismo/istruzioni": 2.8498655e-11,
        "molestie/minacce": 0.63055265,
        "violenza": 0.99011886
      }
    }
  ]
}

Nella risposta dell'API, il campo flagged indica se il contenuto viola le politiche d'uso di OpenAI. Il campo categories contiene dei flag booleani per indicare se il contenuto viola diverse categorie, mentre il campo category_scores fornisce punteggi di sicurezza per la violazione delle categorie corrispondenti. Punteggi più alti indicano una probabilità più elevata di violazione. Si noti che questi punteggi non dovrebbero essere interpretati come probabilità.

Si sottolinea che OpenAI aggiornerà continuamente il modello dietro l'API di Moderazione dei Contenuti, il che significa che le politiche personalizzate che si basano sui category_scores potrebbero richiedere una calibrazione continua nel tempo.

1. Introduzione all'API di revisione dei contenuti di OpenAI

1.1. Panoramica dell'API di revisione dei contenuti di OpenAI

1.2. Descrizione delle Categorie di Contenuti

3. Utilizzo dell'API di Moderazione dei Contenuti di OpenAI

Tutorial Correlati