Modelo de moderación de seguridad de contenido (Moderación)

1. Introducción a la API de Revisión de Contenido de OpenAI

1.1. Resumen de la API de Revisión de Contenido de OpenAI

OpenAI ofrece un servicio de API de revisión de contenido diseñado para ayudar a los desarrolladores a identificar y filtrar rápidamente y de manera precisa el contenido en línea que viola las políticas de uso. Esta API utiliza modelos avanzados de aprendizaje automático para realizar un análisis en tiempo real del contenido de texto, identificando posibles discursos de odio, acoso y contenido explícito, y proporcionando una categorización y juicio claros.

1.2. Descripción de las Categorías de Contenido

La API de revisión de contenido de OpenAI categoriza el contenido inapropiado en múltiples categorías para un manejo más detallado de diferentes tipos de violaciones. Aquí hay explicaciones específicas para estas categorías:

odio: Contiene discursos de odio basados en raza, género, etnia, religión, nacionalidad, orientación sexual, estado de discapacidad o casta.
odio/amenazante: Además del discurso de odio, incluye amenazas de violencia o daño grave contra los grupos específicos mencionados anteriormente.
acoso: Promueve o fomenta un lenguaje de acoso contra cualquier objetivo.
acoso/amenazante: Contiene contenido de acoso con amenazas de violencia o daño grave contra cualquier objetivo.
autolesión: Promueve, fomenta o representa comportamientos autolesivos, como el suicidio, cortes y trastornos alimenticios.
autolesión/intención: El orador indica que está participando o tiene la intención de participar en comportamientos autolesivos.
autolesión/instrucciones: Fomenta comportamientos autolesivos o proporciona orientación o consejos sobre cómo llevar a cabo dichos comportamientos.
sexual: Contiene contenido destinado a provocar excitación sexual, como descripciones de actividad sexual, o promueve servicios sexuales (excluyendo la educación sexual y de salud).
sexual/minores: Involucra contenido sexual relacionado con personas menores de 18 años.
violencia: Describe contenido relacionado con la muerte, violencia o lesiones físicas.
violencia/gráfico: Contenido que describe gráficamente la muerte, violencia o lesiones físicas.

3. Uso de la API de Moderación de Contenido de OpenAI

Para utilizar la API de Moderación de Contenido de OpenAI, puedes realizar solicitudes de red utilizando herramientas de línea de comandos como cURL. Aquí tienes un ejemplo sencillo:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Aquí tienes un texto de ejemplo"}'

En el comando anterior, reemplaza $OPENAI_API_KEY con tu clave real de la API de OpenAI. Reemplaza el "Aquí tienes un texto de ejemplo" en el campo input con el texto real que deseas moderar.

Después de llamar a la API, recibirás una respuesta estructurada de manera similar a la siguiente:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

En la respuesta de la API, el campo flagged indica si el contenido viola las políticas de uso de OpenAI. El campo categories contiene indicadores booleanos de si el contenido viola diferentes categorías, y el campo category_scores proporciona puntuaciones de confianza para la violación de categorías correspondientes. Puntuaciones más altas indican una mayor probabilidad de violación. Es importante tener en cuenta que estas puntuaciones no deben interpretarse como probabilidades.

Cabe destacar que OpenAI continuará actualizando el modelo detrás de la API de Moderación de Contenido, lo que significa que las políticas personalizadas que dependen de category_scores pueden necesitar una calibración continua con el tiempo.

1. Introducción a la API de Revisión de Contenido de OpenAI

1.1. Resumen de la API de Revisión de Contenido de OpenAI

1.2. Descripción de las Categorías de Contenido

3. Uso de la API de Moderación de Contenido de OpenAI

Tutoriales Relacionados