Modelo de Moderação de Segurança de Conteúdo (Moderação)

1. Introdução à API de Revisão de Conteúdo da OpenAI

1.1. Visão Geral da API de Revisão de Conteúdo OpenAI

A OpenAI oferece um serviço de API de revisão de conteúdo projetado para ajudar os desenvolvedores a identificar e filtrar rapidamente e com precisão o conteúdo online que viola as políticas de uso. Esta API utiliza modelos avançados de aprendizado de máquina para realizar análises em tempo real de conteúdo de texto, identificando possíveis discursos de ódio, assédio e conteúdo explícito, fornecendo categorização e julgamento claros.

1.2. Descrição das Categorias de Conteúdo

A API de revisão de conteúdo da OpenAI categoriza conteúdo inadequado em várias categorias para lidar de forma mais detalhada com diferentes tipos de violações. Aqui estão explicações específicas para essas categorias:

ódio: Contém discursos de ódio com base em raça, gênero, etnia, religião, nacionalidade, orientação sexual, status de deficiência ou casta.
ódio/ameaçador: Além de discursos de ódio, inclui ameaças de violência ou sérios danos contra os grupos específicos mencionados anteriormente.
assédio: Promove ou encoraja linguagem de assédio contra qualquer alvo.
assédio/ameaçador: Contém conteúdo de assédio com ameaças de violência ou sérios danos contra qualquer alvo.
autolesão: Promove, incentiva ou retrata comportamentos autolesivos, como suicídio, corte e distúrbios alimentares.
autolesão/intenção: O falante indica que está envolvido ou pretende se envolver em comportamentos autolesivos.
autolesão/instruções: Incentiva comportamentos autolesivos ou fornece orientação ou conselhos sobre como realizar tais comportamentos.
sexual: Contém conteúdo destinado a excitar sexualmente, como descrições de atividade sexual, ou promove serviços sexuais (excluindo educação sexual e saúde).
sexual/menores: Envolve conteúdo sexual relacionado a indivíduos menores de 18 anos.
violência: Descreve conteúdo relacionado à morte, violência ou lesão física.
violência/gráfico: Conteúdo que descreve graficamente morte, violência ou lesão física.

3. Usando a API de Moderação de Conteúdo da OpenAI

Para usar a API de Moderação de Conteúdo da OpenAI, é possível fazer solicitações de rede usando ferramentas de linha de comando como cURL. Aqui está um exemplo simples:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Aqui está um texto de exemplo"}'

No comando acima, substitua $OPENAI_API_KEY pela sua chave de API da OpenAI real. Substitua o "Aqui está um texto de exemplo" no campo input pelo texto real que você deseja moderar.

Após chamar a API, você receberá uma resposta estruturada de forma semelhante à seguinte:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "ódio": false,
        "assédio": false,
        "autolesão": false,
        "sexual/menores": false,
        "ódio/ameaçador": false,
        "violência/gráfico": false,
        "autolesão/intenção": false,
        "autolesão/instruções": false,
        "assédio/ameaçador": true,
        "violência": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "ódio": 0.010696256,
        "assédio": 0.29842457,
        "autolesão": 1.5236925e-08,
        "sexual/menores": 5.7246268e-08,
        "ódio/ameaçador": 0.0060676364,
        "violência/gráfico": 4.435014e-06,
        "autolesão/intenção": 8.098441e-10,
        "autolesão/instruções": 2.8498655e-11,
        "assédio/ameaçador": 0.63055265,
        "violência": 0.99011886
      }
    }
  ]
}

Na resposta da API, o campo flagged indica se o conteúdo viola as políticas de uso da OpenAI. O campo categories contém indicadores booleanos para saber se o conteúdo viola diferentes categorias, e o campo category_scores fornece pontuações de confiança para a violação de categorias correspondentes. Pontuações mais altas indicam uma maior probabilidade de violação. Note que essas pontuações não devem ser interpretadas como probabilidades.

É importante observar que a OpenAI continuará atualizando o modelo por trás da API de Moderação de Conteúdo, o que significa que políticas personalizadas que dependem dos category_scores podem precisar de calibração contínua ao longo do tempo.

1. Introdução à API de Revisão de Conteúdo da OpenAI

1.1. Visão Geral da API de Revisão de Conteúdo OpenAI

1.2. Descrição das Categorias de Conteúdo

3. Usando a API de Moderação de Conteúdo da OpenAI

Tutoriais Relacionados