Модель модерации безопасного контента (Модерация)

1. Введение в API-интерфейс контент-проверки OpenAI

1.1. Обзор API-интерфейса контент-проверки OpenAI

OpenAI предоставляет услугу API-интерфейса контент-проверки, предназначенную для помощи разработчикам быстро и точно определять и фильтровать онлайн-контент, нарушающий политику использования. Этот API использует современные модели машинного обучения для проведения анализа текстового контента в реальном времени, выявляя потенциальное ненавистное высказывание, домогательства и эксплицитный контент, предоставляя четкую категоризацию и оценку.

1.2. Описание категорий контента

API-интерфейс контент-проверки OpenAI классифицирует неподходящий контент по нескольким категориям для более детальной обработки различных типов нарушений. Вот конкретные объяснения для этих категорий:

ненависть: Содержит ненавистные высказывания на основе расы, пола, этнической принадлежности, религии, национальности, сексуальной ориентации, инвалидности или касты.
ненависть/угрозы: В дополнение к ненавистным высказываниям включает насилие или угрозы серьезного вреда против вышеперечисленных конкретных групп.
домогательства: Поощряет или подстрекает к домогательствам в отношении любой цели.
домогательства/угрозы: Содержит контент с домогательствами с угрозами насилия или серьезного вреда против любой цели.
самоповреждение: Поощряет, подстрекает или изображает поведение самоповреждения, такое как самоубийство, порезы и расстройства питания.
самоповреждение/намерение: Говорящий указывает, что собирается или намеревается предпринимать попытки самоповреждения.
самоповреждение/инструкции: Поощряет поведение самоповреждения или предоставляет руководство или советы по осуществлению такого поведения.
сексуальное содержание: Содержит контент, предназначенный для возбуждения сексуального влечения, такой как описания сексуальной деятельности, или продвигает сексуальные услуги (исключая сексуальное образование и здоровье).
сексуальное содержание/несовершеннолетние: Включает сексуальный контент, касающийся лиц младше 18 лет.
насилие: Описывает контент, связанный с смертью, насилием или физическими повреждениями.
насилие/графическое: Контент, который графически описывает смерть, насилие или физические повреждения.

3. Использование API-интерфейса модерации контента OpenAI

Чтобы использовать API-интерфейс модерации контента OpenAI, можно делать сетевые запросы с помощью инструментов командной строки, таких как cURL. Вот простой пример:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Здесь пример текста"}'

В вышеприведенной команде замените $OPENAI_API_KEY на ваш фактический ключ API OpenAI. Замените "Здесь пример текста" в поле input на фактический текст, который вы хотите модерировать.

После вызова API вы получите ответ, структурированный аналогично следующему:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

В ответе от API поле flagged указывает, нарушает ли контент политику использования OpenAI. Поле categories содержит булевые флаги для того, нарушает ли контент различные категории, а поле category_scores предоставляет оценки уверенности в нарушении соответствующих категорий. Более высокие оценки указывают на более высокую вероятность нарушения. Следует отметить, что эти оценки не должны рассматриваться как вероятности.

Следует отметить, что OpenAI будет непрерывно обновлять модель, лежащую в основе API модерации контента, что означает, что для пользовательских политик, основанных на category_scores, может потребоваться непрерывная калибровка со временем.

1. Введение в API-интерфейс контент-проверки OpenAI

1.1. Обзор API-интерфейса контент-проверки OpenAI

1.2. Описание категорий контента

3. Использование API-интерфейса модерации контента OpenAI

Связанные Учебные Пособия