Mô hình Điều chỉnh An toàn Nội dung (Điều chỉnh)

1. Giới thiệu về OpenAI Content Review API

1.1. Tổng quan về OpenAI Content Review API

OpenAI cung cấp dịch vụ API kiểm định nội dung được thiết kế để giúp các nhà phát triển nhanh chóng và chính xác nhận dạng và lọc nội dung trực tuyến vi phạm chính sách sử dụng. API này sử dụng các mô hình học máy tiên tiến để thực hiện phân tích thời gian thực về nội dung văn bản, xác định các nội dung có khả năng chứa thông điệp kích động sắc tộc, quấy rối và nội dung mạnh mẽ, đồng thời cung cấp phân loại và xét xử rõ ràng.

1.2. Mô tả các danh mục nội dung

API kiểm định nội dung của OpenAI phân loại nội dung không phù hợp thành nhiều danh mục để xử lý chi tiết các loại vi phạm khác nhau. Dưới đây là giải thích cụ thể cho các danh mục này:

hate: Chứa thông điệp kích động dựa trên sắc tộc, giới tính, dân tộc, tôn giáo, quốc tịch, tình dục, tình trạng khuyết tật hoặc tầng lớp xã hội.
hate/threatening: Ngoài thông điệp kích động, nó bao gồm bạo lực hoặc đe dọa gây tổn thương nghiêm trọng đối với các nhóm cụ thể đã đề cập ở trên.
harassment: Thúc đẩy hoặc khuyến khích ngôn ngữ quấy rối đối với bất kỳ mục tiêu nào.
harassment/threatening: Bao gồm nội dung quấy rối kèm theo đe dọa bạo lực hoặc tổn thương nghiêm trọng đối với bất kỳ mục tiêu nào.
self-harm: Thúc đẩy, khuyến khích hoặc miêu tả hành vi tự gây tổn thương, như tự tử, cắt cơ thể và rối loạn ăn uống.
self-harm/intent: Người nói tường thuật rằng họ đang thực hiện hoặc ý định thực hiện hành vi tự gây tổn thương.
self-harm/instructions: Khuyến khích hành vi tự gây tổn thương hoặc cung cấp hướng dẫn hoặc lời khuyên về cách thực hiện hành vi đó.
sexual: Chứa nội dung nhằm kích thích tình dục, như mô tả các hoạt động tình dục, hoặc thúc đẩy dịch vụ tình dục (ngoại trừ giáo dục và sức khỏe tình dục).
sexual/minors: Liên quan đến nội dung tình dục liên quan đến người dưới 18 tuổi.
violence: Mô tả nội dung liên quan đến cái chết, bạo lực hoặc tổn thương vật lý.
violence/graphic: Nội dung mô tả đồ họa về cái chết, bạo lực hoặc tổn thương vật lý.

3. Sử dụng OpenAI Content Moderation API

Để sử dụng OpenAI Content Moderation API, bạn có thể thực hiện các yêu cầu mạng bằng cách sử dụng các công cụ dòng lệnh như cURL. Dưới đây là một ví dụ đơn giản:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "Đây là một đoạn văn mẫu"}'

Trong lệnh trên, thay thế $OPENAI_API_KEY bằng khóa API OpenAI thực tế của bạn. Thay thế "Đây là một đoạn văn mẫu" trong trường input bằng văn bản thực tế bạn muốn kiểm định.

Sau khi gọi API, bạn sẽ nhận được một phản hồi có cấu trúc tương tự như sau:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

Trong phản hồi từ API, trường flagged chỉ ra liệu nội dung có vi phạm chính sách sử dụng của OpenAI hay không. Trường categories chứa các cờ boolean cho việc nội dung vi phạm các danh mục khác nhau, và trường category_scores cung cấp điểm tự tin cho vi phạm các danh mục tương ứng. Điểm số cao cho thấy khả năng vi phạm cao hơn. Lưu ý rằng các điểm số này không nên được hiểu là xác suất.

Cần lưu ý rằng OpenAI sẽ liên tục cập nhật mô hình đằng sau Content Moderation API, điều này có nghĩa là các chính sách tùy chỉnh dựa trên category_scores có thể cần điều chỉnh liên tục theo thời gian.

1. Giới thiệu về OpenAI Content Review API

1.1. Tổng quan về OpenAI Content Review API

1.2. Mô tả các danh mục nội dung

3. Sử dụng OpenAI Content Moderation API

Hướng dẫn liên quan