Content Safety Moderation Model (Moderation)

1. การแนะนำ OpenAI Content Review API

1.1. ภาพรวมของ OpenAI Content Review API

OpenAI ให้บริการ API สำหรับตรวจสอบเนื้อหาที่ออกแบบมาเพื่อช่วยนักพัฒนาให้สามารถระบุและกรองเนื้อหาออนไลน์ที่ละเมิดนโยบายการใช้งานได้อย่างรวดเร็วและแม่นยำ แอปพลิเคชันนี้ใช้โมเดลเรียนรู้ของเครื่องแบบขั้นสูงเพื่อวิเคราะห์เนื้อหาข้อความแบบเรียลไทม์ แยกแยะคำพูดที่เป็นการเกลียดชัง การล่วงละเมิด และเนื้อหาที่เป็นเพศสภาพ และให้การประเมินอย่างชัดเจนและถูกต้อง

1.2. รายละเอียดของหมวดหมู่ของเนื้อหา

OpenAI content review API แยกประเภทเนื้อหาที่ไม่เหมาะสมเป็นหลายประเภท เพื่อให้สามารถจัดการอย่างละเอียดกับประเภทที่ต่างจากการละเมิด ต่อไปนี้คือคำอธิบายโดยละเอียดของหมวดหมู่เหล่านี้:

เกลียดชัง: มีประกอบด้วยคำพูดที่เกลียดชังต่อตำแหน่งสังคม แพศ ลัทธิเชื้อ สัญชาติ ทางเพศ สถานะท่าทางหรือวัฒนธรรม
เกลียดชัง/ความรุนแรง: นอกจากคำพูดที่เกลียดชังแล้ว ยังรวมถึงคำพูดที่มีการข่มขู่ทางรุนแรงหรือการทำลายร้ายต่อกลุ่มที่พบประโยชน์ดังกล่าว
การล่วงละเมิด: สนับสนุนหรือปลุกเร้าภาษาการล่วงละเมิดต่อเป้าหมายใดๆ
การล่วงละเมิด/ความรุนแรง: มีเนื้อหาการล่วงละเมิดที่มีการข่มขู่หรือการทำลายร้ายต่อเป้าหมายใดๆ
การทำร้ายตัวเอง: สนับสนุน ปลุกเร้า หรือภาพขึ้นที่เกี่ยวกับพฤติกรรมการทำร้ายตัวเอง เช่นการฆ่าตัวตาย การตัดแต่งตัว และอาการเรื้อรังของการกิน
การทำร้ายตัวเอง/ตัจตุจม: ผู้พูดแสดงถึงว่าเขากำลังมีหรือตั้งความจัดการต่อตัวเองการทำร้ายตัวเอง
การทำร้ายตัวเอง/คำแนะนำ: ปลุกเร้าการทำร้ายตัวเองหรือให้คำแนะนำหรือคำแนะนำในวิธีการกระทำ
ทางเพศ: มีเนื้อหาที่ถูกออกแบบมาเพื่อกระตุ้นความตื่นเต้นทางเพศ เช่น คำพรรณ การอธิบายกิจกรรมทางเพศ หรือสนับสนุนการบริการทางเพศ (ยกเว้นการศึกษาและสุขภาพทางเพศ)
ทางเพศ/เยาวเสน: มีเนื้อหาทางเพศที่เกี่ยวข้องกับบุคคลที่อายุต่ำกว่า 18 ปี
ความรุนแรง: อธิบายเนื้อหาที่เกี่ยวข้องกับการตาย ความรุนแรง หรือบาดเจ็บทางร่างกาย
ความรุนแรง/กราฟิก: เนื้อหาที่อธิบายความตาย ความรุนแรง หรือบาดเจ็บทางร่างกายอย่างกราฟิกน

3. การใช้ OpenAI Content Moderation API

เพื่อใช้ OpenAI Content Moderation API คุณสามารถส่งคำขอผ่านเครือคำสั่งเครือข่ายเช่น cURL ตามตัวอย่างง่ายด้านล่าง:

curl https://api.openai.com/v1/moderations \
  -X POST \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer $OPENAI_API_KEY" \
  -d '{"input": "ข้อความตัวอย่าง"}'

ในคำสั่งข้างต้น ให้แทนที่ $OPENAI_API_KEY ด้วยคีย์ OpenAI API จริงของคุณ และแทนที่ "ข้อความตัวอย่าง" ในฟิลด์ input ด้วยข้อความจริงที่คุณต้องการจะตรวจสอบ

หลังจากเรียกใช้ API คุณจะได้รับการตอบกลับที่มีโครงสร้างที่เหมือนกันกับตัวอย่างต่อไปนี้:

{
  "id": "modr-XXXXX",
  "model": "text-moderation-007",
  "results": [
    {
      "flagged": true,
      "categories": {
        "sexual": false,
        "hate": false,
        "harassment": false,
        "self-harm": false,
        "sexual/minors": false,
        "hate/threatening": false,
        "violence/graphic": false,
        "self-harm/intent": false,
        "self-harm/instructions": false,
        "harassment/threatening": true,
        "violence": true
      },
      "category_scores": {
        "sexual": 1.2282071e-06,
        "hate": 0.010696256,
        "harassment": 0.29842457,
        "self-harm": 1.5236925e-08,
        "sexual/minors": 5.7246268e-08,
        "hate/threatening": 0.0060676364,
        "violence/graphic": 4.435014e-06,
        "self-harm/intent": 8.098441e-10,
        "self-harm/instructions": 2.8498655e-11,
        "harassment/threatening": 0.63055265,
        "violence": 0.99011886
      }
    }
  ]
}

ในการตอบกลับจาก API ฟิลด์ flagged ระบุว่าเนื้อหาละเมิดนโยบายการใช้งานของ OpenAI หรือไม่ ฟิลด์ categories ประกอบด้วยธงบูลีนสำหรับการละเมิดหมวดหมู่ที่แตกต่าง และฟิลด์ category_scores ให้คะแนนความมั่นใจสำหรับการละเมิดของหมวดหมู่ที่เกี่ยวข้อง คะแนนที่สูงขึ้นแสดงถึงความน่าจะเป็นที่สูงขึ้น โปรดทราบว่าคะแนนเหล่านี้ไม่ควรถูกตีความเป็นความน่าจะเป็น

ควรทราบว่า OpenAI จะปรับปรุงโมเดลที่อยู่เบื้องหลัง Content Moderation API อย่างต่อเนื่อง ซึ่งหมายความว่านโยบายที่ปรับเปลี่ยนลูกค้าที่พึ่งพิจารณาจาก category_scores อาจต้องการการปรับค่าอย่างต่อเนื่องตลอดเวลา

1. การแนะนำ OpenAI Content Review API

1.1. ภาพรวมของ OpenAI Content Review API

1.2. รายละเอียดของหมวดหมู่ของเนื้อหา

3. การใช้ OpenAI Content Moderation API

บทเรียนที่เกี่ยวข้อง