目录
概述
内容审核在现代互联网产品中具有重要意义,能够有效识别并管理潜在有害或违规信息。通过 API 审核端点,可以对文本与图像内容进行自动化分类与风险评估。本指南将从技术原理、模型选择、接口调用、结果解析等方面,详细介绍内容审核 API 的使用方法。
域名说明:本文所有示例接口均使用
https://zzzzapi.com
作为 base URL,仅用于演示,实际部署时请替换为自有或合规服务地址。
前置依赖与注意事项
- Python 示例基于官方 SDK。
- 网络环境需支持 HTTPS 访问外部接口。
- 需具备 API 访问凭证(如 API KEY),具体获取方式请参考实际服务商文档。
- 部分模型仅支持特定类型输入,请根据实际需求选择合适模型。
模型与输入类型说明
内容审核 API 目前支持两类模型:
- omni-moderation-latest:支持多模态输入(文本与图像)、丰富的分类选项,适用于新项目。
- text-moderation-latest(Legacy):仅支持文本输入,分类选项相对较少。
建议优先选择 omni-moderation-latest,以获得更全面的审核能力。更新说明:较早的 text-moderation-latest 仅用于兼容旧系统,未来可能不再推荐。
快速上手
文本内容检测示例
以下代码演示如何调用审核 API 对文本内容进行分类识别。
文件名:moderate_text.py
# 依赖:openai~=1.x
from openai import OpenAI
# 实例化客户端(请替换为实际 API Key 与域名)
client = OpenAI(base_url="https://zzzzapi.com/v1", api_key="YOUR_API_KEY")
response = client.moderations.create(
model="omni-moderation-latest",
input="待检测的文本内容..."
)
print(response)
注意事项:
- 建议对敏感操作添加异常处理,捕获网络错误、超时等情况。
- 可设置合理的请求超时时间与重试策略,防止审核接口阻塞业务流程。
图像内容检测示例
审核图像内容需将图片以 base64 或文件形式上传至审核端点。具体 SDK 接口请参考官方文档。以下为响应示例:
{
"id": "modr-970d409ef3bef3b70c73d8232df86e7d",
"model": "omni-moderation-latest",
"results": [
{
"flagged": true,
"categories": {
"sexual": false,
"sexual_minors": false,
"harassment": false,
"harassment_threatening": false,
"hate": false,
"hate_threatening": false,
"illicit": false,
"illicit_violent": false,
"self_harm": false,
"self_harm_intent": false,
"self_harm_instructions": false,
"violence": true,
"violence_graphic": false
},
"category_scores": {
"sexual": 2.34e-7,
"sexual_minors": 1.63e-7,
"harassment": 0.001,
"harassment_threatening": 0.002,
"hate": 3.19e-7,
"hate_threatening": 2.49e-7,
"illicit": 0.0005,
"illicit_violent": 3.68e-7,
"self_harm": 0.001,
"self_harm_intent": 0.0006,
"self_harm_instructions": 7.36e-8,
"violence": 0.85,
"violence_graphic": 0.37
},
"category_applied_input_types": {
"sexual": ["image"],
"self_harm": ["image"],
"self_harm_intent": ["image"],
"self_harm_instructions": ["image"],
"violence": ["image"],
"violence_graphic": ["image"]
}
}
]
}
API 响应结果解析
审核 API 返回结构化数据,主要字段如下:
flagged
:若为 true,表示内容被判定为潜在有害。categories
:各类违规类型布尔值,true 表示该类别被判定违规。category_scores
:各类违规类型的置信分数(0~1),分数越高代表模型判断越强。category_applied_input_types
:模型判定违规类别时,所涉及的输入类型,omni 模型支持此字段。
开发者可根据业务需求,结合 flagged
、category_scores
及具体类别,设计对应的内容管理策略。
分类说明及模型支持
以下为各类可识别内容类别、描述及模型支持情况:
分类 | 描述 | 支持模型 | 输入类型 |
---|---|---|---|
harassment | 骚扰语言或行为 | 全部 | 仅文本 |
harassment threatening | 骚扰并威胁严重伤害 | 全部 | 仅文本 |
hate | 针对群体(如种族、性别等)表达仇恨 | 全部 | 仅文本 |
hate threatening | 带有严重威胁的仇恨 | 全部 | 仅文本 |
illicit | 教唆或指导非法行为 | omni | 仅文本 |
illicit violent | 非法内容且涉及暴力 | omni | 仅文本 |
self-harm | 鼓励、描述自残行为 | 全部 | 文本与图像 |
self-harm intent | 表达自残意图 | 全部 | 文本与图像 |
self-harm instructions | 教导自残方法 | 全部 | 文本与图像 |
sexual | 描述性内容或性服务 | 全部 | 文本与图像 |
sexual minors | 涉及未成年人的性内容 | 全部 | 仅文本 |
violence | 描述死亡、暴力或身体伤害 | 全部 | 文本与图像 |
violence graphic | 详细描绘暴力或伤害 | 全部 | 文本与图像 |
注意:仅文本类别若输入为纯图像,则返回置信分数为 0。
安全性与合规注意事项
- 内容审核模型会持续迭代,
category_scores
阈值可能需定期校准。 - 建议结合人工复审,对高置信度违规内容进行二次确认。
- 请确保所有调用及数据处理符合当地法律法规及平台合规要求。
- 审核接口应设置合理的速率限制,防止恶意刷接口或资源滥用。
- 对于敏感内容处理,建议加密数据传输并妥善保存审核日志。