使用 API 识别文本与图像中的潜在有害内容：技术原理与实践指南-CSDN博客

内容审核在现代互联网产品中具有重要意义，能够有效识别并管理潜在有害或违规信息。通过 API 审核端点，可以对文本与图像内容进行自动化分类与风险评估。本指南将从技术原理、模型选择、接口调用、结果解析等方面，详细介绍内容审核 API 的使用方法。

域名说明：本文所有示例接口均使用 https://zzzzapi.com 作为 base URL，仅用于演示，实际部署时请替换为自有或合规服务地址。

前置依赖与注意事项

Python 示例基于官方 SDK。
网络环境需支持 HTTPS 访问外部接口。
需具备 API 访问凭证（如 API KEY），具体获取方式请参考实际服务商文档。
部分模型仅支持特定类型输入，请根据实际需求选择合适模型。

模型与输入类型说明

内容审核 API 目前支持两类模型：

omni-moderation-latest：支持多模态输入（文本与图像）、丰富的分类选项，适用于新项目。
text-moderation-latest（Legacy）：仅支持文本输入，分类选项相对较少。

建议优先选择 omni-moderation-latest，以获得更全面的审核能力。更新说明：较早的 text-moderation-latest 仅用于兼容旧系统，未来可能不再推荐。

快速上手

文本内容检测示例

以下代码演示如何调用审核 API 对文本内容进行分类识别。

文件名：moderate_text.py

# 依赖：openai~=1.x
from openai import OpenAI

# 实例化客户端（请替换为实际 API Key 与域名）
client = OpenAI(base_url="https://zzzzapi.com/v1", api_key="YOUR_API_KEY")

response = client.moderations.create(
    model="omni-moderation-latest",
    input="待检测的文本内容..."
)

print(response)

注意事项：
- 建议对敏感操作添加异常处理，捕获网络错误、超时等情况。
- 可设置合理的请求超时时间与重试策略，防止审核接口阻塞业务流程。

图像内容检测示例

审核图像内容需将图片以 base64 或文件形式上传至审核端点。具体 SDK 接口请参考官方文档。以下为响应示例：

{
    "id": "modr-970d409ef3bef3b70c73d8232df86e7d",
    "model": "omni-moderation-latest",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "sexual_minors": false,
                "harassment": false,
                "harassment_threatening": false,
                "hate": false,
                "hate_threatening": false,
                "illicit": false,
                "illicit_violent": false,
                "self_harm": false,
                "self_harm_intent": false,
                "self_harm_instructions": false,
                "violence": true,
                "violence_graphic": false
            },
            "category_scores": {
                "sexual": 2.34e-7,
                "sexual_minors": 1.63e-7,
                "harassment": 0.001,
                "harassment_threatening": 0.002,
                "hate": 3.19e-7,
                "hate_threatening": 2.49e-7,
                "illicit": 0.0005,
                "illicit_violent": 3.68e-7,
                "self_harm": 0.001,
                "self_harm_intent": 0.0006,
                "self_harm_instructions": 7.36e-8,
                "violence": 0.85,
                "violence_graphic": 0.37
            },
            "category_applied_input_types": {
                "sexual": ["image"],
                "self_harm": ["image"],
                "self_harm_intent": ["image"],
                "self_harm_instructions": ["image"],
                "violence": ["image"],
                "violence_graphic": ["image"]
            }
        }
    ]
}

API 响应结果解析

审核 API 返回结构化数据，主要字段如下：

flagged：若为 true，表示内容被判定为潜在有害。
categories：各类违规类型布尔值，true 表示该类别被判定违规。
category_scores：各类违规类型的置信分数（0~1），分数越高代表模型判断越强。
category_applied_input_types：模型判定违规类别时，所涉及的输入类型，omni 模型支持此字段。

开发者可根据业务需求，结合 flagged、category_scores 及具体类别，设计对应的内容管理策略。

分类说明及模型支持

以下为各类可识别内容类别、描述及模型支持情况：

分类	描述	支持模型	输入类型
harassment	骚扰语言或行为	全部	仅文本
harassment threatening	骚扰并威胁严重伤害	全部	仅文本
hate	针对群体（如种族、性别等）表达仇恨	全部	仅文本
hate threatening	带有严重威胁的仇恨	全部	仅文本
illicit	教唆或指导非法行为	omni	仅文本
illicit violent	非法内容且涉及暴力	omni	仅文本
self-harm	鼓励、描述自残行为	全部	文本与图像
self-harm intent	表达自残意图	全部	文本与图像
self-harm instructions	教导自残方法	全部	文本与图像
sexual	描述性内容或性服务	全部	文本与图像
sexual minors	涉及未成年人的性内容	全部	仅文本
violence	描述死亡、暴力或身体伤害	全部	文本与图像
violence graphic	详细描绘暴力或伤害	全部	文本与图像