使用 API 识别文本与图像中的潜在有害内容:技术原理与实践指南

目录

  1. 概述
  2. 前置依赖与注意事项
  3. 模型与输入类型说明
  4. 快速上手
  5. API 响应结果解析
  6. 分类说明及模型支持
  7. 安全性与合规注意事项

概述

内容审核在现代互联网产品中具有重要意义,能够有效识别并管理潜在有害或违规信息。通过 API 审核端点,可以对文本与图像内容进行自动化分类与风险评估。本指南将从技术原理、模型选择、接口调用、结果解析等方面,详细介绍内容审核 API 的使用方法。

域名说明:本文所有示例接口均使用 https://zzzzapi.com 作为 base URL,仅用于演示,实际部署时请替换为自有或合规服务地址。


前置依赖与注意事项

  • Python 示例基于官方 SDK。
  • 网络环境需支持 HTTPS 访问外部接口。
  • 需具备 API 访问凭证(如 API KEY),具体获取方式请参考实际服务商文档。
  • 部分模型仅支持特定类型输入,请根据实际需求选择合适模型。

模型与输入类型说明

内容审核 API 目前支持两类模型:

  • omni-moderation-latest:支持多模态输入(文本与图像)、丰富的分类选项,适用于新项目。
  • text-moderation-latest(Legacy):仅支持文本输入,分类选项相对较少。

建议优先选择 omni-moderation-latest,以获得更全面的审核能力。更新说明:较早的 text-moderation-latest 仅用于兼容旧系统,未来可能不再推荐。


快速上手

文本内容检测示例

以下代码演示如何调用审核 API 对文本内容进行分类识别。

文件名:moderate_text.py

# 依赖:openai~=1.x
from openai import OpenAI

# 实例化客户端(请替换为实际 API Key 与域名)
client = OpenAI(base_url="https://zzzzapi.com/v1", api_key="YOUR_API_KEY")

response = client.moderations.create(
    model="omni-moderation-latest",
    input="待检测的文本内容..."
)

print(response)

注意事项
- 建议对敏感操作添加异常处理,捕获网络错误、超时等情况。
- 可设置合理的请求超时时间与重试策略,防止审核接口阻塞业务流程。

图像内容检测示例

审核图像内容需将图片以 base64 或文件形式上传至审核端点。具体 SDK 接口请参考官方文档。以下为响应示例:

{
    "id": "modr-970d409ef3bef3b70c73d8232df86e7d",
    "model": "omni-moderation-latest",
    "results": [
        {
            "flagged": true,
            "categories": {
                "sexual": false,
                "sexual_minors": false,
                "harassment": false,
                "harassment_threatening": false,
                "hate": false,
                "hate_threatening": false,
                "illicit": false,
                "illicit_violent": false,
                "self_harm": false,
                "self_harm_intent": false,
                "self_harm_instructions": false,
                "violence": true,
                "violence_graphic": false
            },
            "category_scores": {
                "sexual": 2.34e-7,
                "sexual_minors": 1.63e-7,
                "harassment": 0.001,
                "harassment_threatening": 0.002,
                "hate": 3.19e-7,
                "hate_threatening": 2.49e-7,
                "illicit": 0.0005,
                "illicit_violent": 3.68e-7,
                "self_harm": 0.001,
                "self_harm_intent": 0.0006,
                "self_harm_instructions": 7.36e-8,
                "violence": 0.85,
                "violence_graphic": 0.37
            },
            "category_applied_input_types": {
                "sexual": ["image"],
                "self_harm": ["image"],
                "self_harm_intent": ["image"],
                "self_harm_instructions": ["image"],
                "violence": ["image"],
                "violence_graphic": ["image"]
            }
        }
    ]
}

API 响应结果解析

审核 API 返回结构化数据,主要字段如下:

  • flagged:若为 true,表示内容被判定为潜在有害。
  • categories:各类违规类型布尔值,true 表示该类别被判定违规。
  • category_scores:各类违规类型的置信分数(0~1),分数越高代表模型判断越强。
  • category_applied_input_types:模型判定违规类别时,所涉及的输入类型,omni 模型支持此字段。

开发者可根据业务需求,结合 flaggedcategory_scores 及具体类别,设计对应的内容管理策略。


分类说明及模型支持

以下为各类可识别内容类别、描述及模型支持情况:

分类描述支持模型输入类型
harassment骚扰语言或行为全部仅文本
harassment threatening骚扰并威胁严重伤害全部仅文本
hate针对群体(如种族、性别等)表达仇恨全部仅文本
hate threatening带有严重威胁的仇恨全部仅文本
illicit教唆或指导非法行为omni仅文本
illicit violent非法内容且涉及暴力omni仅文本
self-harm鼓励、描述自残行为全部文本与图像
self-harm intent表达自残意图全部文本与图像
self-harm instructions教导自残方法全部文本与图像
sexual描述性内容或性服务全部文本与图像
sexual minors涉及未成年人的性内容全部仅文本
violence描述死亡、暴力或身体伤害全部文本与图像
violence graphic详细描绘暴力或伤害全部文本与图像

注意:仅文本类别若输入为纯图像,则返回置信分数为 0。


安全性与合规注意事项

  • 内容审核模型会持续迭代,category_scores 阈值可能需定期校准。
  • 建议结合人工复审,对高置信度违规内容进行二次确认。
  • 请确保所有调用及数据处理符合当地法律法规及平台合规要求。
  • 审核接口应设置合理的速率限制,防止恶意刷接口或资源滥用。
  • 对于敏感内容处理,建议加密数据传输并妥善保存审核日志。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值