【LLM实战-大模型自动打标】一文搞懂基于LLM大模型进行自动化打标

最新推荐文章于 2025-04-16 21:31:14 发布

算法驯化师

最新推荐文章于 2025-04-16 21:31:14 发布

阅读量1.4k

点赞数 8

CC 4.0 BY-SA版权

分类专栏： AIGC LLM 文章标签：自动化运维大模型 Prompt llm

本文链接：https://blog.csdn.net/lov1993/article/details/145587670

AIGC 同时被 2 个专栏收录

15 篇文章

订阅专栏

LLM

2 篇文章

订阅专栏

【LLM实战-大模型自动打标】一文搞懂基于LLM大模型进行自动化打标

本次修炼方法请往下查看
在这里插入图片描述

🌈 欢迎莅临我的个人主页 👈这里是我工作、学习、实践 IT领域、真诚分享 踩坑集合，智慧小天地！
🎇 免费获取相关内容文档关注：微信公众号，发送 pandas 即可获取
🎇 相关内容视频讲解 B站

🎓 博主简介：AI算法驯化师，混迹多个大厂搜索、推荐、广告、数据分析、数据挖掘岗位 个人申请专利40+，熟练掌握机器、深度学习等各类应用算法原理和项目实战经验。

🔧 技术专长：在机器学习、搜索、广告、推荐、CV、NLP、多模态、数据分析等算法相关领域有丰富的项目实战经验。已累计为求职、科研、学习等需求提供近千次有偿|无偿定制化服务，助力多位小伙伴在学习、求职、工作上少走弯路、提高效率，近一年好评率100% 。

📝 博客风采：积极分享关于机器学习、深度学习、数据分析、NLP、PyTorch、Python、Linux、工作、项目总结相关的实用内容。

🌵文章目录🌵

使用大模型进行自动标注：基于OpenAI的文本敏感性判断

下滑查看解决方法

使用大模型进行自动标注：基于OpenAI的文本敏感性判断

🎯 1. 基本介绍

在自然语言处理（NLP）领域，文本标注是一个耗时且需要专业知识的任务，尤其是对于涉及敏感内容的文本标注。随着大语言模型（LLM）的发展，我们可以利用这些强大的模型来自动化标注过程，从而提高效率并减少人工干预。本文将介绍如何使用OpenAI的API，结合Python脚本，实现对文本是否涉及敏感话题的自动标注。
在许多应用场景中，如社交媒体监控、内容审核等，我们需要快速判断文本是否包含敏感内容。传统的文本标注方法依赖人工标注，不仅效率低下，还容易受到主观因素的影响。而大语言模型（如OpenAI的GPT系列）在理解和生成自然语言方面表现出色，可以作为自动标注的有力工具。

🎯 二、技术实现

在开始之前，确保你已经安装了必要的Python库，并获取了OpenAI的API密钥：

pip install pandas openai

以下是完整的Python脚本，用于从JSON文件中读取文本数据，并调用OpenAI的API进行敏感性判断，最终将结果保存为Excel文件。

import openai
import re
import datetime
import pandas as pd

# 配置OpenAI API
openai.api_key = "your_openai_api_key"
openai.api_base = "your_openai_api_base"

# 统计信息
cnt = 0
input_token = 0
out_token = 0

def get_prompt(mess):
    """
    对样本进行标签设置，判断文本是否涉及敏感话题或敏感内容。
    """
    prompt_info = f"""你现在是一个NLP专家，请对输入的文本进行判断，判断文本是否涉及敏感话题或敏感内容。
    如果涉及敏感话题或敏感内容，请输出：敏感话题。
    如果不涉及敏感话题或敏感内容，请输出：无敏感话题。
    具体的输入输出的例子如下所示：
    输入：
    你妹的，你大爷
    今天的天气真的好
    草你妈的，sb
    输出：
    敏感话题
    无敏感话题
    敏感话题
    具体的输入文本：{mess}。
    输出为：
    """
    result = openai.ChatCompletion.create(
        model="gpt-3.5-turbo",
        user="user参数可传递一个随机id，用于排查问题，例如traceId、uuid、requestId等",
        messages=[
            {"role": "user", "content": prompt_info},
        ]
    )
    global input_token, out_token, cnt
    input_token += result['usage']['prompt_tokens']
    out_token += result['usage']['total_tokens']
    cnt += 1
    res = result['choices'][0]['message']['content']
    res = res.strip('\n').replace(' ', '')
    print(res)
    return res

if __name__ == "__main__":
    print(f"开始时间：{datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    df = pd.read_json('im_eval_200.json')
    mess_set_all = df['messages'].tolist()
    res = []

    for index, mess in enumerate(mess_set_all):
        prompt_info = '\n'.join([i['content'] for i in mess][1:-1])
        system_info = mess[0]['content']
        history = [] if len(mess[1:-1]) == 1 and mess[1]['role'] == "user" else mess[1:-2]
        prompt = mess[-2]['content']
        if index == 1:
            print(mess)
            print(prompt_info)
            get_prompt(prompt_info)
        try:
            label = get_prompt(prompt_info)
            res.append([system_info, history, prompt, label])
        except Exception as e:
            print(f"OpenAI API错误：{e}")
    pd.DataFrame(res, columns=['system', 'history', 'prompt', 'gpt3.5']).to_excel('im_gpt3.5_predict.xlsx', index=False)
    print(f"结束时间：{datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")

划分训练集和测试集, 使用train_test_split方法将数据划分为训练集和测试集，测试集占比为20%。

X_train, X_test, y_train, y_test = train_test_split(df_train['评论内容'].tolist(), df_train['label'].tolist(), 
                                                    test_size=0.2, random_state=42)