葡萄牙语电影剧情简介多标签分类的文本特征探索
立即解锁
发布时间: 2025-08-30 01:37:29 阅读量: 4 订阅数: 17 AIGC 

### 葡萄牙语电影剧情简介多标签分类的文本特征探索
#### 1. 引言
近年来,随着像The Movie Database(TMDb)这样的网站为用户提供数十万部影视元数据的免费访问,获取大量视听媒体信息已变得十分普遍。影视数据库需要对影片进行准确的类型分类,因为类型信息对于检索和推荐系统至关重要。然而,目前类型分类大多依赖人工完成,这不仅耗费大量时间和资源,还容易因个人主观偏见和缺乏明确类型定义而产生较高的误差。
已有一些关于自动电影类型分类的研究,多数集中在利用视听特征或结合视听与文本特征(通常从字幕中提取)。但很少有研究通过分析电影剧情简介来解决分类问题,且探索特定语言剧情简介不同文本特征效果的研究更是寥寥无几。本研究旨在评估不同文本特征提取方法在基于葡萄牙语剧情简介的电影类型分类任务中的有效性,同时推出包含13,394条葡萄牙语电影剧情简介的P - TMDb数据集。
#### 2. 相关工作
不同研究采用多种特征提取源对电影进行类型分类,如Rasheed等人、Zhou等人、Huang和Wang以及Wehrmann和Barros使用视听特征;Austin等人使用音乐分数;Ivasic - Kos等人从电影海报中提取特征。但分析剧情简介内容来解决电影分类问题的研究较少。
Hoang使用三种分类方法(朴素贝叶斯、Word2Vec + XGBoost和循环神经网络)处理英文数据集,使用门控循环单元(GRU)达到了F1分数0.56、Jaccard指数50.0%和命中率80.5%。Rahman和Kadir使用印度电影剧情简介进行实验,朴素贝叶斯算法取得了平均精度0.421、召回率0.36和F1分数0.386的最佳结果。Ho分析IMDB网站的16,000条剧情简介数据集,SVM分类器在平衡子集上训练取得了精度0.51205、召回率0.61631和F1分数0.54999的最佳结果。与这些研究不同,本研究聚焦于评估和组合不同的文本特征提取方法,并使用葡萄牙语剧情简介。
#### 3. 研究方法
##### 3.1 P - TMDb数据集
TMDb是一个国际社区驱动的网站,提供电影和电视节目的元数据。本研究使用TMDb网站的API获取了13,394部电影的标题、剧情简介和类型标签,这些剧情简介涉及18种类型,包括动作、冒险、动画等。
由于P - TMDb数据集中类型频率不平衡,使用LP - ROS(标签幂集随机过采样)算法对原始数据集进行过采样,得到P - TMDb(+)数据集,数据集大小增加了25%。从表1可以看出,过采样后每个剧情简介的平均标签数(Cardinality)和单标签剧情简介的比例(PropSingleLabel)变化不大,但不平衡比率(IR)有显著改善,最大IR降低了62%以上,平均IR降低了约32%,说明过采样算法在解决类型不平衡问题上取得了一定成效。
| 数据集 | 总剧情简介数 | Cardinality | PropSingleLabel | 最大IR | 平均IR |
| ---- | ---- | ---- | ---- | ---- | ---- |
| P - TMDb | 13,394 | 2.27 | 0.30 | 37.92 | 6.97 |
| P - TMDb(+) | 16,803 | 2.61 | 0.24 | 14.39 | 4.73 |
##### 3.2 特征
在特征提取阶段,根据需要使用了词干提取和停用词去除技术。本研究评估了九个特征组:
1. **G1**:由每个剧情简介的简单结构数据组成,包括句子、术语和字符的数量。
2. **G2**:使用词频 - 逆文档频率(TF - IDF)度量,先提取训练数据集中每个1 - 元组、2 - 元组和3 - 元组的TF - IDF值,构建表格T,再通过卡方检验确定1,000个最具统计特征的n - 元组,最终特征组为1,000维向量。
3. **G3**:表示每个类型名称在剧情简介中的存在情况,用18维二进制向量表示。
4. **G4**:利用频繁术语词典,为每个类型构建包含100个最频繁术语的词典,提取特征时,统计剧情简介中每个类型词典中出现的术语数量,用18维向量表示。
5. **G5**:包含五个特征,分别表示剧情简介中动词、名词、形容词、副词和代词的频率,使用NLPNET进行词性标注。
6. **G6**:由四个捕获文本语言方面的特征组成,包括停顿性(标点符号频率与句子数量的比例)、情感性(形容词和副词数量与动词和名词数量的比例)、不确定性(情态动词和被动语态的使用总数)和非即时性(第一和第二人称代词的总数)。
7. **G7**:使用LIWC(语言查询和词数)词典计算分析剧情简介中情感、思维方式、社会考量和词性的相对频率,使用基于LIWC2001的葡萄牙语版本,提取64维向量。
8. **G8**:使用潜在狄利克雷分配(LDA)概率模型,每个数据集条目被假设为一组主题的组合,通过Gensim工具包实现,特征组为50维向量,表示剧情简介属于每个主题的概率。
9. **G9**:基于嵌入的使用,使用Paragraph Vector模型在训练集上训练1,000维段落向量,使用Doc2Vec实现,特征提取时,根据TF - IDF值计算剧情简介中每个术语的加权平均位置,最终特征为1,000维向量。
##### 3.3 分类器
使用MEKA工具包中的四种多标签分类方法进行评估,分别是二元关联(Binary Relevance)、分类器链(Classifier Chains)、RAkEL(随机k - 标签集)和深度反向传播神经网络(DBPNN)。所有多标签分类器都使用J48决策树算法作为基分类器,因为其性能与支持向量机(SVM)相当,且计算成本较低。J48分类器的主要初始化参数为:默认剪枝阈值0.25,每个叶子节点的最小实例数为2。RAkEL分类器的参数为:子集数量10,每个子集中的标签数量3。DBPNN分类器的参数为:受限玻尔兹曼机(RBM)数量2,隐藏单元数量10,学习率0.1,动量0.1。
#### 4. 实验设置
在P - TMDb和P - TMDb(+)数据集上进行了28个实验,使用不同的特征组组合。实验E00是唯一使用单个特征组(G2)的实验,因其在所有单个特征组中取得了最佳结果而被纳入研究。其他实验使用特征组的组合,以结合词汇、形态句法和语义特征。所有实验结果通过10折交叉验证估计,使用基于标签的精度、召回率和F1分数评估分类器性能,采用微观平均方法计算指标。
| 实验 | G1 | G2 | G3 | G4 | G5 | G6 | G7 | G8 | G9 |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| E00 | | X | | | | | | | |
| E01 | X | X | X | | | | | | |
| E02 | | X | X | | | | | | |
| E03 | | X | X | | | | | | |
| E04 | | X | X | | | | | | |
| E05 | | X | X | | | | | | |
| E06 | X | X | X | X | | | | | |
| E07 | | X | X | X | | | | | |
| E08 | | X | X | X | | | | | |
| E09 | X | X | X | X | X | X | X | | |
| E10 | X | X | X | | | | | | |
| E11 | | X | X | | | | | | |
| E12 | | X | X | | | | | | |
| E13 | | X | X | | | | | | |
| E14 | X | X | | | | | | | |
| E15 | X | X | X | X | | | | | |
| E16 | | X | X | X | | | | | |
| E17 | | X | X | X | | | | | |
| E18 | X | X | X | X | X | X | X | | |
| E19 | | X | X | X | | | | | |
| E20 | | X | X | | | | | | |
| E21 | | X | X | | | | | | |
| E22 | | X | | | | | X | | |
| E23 | | X | | | | | X | | |
| E24 | X | X | X | X | | | | | |
| E25 | X | X | X | | | | | | |
| E26 | | X | | | | | X | X | |
| E27 | X | X | X | | X | X | X | X | | |
精度、召回率和F1分数的计算公式如下:
\[Precision_l = \frac{TP_l}{TP_l + FP_l}\]
\[Recall_l = \frac{TP_l}{TP_l + FN_l}\]
\[F1 - Score_l = 2 \times \frac{Precision_l \times Recall_l}{Precision_l + Recall_l}\]
\[MicroMet = EvalMet(\
0
0
复制全文
相关推荐










