文本分类综述
文本分类的应用场景
- sentiment analysis (SA)
- topic labeling (TL)
- news classification(NC)
- question answering (QA)
- dialog act classification (DAC)
- natural language inference (NLI)
- event prediction (EP)
文本分类模型
Shallow Learning Models
数据预处理:
- word segmentation
- data cleaning
- data statistics
对原始数据进行人工特征提取,单词向量化。
- Bow
- N-gram
- TF-IDF
- word2vec
- GloVe
主要的模型有:
- NB (朴素贝叶斯)
- HMM (隐形马尔可夫模型)
- K-Nearest Neighbors (KNN)
- SVM
- DT & RF(决策树和随机森林)
- XGBoost
- LightGBM
- 模型集成,例如RF、XGBoost、AdaBoost和stacking。
Deep learningmodels
- A multilayer perceptron (MLP)
- recursive neural network (ReNN)
- recurrent neural network (RNN)
- Convolutional neural networks (CNNs)
- Attention network( hierarchical attention network (HAN) 分层注意力机制)
- Transformer(ELMo 、GPT、BERT、XLNET)
- GNN(图神经网络)
未来的研究和挑战
从数据、模型、表现三方面描述未来的研究和挑战
Data
- Zero-shot/Few-shot learning(爱上一匹野马,家里却没有草原)
- The external knowledge(增加外部知识可以提升模型性能,但是如何添加还不知道)
- The multi-label text classification task(多标签文本分类需要充分考虑标签之间的语义关系,模型的嵌入和编码是有损压缩的过程。 因此,如何减少训练过程中层次语义的丢失以及如何保留丰富而复杂的文档语义信息仍然是一个亟待解决的问题。)
- Special domain with many terminologies(具有许多术语的特殊领域。特定领域中的文本(例如金融和医学文本)包含许多特定的单词或领域专家可理解的语,缩写等,这使现有的经过预训练的单词向量难以使用)
Model
Performance
- The semantic robustness of the model(近年来,研究人员设计了许多模型来提高文本分类模型的准确性。 但是,如果数据集中有一些对抗性样本,则模型的性能会大大降低。 因此,如何提高模型的鲁棒性是当前研究的热点和挑战。)
- The interpretability of the model(如何提升模型的可解释性,也是一个待解决的问题)