情感文本分类文本情感分类预处理研究

相关热词搜索：

【关键词】情感分类预处理特征词情感词

典

一般的文本采集方法会使得最终得到的

文本集合中含有大量的噪音，在这些噪音的影

响下，进行文本情感分析会受到干扰，得到的

结果准确性也会降低。因此在进行情感分析之

前必须要对文本数据集进行一系列预处理工

作。

1 文本分词、去停用词

中文分词（Chinese Word Segmentation）

是指将完整的句子拆分成单个词语。现阶段常

用的中文分词算法主要有三种：统计方法，词

典方法和规则方法。中文分词采用一般采用中

科院中文分词系统（ICTCLAS）进行，可以

实现中文分词、词性标注和命名实体识别，该

系统对分词具有较好的效果。举例来说：

原句：中央电视台主持人、了不起的挑

战节目艺人撒贝宁在上海拍摄节目。

以上句子用ICTCLAS 分词后：中央电视

台/n 主持人/n 、了不起的挑战/n 节目/n 艺

人/n 撒贝宁/n 在/p 上海/n 拍摄/v 节目/n。

从__________上述分词实例可以看出，ICTCLAS 在

分词时整体效果较为优秀，能够将名词动词等

都正确分出。

停用词指在中文文本中出现的语气助词、

指代词、介词、感叹词、数量词、副词、连词

等对文本分类没有直接影响的词语。这些停用

词在中文文本中出现的频率非常高，使得对文

本的特征选取方面出现一定程度的偏差。

那么如何将停用词去除便成了文本分类

的一个先决条件，去停用词的过程是：建立一

文/郭璇

文本是情感表达的重要方式，

在挖掘文本包含的情感之前必须

要进行预处理。本文对预处理的

过程进行综述，包括文本分词、

去停用词、特征选择、特征项加权、

生成VSM 模型、情感词典建立等

步骤。

摘要

个停用词词典，分词后，将每个词语放进停用

词词典进行比对，如果相同则去除当前词语。

需要我们注意的是，停用词的词典构建过程不

可能一次完成，需要在平时的研究过程中不断

积累和添加。如果能将文本集合中的词频做出

统计，即可发现，词频数最大的几个词语通常

是我们文本分类中无意义的停用词。

2 特征选择

常用的文本特征选择基本思想：针对每

一个特征词，计算出一个统计时使用的度量值，

设定一个阈值，将计算出的统计度量值的结果

与阈值做出比较，小于阈值的所有特征都去除，

最后剩下的就是有效特征。具体方法有以下三

种：

文档频率（DF）：文档频率指某一个具

体的特征词在其他文档中出现的次数。其主要

思想是：对包含指定特征的文档在训练集中出

现的频率进行统计，并预设一个相应的阈值。

将特征项的DF 值与设定好的阈值进行比较，

若DF 值小于阈值，则将此特征值删去，这样

可以使得特征的选取更加具有代表性。

信息增益（IG）：信息增益主要凭借信

息熵来衡量特征项对分类提供了多少信息。在

进行特征选取时，根据该项特征存在与否时分

别判断当前分类模型中的信息量大小，若该特

征项存在时，分类模型提供较大的信息量，则

将此特征项提取出来。

互信息（MI）: 互信息主要是检测两个随

机事件之间的关联性。在特征选择这个关键步

骤中，若类别与特征项这两者之间表现出的关

联度越大，即互信息越大，则表示该特征值最

能代表此类别。

3 特征项加权

将每一篇训练文本集合在特征空间中的

向量进行扫描和统计，采用TF--IDF 的方法计

算出向量中每一维的权重。TF-IDF 权重，代

表将词语频率和文本频率两种数据信息结合，

进行利用表示将TF 和IDF 两种计算权重的方

式进行组合并综合运用，其计算公式为：

（1）

式中TF 代表排序为k 的特征词出现在第

i 篇文本中的次数，N 代表着当前训练集中的

文本总数目，nk 代表着包含排序为k 的特征词

的文本数目，β 为一个经验值，一般取0.01、0.1

或者1。

4 文本生成VSM模型

目前文本表示通常采用 G. Salton 等人

提出的向量空间模型（Vector Space Model,

VSM）。给定一个文本 D（t1,w1;t2,w2;…

;tn,wm）,D 满足以下约定：

（1）各个特征项 tk（1 ≤ k ≤ n）互异；

（2）各个特征项 tk 没有顺序关系。

采用向量空间模型的方式来表示文本，

其主要的流程如下：

（1）首先将样本数据集中的训练集表示

成特征项序列D={t1,t2,…,td}，便于文本表示；

（2）根据机器学习的算法所需要的文本

表示形式，并基于第一步中排列出的文本的特

征项序列，把包含在样本集中选择出的训练集

和测试集中的所有文本分别进行特征赋值和规

约化等操作，最终生成计算机能够识别的向量

空间模型。

5 情感词典建立

对文本的情感进行分类，必须要在分类

器上对情感信息进行训练，这就需要建立一个

情感词典来提供给机器学习。文本中包含的情

感信息通常都是以词语的形式体现，情感词的

褒贬也通常代表这句子的褒贬，因此，一个词

汇量大、高质量的情感词典，将有效提高情感

分类的效率。

情感词典的建立基于国内常用的情感词

典《知网》（HowNet）知网于2007 年发布了

beta 版本情感分析用词语集，其中报考正向的

情感词836 个，负向的情感词语1254 个。评

价词语褒义3730 个，贬义3116 个。

6 小结

本文对文本情感分析预处理的过程做了

详细的介绍，对采集到的含有较多数据噪声的

文本，先进行分词和去停用词，在此基础上对

当前处理好的文本进行特征选择和特征项加

权，最后将文本用空间向量（VSM）的形式

表示，便于计算机识别并为文本分类提供方便。

作者单位

重庆师范大学计算机与信息科学学院重庆市

401331

Data Base Technique • 数据库技术

情感文本分类 文本情感分类预处理研究

情感文本分类文本情感分类预处理研究