网站首页 | 经济学论文 | 证券金融 | 管理学 | 会计审计 | 法学论文 | 医药学论文 | 社会学论文 | 教育论文 | 计算机 | 艺术论文 | 哲学论文 | 财务管理 |
写论文网
  • 证券投资论文
  • 金融研究论文
  • 期货市场论文
  • 债务市场论文
  • 银行管理论文
  • 公司研究论文
  • 保险学论文证
  • 您的位置:写论文网 > 证券金融 > 债务市场论文 > 情感文本分类 文本情感分类... 正文 2019-08-04 08:38:23

    情感文本分类 文本情感分类预处理研究

    相关热词搜索:

    【关键词】情感分类 预处理 特征词 情感词

    一般的文本采集方法会使得最终得到的

    文本集合中含有大量的噪音,在这些噪音的影

    响下,进行文本情感分析会受到干扰,得到的

    结果准确性也会降低。因此在进行情感分析之

    前必须要对文本数据集进行一系列预处理工

    作。

    1 文本分词、去停用词

    中文分词(Chinese Word Segmentation)

    是指将完整的句子拆分成单个词语。现阶段常

    用的中文分词算法主要有三种:统计方法,词

    典方法和规则方法。中文分词采用一般采用中

    科院中文分词系统(ICTCLAS)进行,可以

    实现中文分词、词性标注和命名实体识别,该

    系统对分词具有较好的效果。举例来说:

    原句:中央电视台主持人、了不起的挑

    战节目艺人撒贝宁在上海拍摄节目。

    以上句子用ICTCLAS 分词后:中央电视

    台/n 主持人/n 、了不起的挑战/n 节目/n 艺

    人/n 撒贝宁/n 在/p 上海/n 拍摄/v 节目/n。

    /w

    从__________上述分词实例可以看出,ICTCLAS 在

    分词时整体效果较为优秀,能够将名词动词等

    都正确分出。

    停用词指在中文文本中出现的语气助词、

    指代词、介词、感叹词、数量词、副词、连词

    等对文本分类没有直接影响的词语。这些停用

    词在中文文本中出现的频率非常高,使得对文

    本的特征选取方面出现一定程度的偏差。

    那么如何将停用词去除便成了文本分类

    的一个先决条件,去停用词的过程是:建立一

    文/郭璇

    文本是情感表达的重要方式,

    在挖掘文本包含的情感之前必须

    要进行预处理。本文对预处理的

    过程进行综述,包括文本分词、

    去停用词、特征选择、特征项加权、

    生成VSM 模型、情感词典建立等

    步骤。

    摘 要

    个停用词词典,分词后,将每个词语放进停用

    词词典进行比对,如果相同则去除当前词语。

    需要我们注意的是,停用词的词典构建过程不

    可能一次完成,需要在平时的研究过程中不断

    积累和添加。如果能将文本集合中的词频做出

    统计,即可发现,词频数最大的几个词语通常

    是我们文本分类中无意义的停用词。

    2 特征选择

    常用的文本特征选择基本思想:针对每

    一个特征词,计算出一个统计时使用的度量值,

    设定一个阈值,将计算出的统计度量值的结果

    与阈值做出比较,小于阈值的所有特征都去除,

    最后剩下的就是有效特征。具体方法有以下三

    种:

    文档频率(DF):文档频率指某一个具

    体的特征词在其他文档中出现的次数。其主要

    思想是:对包含指定特征的文档在训练集中出

    现的频率进行统计,并预设一个相应的阈值。

    将特征项的DF 值与设定好的阈值进行比较,

    若DF 值小于阈值,则将此特征值删去,这样

    可以使得特征的选取更加具有代表性。

    信息增益(IG):信息增益主要凭借信

    息熵来衡量特征项对分类提供了多少信息。在

    进行特征选取时,根据该项特征存在与否时分

    别判断当前分类模型中的信息量大小,若该特

    征项存在时,分类模型提供较大的信息量,则

    将此特征项提取出来。

    互信息(MI): 互信息主要是检测两个随

    机事件之间的关联性。在特征选择这个关键步

    骤中,若类别与特征项这两者之间表现出的关

    联度越大,即互信息越大,则表示该特征值最

    能代表此类别。

    3 特征项加权

    将每一篇训练文本集合在特征空间中的

    向量进行扫描和统计,采用TF--IDF 的方法计

    算出向量中每一维的权重。TF-IDF 权重,代

    表将词语频率和文本频率两种数据信息结合,

    进行利用表示将TF 和IDF 两种计算权重的方

    式进行组合并综合运用,其计算公式为:

    (1)

    式中TF 代表排序为k 的特征词出现在第

    i 篇文本中的次数,N 代表着当前训练集中的

    文本总数目,nk 代表着包含排序为k 的特征词

    的文本数目,β 为一个经验值,一般取0.01、0.1

    或者1。

    4 文本生成VSM模型

    目前文本表示通常采用 G. Salton 等人

    提出的向量空间模型(Vector Space Model,

    VSM)。给定一个文本 D(t1,w1;t2,w2;…

    ;tn,wm),D 满足以下约定:

    (1)各个特征项 tk(1 ≤ k ≤ n)互异;

    (2)各个特征项 tk 没有顺序关系。

    采用向量空间模型的方式来表示文本,

    其主要的流程如下:

    (1)首先将样本数据集中的训练集表示

    成特征项序列D={t1,t2,…,td},便于文本表示;

    (2)根据机器学习的算法所需要的文本

    表示形式,并基于第一步中排列出的文本的特

    征项序列,把包含在样本集中选择出的训练集

    和测试集中的所有文本分别进行特征赋值和规

    约化等操作,最终生成计算机能够识别的向量

    空间模型。

    5 情感词典建立

    对文本的情感进行分类,必须要在分类

    器上对情感信息进行训练,这就需要建立一个

    情感词典来提供给机器学习。文本中包含的情

    感信息通常都是以词语的形式体现,情感词的

    褒贬也通常代表这句子的褒贬,因此,一个词

    汇量大、高质量的情感词典,将有效提高情感

    分类的效率。

    情感词典的建立基于国内常用的情感词

    典《知网》(HowNet)知网于2007 年发布了

    beta 版本情感分析用词语集,其中报考正向的

    情感词836 个,负向的情感词语1254 个。评

    价词语褒义3730 个,贬义3116 个。

    6 小结

    本文对文本情感分析预处理的过程做了

    详细的介绍,对采集到的含有较多数据噪声的

    文本,先进行分词和去停用词,在此基础上对

    当前处理好的文本进行特征选择和特征项加

    权,最后将文本用空间向量(VSM)的形式

    表示,便于计算机识别并为文本分类提供方便。

    作者单位

    重庆师范大学计算机与信息科学学院 重庆市

    401331

    Data Base Technique • 数据库技术

    • 范文大全
    • 教案
    • 优秀作文
    • 教师范文
    • 综合阅读
    • 读后感
    • 说说
    情感文本分类 文本情感分类预处理研究》由(写论文网)整理提供,版权归原作者、原出处所有。
    Copyright © 2019 写论文网 All Rights Reserved.