(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910178534.6(22)申请日2019.03.11(71)申请人南京邮电大学地址210003江苏省南京市鼓楼区新模范马路66号(72)发明人桂冠 许文华 马书豪 刘超 孙颖异 熊健 杨洁 (74)专利代理机构南京纵横知识产权代理有限公司32224代理人董建林 张赏(51)Int.Cl.G06F16/35(2019.01)G06F17/27(2006.01)G06K9/62(2006.01)(54)发明名称基于卷积神经网络和词向量相结合的新闻分类方法(57)摘要本发明公开一种基于卷积神经网络和词向量相结合的新闻分类方法,首先将训练文本利用skip-gram模型训练成分布式词向量表示,然后再将文本矩阵输入卷积神经网络分类器进行训练,模型训练好后就可以得出待测新闻文本的类别。本发明中采用的卷积神经网络不需要提前单独提取文本特征,可以通过整个网络独立完成,本发明操作步骤简便且具有更高的准确率。权利要求书2页说明书5页附图5页CN109977224A2019.07.05CN109977224A1.基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,包括以下步骤:1)准备训练需要的新闻文本数据集,所述数据集需要涵盖所需的所有类别;2)建立停用词词汇表;3)对所述步骤1)构建的新闻文本数据集进行分词,然后去除所述停用词词汇表中所包含的词语;4)将分词处理好的新闻文本数据集按一定比例划分,取占比例最大的作为训练集,比例次之的为验证集,占比例最小的为测试集;5)采用所述步骤4)划分的训练集通过skip-gram模型训练分布式词向量;6)将训练集中的新闻文本采用所述步骤5)训练的词向量表示成文本矩阵,采用卷积神经网络训练文本分类器;7)用所述步骤4)划分的测试集检验所述步骤6)训练的文本分类器,如果没有达到预期效果则返回步骤4)重新训练文本分类器;8)将待测新闻文本输入训练好的文本分类器,自动输出所属类别。2.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤1)中,每个类别的新闻数量要一致。3.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤1)中,所述新闻文本数据集要进行打类别标签处理;所述类别标签采用统一格式,所述类别标签在每条新闻文本的最前面标明,用tab空格将其与新闻文本间隔开。4.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述停用词词汇表内记载停用词,所述停用词包括语气词,人称代词,虚词和标点符号。5.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤3)中,采用结巴分词进行分词。6.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤4)中,选取的划分比例为100:10:5。7.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤5)中,训练分布式词向量的具体过程如下:51)先根据训练集建立训练词对,具体为,每个新闻文本从首到尾遍历每一个词,以遍历的当前词为中心,分别向左向右滑动一定距离的词,然后与其周围相邻的词组成词对;52)训练词对建立好后,将词对中的词用one-hot向量表示,构建一个词汇表,所述词汇表的第一列包含新闻文本数据集中的所有词,并要按出现的顺序依次排好,所述词汇表的行对应的是该词的one-hot向量,每个词的one-hot表示就是该词的位置为1,其余的都是0;53)将one-hot向量输入卷积神经网络,输入是词对中的第一个词的one-hot表示,输出是词对中的第二个词的one-hot表示;所述神经网络的权值为训练好的词向量。8.根据权利要求1所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤6)中,训练文本分类器的具体过程如下:61)将训练集中的新闻文本采用步骤5)训练好的词向量表示,所有词向量组合起来,所述新闻文本构成一个文本矩阵;62)用卷积核扫描所述形成的文本矩阵,且卷积核只能上下的移动,卷积表示如下:权 利 要 求 书1/2页2CN109977224A2ci=f2(W·X+b)其中,ci是是第i次卷积得到的卷积结果,f2是激活函数,W是卷积核的权值,X是文本矩阵,b是偏置值;63)将每次卷积的结果组合在一起形成一个新的向量c,C=(c1,c2……cn),cn是第n次卷积得到的结果;64)将所述步骤63)的卷积输出c进行最大池化操作,提取向量中的最大元素;65)最大池化层之后经过全连接层,提取文本特征,所述文本特征的数量与最终要分类的类别数相同,具体如下:yj=f3(W1·P+b1)其中,yj是新闻文本中包含的第j类的特征,f3是全连接层的激活函数,W1是全连接层的权重矩阵,P是最大池化层的输出,b1是全连接层激活函数的偏置值;66)采用Softmax函数计算概率,得出所属分类。9.根据权利要求8所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述卷积核的大小和词向量的长度相同。10.根据权利要求8所述的基于卷积神经网络和词向量相结合的新闻分类方法,其特征在于,所述步骤66)中,Softmax函数计算概率如下:其中,L(yj)表示新闻文本属于j类别的概率,N表示所提取的文本特征数。权 利 要 求 书2/2页3CN109977224A3基于卷积神经网络和词向量相结合的新闻分类方法技术领域[0001]本发明涉及一种基于卷积神经网络和词向量相结合的新闻分类方法,属于信息处理技术 领域。背景技术[0002]传统的文本分类方法的主要流程是人工设计一些特征,从原始文档中提取特征,然后指 定分类器如LR、SVM,训练模型对文章进行分类,比较经典的特征提取方法如频次法、 TF-IDF、互信息方法、N-Gram。这些方法精确度低,操作复杂,需要先提取文本特征再分 类。使用传统的方案对新闻文本进行分类时,往往需要提取多个文本特征再进行文本分类, 因为根据单一的文本特征进行分类准确率达不到预期,所以这大大增加了操作的复杂度。[0003]近年来,深度学习的发展带动了很多领域的进展,自然语言处理也因为深度学习的发展 取得了很多的成果。在自然语言处理的很多方面,深度神经网络超过了很多传统的机器学习 方法,其中就包括文本分类问题。卷积神经网络做文本分类的效果已经远远超过了一些传统 的机器学习方法。与传统的方法相比,卷积神经网络处理高维数据较传统的机器学习方法来 讲毫无压力。其特有的卷积、池化结构能够提取文本中的特征,并最终结合全连接网络实现 信息的汇总和输出。在提升精度的同时,卷积神经网络也降低了操作的复杂度,方法更简便。发明内容[0004]本发明提供一种基于卷积神经网络和词向量相结合的新闻分类方法,将深度学习中的卷 积神经网络和分布式词向量相结合,先用skip-gram模型训练分布式词向量,再将每条新闻 用词向量表示,进行文本矩阵化。然后利用卷积神经网络训练分类模型,训练好之后就可以 利用该模型判别大量的新闻文本的类别。本发明解决了传统的分类方法存在的诸多问题,具 有更高的准确率,操作步骤更简便。[0005]本发明为解决上述技术问题采用以下技术方案:[0006]基于卷积神经网络和词向量相结合的新闻分类方法,包括以下步骤:[0007]1)准备训练需要的新闻文本数据集,所述数据集需要涵盖所需的所有类别;[0008]2)建立停用词词汇表;[0009]3)对所述步骤1)构建的新闻文本数据集进行分词,然后去除所述停用词词汇表中所 包含的词语;[0010]4)将分词处理好的新闻文本数据集按一定比例划分,取占比例最大的作为训练集,比 例次之的为验证集,占比例最小的为测试集;[0011]5)采用所述步骤4)划分的训练集通过skip-gram模型训练分布式词向量;[0012]6)将训练集中的新闻文本采用所述步骤5)训练的词向量表示成文本矩阵,采用卷积 神经网络训练文本分类器;[0013]7)用所述步骤4)划分的测试集检验所述步骤6)训练的文本分类器,如果没有达到说 明 书1/5页4CN109977224A4预 期效果则返回步骤4)重新训练文本分类器;[0014]8)将待测新闻文本输入训练好的文本分类器,自动输出所属类别。[0015]前述的步骤1)中,每个类别的新闻数量要一致。[0016]前述的步骤1)中,所述新闻文本数据集要进行打类别标签处理;所述类别标签采用统 一格式,所述类别标签在每条新闻文本的最前面标明,用tab空格将其与新闻文本间隔开。[0017]前述的停用词词汇表内记载停用词,所述停用词包括语气词,人称代词,虚词和标点符 号。[0018]前述的步骤3)中,采用结巴分词进行分词。[0019]前述的步骤4)中,选取的划分比例为100:10:5。[0020]前述的步骤5)中,训练分布式词向量的具体过程如下:[0021]51)先根据训练集建立训练词对,具体为,每个新闻文本从首到尾遍历每一个词,以遍 历的当前词为中心,分别向左向右滑动一定距离的词,然后与其周围相邻的词组成词对;[0022]52)训练词对建立好后,将词对中的词用one-hot向量表示,构建一个词汇表,所述词 汇表的第一列包含新闻文本数据集中的所有词,并要按出现的顺序依次排好,所述词汇表的 行对应的是该词的one-hot向量,每个词的one-hot表示就是该词的位置为1,其余的都是0;[0023]53)将one-hot向量输入卷积神经网络,输入是词对中的第一个词的one-hot表示,输 出是词对中的第二个词的one-hot表示;所述神经网络的权值为训练好的词向量。[0024]前述的步骤6)中,训练文本分类器的具体过程如下:[0025]61)将训练集中的新闻文本采用步骤5)训练好的词向量表示,所有词向量组合起来, 所述新闻文本构成一个文本矩阵;[0026]62)用卷积核扫描所述形成的文本矩阵,且卷积核只能上下的移动,卷积表示如下:[0027]ci=f2(W·X+b)[0028]其中,ci是是第i次卷积得到的卷积结果,f2是激活函数,W是卷积核的权值,X是文本 矩阵,b是偏置值;[0029]63)将每次卷积的结果组合在一起形成一个新的向量C,C=(c1,c2……cn),cn是第n次 卷积得到的结果;[0030]64)将所述步骤63)的卷积输出C进行最大池化操作,提取向量中的最大元素;[0031]65)最大池化层之后经过全连接层,提取文本特征,所述文本特征的数量与最终要分类 的类别数相同,具体如下:[0032]yj=f3(W1·P+b1)[0033]其中,yj是新闻文本中包含的第j类的特征,f3是全连接层的激活函数,W1是全连接层 的权重矩阵,P是最大池化层的输出,b1是全连接层激活函数的偏置值;[0034]66)采用Softmax函数计算概率,得出所属分类。[0035]前述的卷积核的大小和词向量的长度相同。[0036]前述的步骤66)中,Softmax函数计算概率如下:说 明 书2/5页5CN109977224A5[0037][0038]其中,L(yj)表示新闻文本属于j类别的概率,N表示所提取的文本特征数。[0039]本发明所达到的有益效果为:[0040](1)本发明方法解决了传统新闻文本分类方法需要提前单独提取文本特征的缺点。[0041](2)本发明中采用的卷积神经网络不需要提前单独提取文本特征,可以通过整个网络 独立完成。[0042](3)本发明采用卷积层,最大池化层,全连接层决定了其在特征提取的优越性。[0043](4)本发明中采用的文本表示方法是分布式词向量表示方法,词向量是利用skip-gram 模型训练的,较以前的one-hot表示方法相比,分布式词向量能更好的反应词与词之间的关 系。附图说明[0044]图1是本发明基于卷积神经网络和skip-gram模型相结合的新闻文本分类方法流程图。[004