电子商务中基于Hopfield神经网络的货源信息搜索方法一、文章主要内容Internet网络有丰富的信息资源,其中包含大量电子商务(electroniccommerce,EC)需要的货源信息。本文讨论的货源信息包括交易商品的相关信息,以及购买产品的客户、原材料的供应商和竞争对手的相关信息。随着电子商务在企业应用的不断深入,企业需要越来越多的关于潜在客户、供应商和产品等方面的货源信息,并利用这些信息为企业的采购、销售等方面的决策提供依据,所以为了适应市场要求,企业必须通过Internet准确、及时、全面地收集货源信息。直接采用通用搜索引擎(“百度”,“Google”等)搜索货源信息时,由于Internet网络信息量庞大,使得查准率较低。Web挖掘技术可以从与网络相关的资源和行为中提取感兴趣的、有用的模式和隐含信息,是提高电子商务企业效率的有效工具;因此可以将Web挖掘技术应用到通用搜索引擎中,采用信息检索、人工智能等相关技术获取准确而全面的货源信息。本文提出了一种基于Hopfield神经网络的货源信息搜索方法。该方法根据用户输入的查询词,通过Hopfield神经网络自动生成一组查询扩展词。在通用搜索引擎中,利用这组查询扩展词扩大搜索范围,并对返回结果进行分析、过滤、排序,从中筛选企业所需的客户、供应商和产品等相关的货源信息。二、1货源信息搜索问题分析在电子商务环境下,利用通用搜索引擎从Internet网络资源中搜索企业所需货源信息,属于一种网络资源的领域搜索问题。这里,领域是指企业关注的货源信息所涵盖的范围(例如,汽车厂商关注与汽车相关的信息)。这种与某领域相关的网络信息搜索可以利用信息检索(informationretrieval,IR)方法实现,实质就是利用一组扩展词分类过滤网页内容。在利用通用搜索引擎进行货源信息搜索时,扩展词的选择要满足以下要求:①扩展词必须反映查询词本身的特点,不同的查询词对应不同的扩展词;②扩展词与查询词应具有很高的关联度(例如,计算机电脑、PC);③加入扩展词搜索的查准率应高于只用查询词的查准率(去除了不相关文献);④扩展词可以是“显性词”(positivewords),也可以是“隐性词”(negativewords);隐性扩展词在一定程度上能提高搜索效果。2基于Hopfield神经网络的货源信息搜索方法2.1货源信息搜索方法的基本结构首先根据货源信息样本的特点建立Hopfield神经网络,然后根据输入的查询词,由“Hopfield神经网络”模块自动生成一组扩展词,输入到通用搜索引擎中,最后对返回结果进行排序,将相似度高的网页信息作为企业所需的货源信息返回给企业用户。2.2Hopfield神经网络的设计根据Hopfield神经网络[8]的特点,可以将货源信息的特征保存在连接权中,根据输入的不同的查询词,通过网络运行,自动生成一组不同的扩展词,来适应货源信息领域搜索的要求。2.2.1确定人工神经元从货源信息样本中选取M个出现频率比较高的名词和部分重要动词作为候选扩展词,并考虑隐性扩展词,则Hopfield神经网络共有2M个神经元与这些候选扩展词一一对应。2.2.2设定神经元之间的连接权值考虑到货源信息样本的特点,神经元间连接权值Wij定义为Wij=SijLij·(1)其中,Sij为词语i对于词语j的关联度权值;Lij为词语i对于词语j的领域权值。2.2.2.1关联度权值Sij的确定词语之间关联度权值Sij定义为Sij=Ti·Cij·(2)Ti为词语i本身的权值。为了对那些在多篇文献中都出现的词语给予一定的惩罚,可使用类似逆文献频率计算的方法给每个词语一个权值:Ti=log(N/ni)·(3)N为货源信息样本中的文献总数;ni为N篇文献中出现词语i的文献个数。Cij为词语i与词语j的共现率,定义为U(i),U(j),U(i∧j),U(i∨j)表示在所有N篇文献中出现词语i,j,i与j,i或j的集合。通常情况下,Cij的计算需要考虑以下两个特点:①经常同时出现在一篇文献中的两个词语之间应该具有很高的共现率;②在两个词语同时出现在一篇文献中的情况下,出现次数差别小的两个词语应该具有比较高的共现率。因此,本文定义词语i与词语j在文献k中的共现率cijk为其中,fik为词语i在文献k中出现的次数;α为共现率调节参数·在式(5)中,当fik=fjk时,表示词语i,j在文献k中总是同时出现,此时,cijk=1,是cijk的最大值;当fikmfjk或fiknfjk时,表示词语i,j在文献k中出现的次数差别很大,此时,cijk=exp(-α),是cijk的最小值,可以通过参数α调整共现率的最小值。考虑货源信息样本中的所有文献,定义式(4)中的U(i)=1另外,对于Hopfield神经网络中包含隐性词语.i的神经元,由于无法统计词语.i在文献k中出现的次数f.ik,从而无法计算c.ijk和C.ij。为了解决该问题,定义U为货源信息样本的全集,本文中设定|U|的值为N。因为U(.i)=U-U(i),U(.i∧j)=U(j)-U(i∧j),U(.i∧.j)=U-U(i∨j)=U-(U(i)+U(j)-U(i∧j)),由此推导可得,同理也可计算出Ci.j和C.i.j。由式(4)~式(6)可以计算出所有词语之间的共现率,可以看出,共现率是对称的,即Cij=Cji。至此,关联度权值可由式(2)计算得到。关联度权值是非对称的,即Sij≠Sji。2.2.2.2领域权值Lij的确定扩展词应该能有效地去除不相关的文献,因此定义词语之间领域权值Lij为Lij=Pij-Pi·(7)其中,Pij=nRij/nij是词语j作为扩展词后,用词语i和j共同搜索的查准率,Pi=nRi/ni是用词语i搜索的查准率nRij为包含词语i和j并与货源信息领域相关的文献总数;nRi为包含词语i并与货源信息领域相关的文献总数;nij为包含词语i和j的文献总数。显然,Lij≠Lji。综上所述,将以上计算得到的Sij和Lij代入式(1),即可求出神经元之间连接权值Wij。神经元之间连接权值Wij也是非对称的,即Wij≠Wji。假设查询词为词语i,选择词语j为扩展词,进一步分析可知:1)如果Wij0,说明搜索结果变好,神经元i对于激活神经元j起到促进作用;2)如果Wij0,说明搜索结果变差,神经元i对于激活神经元j起到抑制作用。因此,Hopfield神经网络结构如图2所示·2.3Hopfield神经网络的计算1)神经网络初始化·用户查询词所对应的神经元作为神经网络的初始输入:2)神经元激活值迭代计算·Xi(t)表示神经元i在t时刻的激活值,0≤Xi(t)≤1,其计算公式为Xi(t+1)=其中,θ表示神经元的阈值,神经元激活函数采用改进的SIGMOID函数:β是斜率调节参数,调节参数β使曲线在0到1之间均匀平滑变化·采用上述函数的目的是让那些能使搜索结果变好的神经元的激活值在0到1之间,并且让其他的神经元激活值为0。3)网络迭代终止条件:式中,ε为足够小的正数·网络收敛后,选择最终被激活的神经元对应的词语作为货源信息领域的扩展词。2.4返回文献与货源信息领域相似度的计算定义扩展词i相对于查询q的权重为wiq=Xi·(10)用TF2IDF方法计算扩展词i对于文献k的权重:式中,fid,i=log(N/ni)是扩展词i对应的逆文献频率;I表示由神经网络计算得到的扩展词集合。对于隐性扩展词.i,由于无法计算f.ik,可以定义其相对于文献k的权重为文献k与货源信息领域的相似度Sk用向量模型中的内积方法计算:通用搜索引擎返回的结果文献按照式(13)进行排序,并将Sk大于一定阈值的文献作为搜索到的货源信息提交给企业用户。3实验结果及分析本节通过实例计算说明了基于Hopfield神经网络的货源搜索方法的搜索效果·采用一组网络新闻组文献(选自USE2NETnewsgroups)[10]作为货源信息样本,其中包括汽车类,摩托车类等其他类相关文献共900篇·假设汽车类文献是用户所需的货源信息,计算参数为:M=30,α=015,β=1,θ=0135,ε=10-4,扩展词选择结果如表1所示。从表1可以看出,该方法可以根据不同的查询词,自动生成不同的扩展词,避免了查询词与扩展词不匹配的情况。实验中,将基于Hopfield神经网络的货源搜索方法与其他选词方法(OR,IG,MI)进行了比较,以查全率(P)和查准率(R)作为评价指标。查询词为“speed”,包含“speed”的文献共132篇,其中属于货源信息领域的文献62篇。比较结果如表2所示。从表2可以看出,在前60篇返回文献中,Hopfield神经网络方法的查准率和查全率均可以达到80%左右,查准率比其他3种方法平均提高了7.2%,查全率平均提高了7.1%。从图3可以看出,查全率在0~95%范围内,在相同查全率的情况下,Hopfield神经网络方法的查准率也明显高于其他方法。4结语本文针对电子商务环境下货源信息搜索问题,采用信息检索和人工智能的相关技术,提出了一种基于Hopfield神经网络的货源搜索方法。这种方法通过选择查询扩展词,分析排序搜索结果,扩大了货源搜索范围,并提高了货源搜索精度,为企业用户收集了所需的相关货源信息。文中提出的Hopfield神经网络的设计和扩展词的选择方法对其他领域的大范围信息搜索也有很好的应用价值。