WordEmbedding词向量WordEmbedding•词是最基础的语言单元词短语句子段落篇章词是自然语言处理的基础•文本分类诺基亚5800屏幕很好,操作也很方便,通话质量也不错,诺基亚158001屏幕1很好1操作1也2很1方便1通话1质量1不错1(1,0,0,1,0,1,1…..,0,1)分类器正面评价负面评价词是自然语言处理的基础•SemanticMatching奥巴马的老爸是谁他的儿子贝拉克·奥巴马是美国第44任总统,也是美国第一位有50%黑人血统的总统[3]。奥巴马的父亲是巴拉克-侯赛因-奥巴马。奥巴马的老婆是米歇尔。语义匹配词是自然语言处理的基础•神经网络初始化词表示•One-hotWordRepresentation•减肥[0001000000]•瘦身[1000000000]•问题:•语义鸿沟问题•Cosine(减肥,瘦身)=0•维数灾难、稀疏•无法表示unseenwords瘦身人民国家减肥成都北京美国中科院机器学习的...词表词表示•DistributedWordRepresentation•减肥[0.792,−0.177,−0.107,0.109,−0.542]•瘦身[0.856,−0.523,0,0.2,-0.2]•每一维可以看成词的语义或者主题信息•维度压缩•很好的解决语义鸿沟问题•Cosine(减肥,瘦身)=0.7635•基于学习模型,可以快速对于unseenwords进行表示词表示词向量表示的核心•利用上下文信息进行词表示•具有相同(类似)上下文信息的词应该具有相同(类似)的词表示[Z.Harris,1954]glassdrinkgraperedmealbardiwac1022431629car500100两种上下文•“文档”作为上下文•“词”作为上下文•SyntagmaticRelation•ParadigmaticRelation他的儿子贝拉克·奥巴马是美国第44任总统,也是美国第一位有50%黑人血统的总统[3]。奥巴马的父亲是巴拉克-侯赛因-奥巴马。奥巴马的老婆是米歇尔。奥巴马=[1,1,1]儿子=[1,0,0]父亲=[0,1,0]#2#3#1glassdrinkgraperedmealbardiwac1022431629car500100Paradigmaticvs.SyntagmaticYoulikemachinelearningWelikedeeplearningParadigmaticRelationSyntagmaticRelationSyntagmaticRelation传统词向量学习方法•“词-文档”共现矩阵•LatentSemanticAnalysis(LSA)•ProbabilisticSemanticAnalysis(PLSA)•LDAd1d2d3w1113w2221w3421w43LatentSemanticAnalysis(LSA)TopicModel传统词向量方法•“词-文档”矩阵•SyntagmaticRelation(组合关系/一阶关系):Twowordsaresimilariftheytendtoappearinthecontextsofeachother•Useco-occurrenceeventsforbuildingthewordspaceasasyntagmaticuseofcontext[Sahlgren2006]IlikenaturelanguageprocessingYoulikemachinelearningWelikedeeplearningd1d2d3I1like111nature1language1processing1You1machine1learning11We1deep1deep→learningmachine→learning(0,0,1)(0,1,1)(0,1,0)(0,1,1)传统词向量方法•“词-词”共现矩阵•BrownClustering[Brownetal.1992]•HyperspaceAnaloguetoLanguage,HAL[Lundetal.1996]•GloVe[Penningtonetal2014]w1w2w3w4w1241w223w3431w411IlikenaturelanguageprocessingYoulikemachinelearningWelikedeeplearningGloVe词向量词向量词词共现w1w2w3w4w1241w223w3431w411传统词向量方法•“词-词”共现矩阵•ParadigmaticRelation(聚合/替换关系/二阶关系):Twowordsaresimilariftheytendtoappearinsimilarcontexts•Usesurroundingwordsforbuildingthewordspaceasaparadigmaticuseofcontext[Sahlgren2006]w0w1w2w3w4w5w6w7w8w9(w0)I1(w1)like111111(w2)nature11(w3)language11(w4)processing1(w5)You1(w6)machine11(w7)learning11(w8)We1(w9)deep11IlikenaturelanguageprocessingYoulikemachinelearningWelikedeeplearningdeep→machine(0,1,0,0,0,0,0,1,0,0)(0,1,0,0,0,0,0,1,0,0)RoadMap词向量“词-上下文”词-文档词-词LSAPLSA……BrownClusteringHALGloVe……Skip-gramCBOWNNLMLBLC&WSkip-gram可以看做某种词-词矩阵分解[Penningtonetal2014][Lietal.2015]神经网络如何通过神经网络的方法训练得到一组词向量?如何训练得到一组好的词向量?如何训练得到一组词向量语言模型珍/轩/食堂/欢迎/新老/师生/前来/就餐珍/轩/食堂/欢迎/新老师/生前/来/就餐语言模型•目标:计算一个词串的概率例子p(Seg1)=p(他|BOS)×p(是|他)×p(研究生|是)×p(物|研究生)×p(的|物)×p(的|EOS)p(Seg2)=p(他|BOS)×p(是|他)×p(研究|是)×p(生物|研究)×p(的|生物)×p(的|EOS)他是研究生物的他是研究生物的他是研究生物的语言模型RepresentationClassifierp(quick|C)p(fast|C)»R(fast)»R(quick)NNLM•NeuralNetworkLanguageModel[Y.Bengioetal.2003]NNLMLBL•Log-bilinearLanguageModel[A.Mnih&G.Hinton,2007]词汇表词向量矩阵CBOW/Skip-gram•Word2Vector•去除隐藏层•去除词序[T.Mikolovetal,ICLR2013]ContinuousBag-of-WordsSkip-gram研表究明,汉字序顺并不定一影阅响读!事证实明了也许当你看这完句话之后才发字现都乱是的。CBOW•ContinuedBagofWordsModelSkip-GramC&W•目标:词向量目标函数如何训练得到一组好的词向量模型分析•词向量与上下文密切相关•两个重要问题•上下文如何表示•上下文与目标词的关系Skip-gram目标词上下文上下文的表示上下文表示:目标词和上下文的关系:P(wi|Ci)=P(wj|wj+i)e(wj+i),-k£j£k,j¹0CBOW目标词上下文上下文的表示ContinuousBag-of-Words上下文表示:目标词和上下文的关系:P(wi|Ci)=P(wi|wi-k,wi-k+1,!,wi-1,wi+1,!,wi+k-1,wi+k)1k-1(e(wi-k-12)+!+e(wi-1)+e(wi+1)+!+e(wi+k-12))LBL目标词上下文上下文的表示上下文表示:目标词和上下文的关系:P(wi|Ci)=P(wi|wi-1,wi-2,!,wi-k)H[e(w1),!,e(wn-2),e(wn-1)]NNLM目标词上下文上下文的表示上下文表示:目标词和上下文的关系:P(wi|Ci)=P(wi|wi-1,wi-2,!,wi-k)tanh(d+H[e(w1),!,e(wn-2),e(wn-1)])Order(VirtualModel)上下文表示:目标词和上下文的关系:P(wi|Ci)=P(wi|wi-k,wi-k+1,!,wi-1,wi+1,!,wi+k-1,wi+k)[e(w1),!,e(wn-2),e(wn-1)]C&W目标词上下文上下文和目标词的联合表示上下文表示:目标词和上下文的关系:Score(wi,Ci)H[e(wi-k-12),!,e(wi-1),e(wi),e(wi+1),!,e(wi+k-12))模型总结简单复杂ModelRelationofw,cRepresentationofcSkip-gramcpredictswoneofcCBOWcpredictswaverageofcOrdercpredictswconcatenationLBLcpredictswcompositionalityNNLMcpredictswcompositionalityC&Wscoresw,ccompositionality怎样才算是好的词向量词向量应用•语言学应用词向量应用•作为某一任务的特征•文本分类•情感分类•传统特征:unigram、bigram、trigram•分布式特征:WordEmbeddings特征词向量分类器SVMMaximumEntropyNaiveBayes……词向量应用•作为某一任务神经网络模型的初始值评价任务选择•语言学应用•类比任务(syn、sem)•相似度/相关度计算(ws)•同义词(tfl)•作为某一任务的特征•情感分类(avg)•命名实体识别(NER)•作为某一任务神经网络模型的初始值•情感分类(cnn)•词性标注(pos)评价任务:类比任务•语法相似度(syn)10.5k•predict–predicting≈dance–dancing•类比关系(语义)(sem)9k•king–queen≈man–woman•评测•man–woman+queen→king•predict-dance+dancing→predicting•评价指标•Accuracy[Mikolovetal.2013]评价任务:相似度/相关度•任务:计算给定词语的相关词语(ws)•student,professor6.81•professor,cucumber0.31•数据:WordSim353•指标:皮尔逊距离[L.Finkelsteinetal.,2013]评价任务:同义词•任务:找给定词语的同义词(tfl)80个选择题•数据:托福考试同义词题•指标:AccuracyleviedA)imposedB)believedC)requestedD)correlated[T.Landauer&S.Dumais,2013]评价任务:文本分类•任务:情感分类(avg)•10万条(5万有标注)•25,000Train,25,000Test•特征:文档中各词词向量平均值•分类模型:LogisticRegression•数据:IMDB•指标:Accuracy评价任务:命名实体识别•任务:NER•特征:传统特征[Ratinov2009]+训练得到的词向量•模型:CRFs•数据:CoNLL03sharedtask•指标:F1[Turianetal.,2010]评价任务:情感分类•任务:情感分类,5分类(cnn)•模型:ConvolutionalNeuralNetwork•数据:StanfordSentimentTreeBank•6920Train,872De