1用語抽出技術を用いた対訳抽出技術&同義語獲得のための距離学習中川裕志清水伸幸範暁蓉東京大学中川研究室第3回機械翻訳技術のイノベーションシンポジウム2009年3月8日東大2同義語抽出技術と用語抽出技術を用いた対訳抽出技術実はこの部分はまだあまり進んでいないのですが、用語抽出技術と統計翻訳を組み合わせるとかなりよい結果が得られたので、少し先送り状態です。3専門用語の対訳辞書の自動生成背景•専門用語の対訳辞書、特に日中間は未だ不十分。目的•本プロジェクトで開発した日中対訳コーパスから専門用語の日中対訳辞書を自動生成する。日・中言語&処理上の特徴•単語が分かち書きされていない。•単語の語順が違う。ただし共通する単語も多い。•単語分割、アライメントのエラーが多い。提案手法専門用語は膨大でどんどん増加するので、自動生成するシステムが欲しいところである。そこで専門用語抽出システム言選Webと統計翻訳の単語アライメントを組み合わせた専門用語辞書の生成手法4日中対訳コーパスの各単言語コーパスからの用語抽出言選Webとは•用語抽出ツール。日本語、中国語、英,仏,独,伊,西,などの言語のテキストから用語抽出できる。•性能:AveragePrecisionは0.7強言選Webによる日中対訳コーパスの用語抽出•情報分野の日中コーパスを利用•日中、各々の単言語コーパスから、コーパスにおいて重要な単単語用語と複合語用語を抽出5目標抽出した日本語用語と中国語用語の対訳関係を獲得する。中国語用語の抽出結果抽出した用語重要度语言信息1047366.81数据库1005124.71提案系统285528.44声音数据283352.13语义信息186011.79信息词典25464.93日本語用語の抽出結果抽出した用語重要度言語情報862376.11認証858010.91構造化854445.99形態素解析851941.17音声データ847816.53開発者847550.34?言選webによる日本語・中国語の用語抽出結果6従来の方法単単語の用語翻訳対について•統計翻訳における単語アライメントを利用して抽出複合語の用語翻訳対での課題¾手法1.統計翻訳におけるフレーズアライメントで対訳フレーズを抽出問題点:抽出したフレーズの対訳対に対して、両言語に対応する専門用語が存在するとは限らないため、重要なフレーズの対訳かどうか判断しにくい。¾手法2.既存の対訳辞書および文脈を利用問題点:コーパスの中のすべての専門用語を含んでいる辞書が存在しない。(専門語では新語が多いことも問題)7提案手法提案手法【段階1】用語アライメント1.形態素解析、単語分割を行い、複合語を含む重要な用語を抽出する。2.用語と認められる複合語を一つにまとめ、単単語とあわせて処理の最小単位とする。これをRe-segmentと呼ぶ。3.この単位によってアライメントを行う。ソースとターゲットの間で対訳となる良い専門用語が言選webの結果に存在すれば、用語対を抽出できる。はずだが、実際はそう甘くない【段階2】アライメント結果のRe-rankingによる改善8段階1:Re-segment例処理前:意味情報を記載した辞書を意味辞書と呼ぶ(日本語)录入了语义信息的词典称为语义词典。(中国語)処理後:意味情報を記載した辞書を意味辞書と呼ぶ(日本語)录入了语义信息的词典称为语义词典。(中国語)中国語用語結果…语义信息…语义词典…複数の単語をひとつにまとめるまとめる基準:言選webの結果日本語用語結果…意味情報…意味辞書…言選Webの結果9段階1:用語アラインメントの結果GIZA++による結果中国語日本語対訳確率(P1)人手評価根的部分树结构Tv部分木Tv1部分一致相对音高值相対音高値1一致瓶颈化措置1アライメント誤り回路区域回路領域1一致回路区域機器側1アライメント誤り和局引き分けなし1部分一致x方向線密度画像0.768054アライメント誤り句法范畴的数量終端構文範疇0.767711部分一致因果知识因果知識0.736054一致单元种类セル種類0.73605一致信念状态信念状態0.735999一致向量计算机ベクトル計算機0.735996一致このあたりは間違いが多発していて、使い物にならんなあ。。10段階2:段階1の結果の改善用語候補のRe-ranking段階1のアラインメント結果について•対訳確率と実際結果は一致しない場合が多い。原因•日本語用語と中国語用語が構造的に一致しない場合がある。•単語分割に誤りがある。(結果では部分一致)•単語アラインメントに誤りがある。改善手法-用語対のRe-ranking•用語対に含まれる単語間の対訳確率が高いと、用語対の対訳確率も高いと仮定し、用語対のRe-rankingをする。•言選Webの結果の複合語が正しくない場合のRankも下げる効果を狙う11Re-rankingの方法対訳用語の類似度の定義ただし、ソース用語S=ws1ws2…wsnターゲット用語T=wt1wt2…wtm単語対訳確率集合Q={p(wtj|wsi)=pij:i=1…n,j=1…m}2(,)max(,)PSTmnΔ=入力単語対訳確率集合QStep0:△←0Step1:f←max(pij)Step2:もしf=0なら,終了Step3:△←△+fStep4:pi.p.jをQから取り除き,step1へ△の計算方法ws1ws2ws3ws4wt1........wt2..max1..wt3..0..0ws1ws2ws3ws4wt1max2......wt2........wt3........ws1ws2ws3ws4wt1max2......wt2....max1..wt3..0..0終了△←△+max1△←△+max212Re-rankingの方法(Cont.)例S:和局=(和局)(1単語,中国語)T:引き分けなし=(引き分けなし)(2単語,日本語)P1(S,T)=1単語の対訳状況p(和局,引き分け)=1、p(和局,なし)=0引き分けなし(日本語)と和局(中国語)の類似度P2(S,T)=1/2=0.5P(S,T)=1*0.5+0.5*0.5=0.75(w1=w2=0.5)Re-rankingのスコアP(S,T)=w1P1(S,T)+w2P2(S,T)(w1+w2=1)ただし、P1:Giza++の用語アライメントスコアP2:用語対の単語間の確率を組み合わせたスコア13Re-rankingに必要な単語の対訳関係は以下のようにしてGiza++のアラインメント確率を使う目的:用語対に含まれる単単語の対訳関係を発見する。•単語対訳辞書にはコーパスが含むすべての単語の辞書がない。解決方法•Re-segment前のコーパスで単語アラインメントを行い、単語の対訳関係を獲得する。中国語日本語対訳確率偶人人形1科教教諭1笑容笑顔1洞察力洞察1电子电路回路0.999纵线縦0.935999双边ダブル0.935922Linux5.2RedHat0.935138那样よう0.933003文科文系0.932996………単語アラインメントの結果14実験の設定対訳コーパスNICT 日中情報分野対訳コーパス日中:378,132文対用語抽出システムTermExtract(*)日本語版TermExtract中国語版単語アラインメントソフトGIZA++結果について単単語用語と複合語用語を分けない。*TermExtract:言選Webシステムのスタンドアロン版15用語アライメントの流れ(1)TermExtractorChineseTermsJapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Step1専門用語抽出それぞれ分割した日本語コーパスと中国語コーパスから対応する用語抽出システムを利用して用語を抽出する。Step2Re-segment抽出した用語を基づいて分割した日本語コーパスと中国語コーパスをre-segmentする。Step3アラインメントRe-segmented日本語コーパスと中国語コーパスにたいしてワードアラインメントを行う。16用語アライメントの流れ(2)TermExtractorChineseTermsJapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)Step1専門用語抽出それぞれ分割した日本語コーパスと中国語コーパスから対応する用語抽出システムを利用して用語を抽出する。Step2Re-segment抽出した用語を基づいて分割した日本語コーパスと中国語コーパスをre-segmentする。Step3アラインメントRe-segmented日本語コーパスと中国語コーパスにたいしてワードアラインメントを行う。17用語アライメントの流れ(3)TermExtractorChineseTermsGIZA++JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)TermalignmentresultStep1専門用語抽出それぞれ分割した日本語コーパスと中国語コーパスから対応する用語抽出システムを利用して用語を抽出する。Step2Re-segment抽出した用語を基づいて分割した日本語コーパスと中国語コーパスをre-segmentする。Step3アラインメントRe-segmentされた日本語コーパスと中国語コーパスに対してワードアラインメントを行う。18Re-rankingの流れ(1)TermExtractorChineseTermsGIZA++JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)TermalignmentresultGIZA++ChineseCorpus(w)JapaneseCorpus(w)WordalignmentresultStep4ワードアライメントre-segment前のコーパスに対してワードアライメントを行う。Step5Re-ranking19Re-rankingの流れ(2)TermExtractorChineseTermsGIZA++GIZA++JapaneseTermsJapaneseCorpus(w)ChineseCorpus(w)Re-SegmentRe-SegmentJapaneseCorpus(p)ChineseCorpus(p)ChineseCorpus(w)JapaneseCorpus(w)TermalignmentresultWordalignmentresultRe-rankingTranslationpairsStep4ワードアライメントRe-segment前のコーパスに対してワードアライメントを行う。Step5Re-ranking20Re-ranking前後の比較順番Re-ranking前(30%)Re-ranking後(90%)1具体的知识知識表現1○奥津奥津○2Sj的子片段CHB法1×长裤パンツ○3对象的国民性常规模式的印象国民性1×东南亚東南アジア11.01.0○4因子的组遺伝子1×拍卖员オークショニア○5初级电路回路和初级力学领域初等電気回路1△忍耐力忍耐11.01.0△6作用例子初等電気回路1×周报週報11.01.0○7技术方针操作記述ポリシ1×契据エスクローサービス×8抗体所标记操作記述ポリシ1×霞浦霞ケ浦○9时候的句子平均単語認識率1×田舍田舎○10禁忌タブー搜索1×敬而远之敬遠○11法和禁忌タブー搜索1×非洲アフリカ○12混音次数ミキシング回数ごと1○河冈池原河岡池原○13对