iテキストにおける語彙の分布と文章構造成果報告書目次本報告書について(山崎誠)・・・・・・・・・・・・・・・・・・・・・・・・・・・・・1論文の論理構造における分野基礎用語に関する分析(内山清子)・・・・・・・・・・・・・3テキストの違いと受身文の違い―会話・ブログ・新書の受身の使われ方をもとに(江田すみれ)・・・・・・・・・・・・・13学術論文における問題提起疑問文とそれに対する答え方(清水まさ子)・・・・・・・・・・31文章中の語彙の機能について―“テクスト構成機能”という観点から―(高崎みどり)・・・41接続表現の二重使用と文章ジャンル―『現代日本語書き言葉均衡コーパス』を利用して―(馬場俊臣)・・・・・・・・・・・67状態空間表現を用いた文章の特徴付け(馬場康維・小森理)・・・・・・・・・・・・・・・89「手」の慣用句を指標とした文章ジャンルの判別―現代日本語書き言葉均衡コーパスを用いて―(村田年・山崎誠)・・・・・・・・・102自然科学系書籍における複合動詞の使用傾向―後項動詞を指標として―(村田年・山崎誠)・・・・・・・・・・・・・・・・・・115共起語率の分布からみるテキストの語彙的特徴(山崎誠)・・・・・・・・・・・・・・137段落間の類似度を利用したテクストの結束性の測定(山崎誠)・・・・・・・・・・・・145ii1本報告書について山崎誠この報告書は、国立国語研究所萌芽・発掘型共同研究プロジェクト「テキストにおける語彙の分布と文章構造」(2009年10月~2012年9月。プロジェクトリーダー:山崎誠)の研究成果の一部を論集として掲載するものである。本共同研究の趣旨は、テキストの産出過程とともに形成される動的な語彙を文章構造との観点から定量的な手法で分析することであった。具体的には、『現代日本語書き言葉均衡コーパス』に含まれるひとまとまりの完結したテキストあるいは学術論文等を用いて、語の使用頻度と出現状況との関係、とくに文章構造と語(内容語、機能語)の出現状況との関係を語彙的結束性の現れという観点から探った。また、当該テキストの持つ特性(表現意図、ジャンル、文体等)との相関を調査・分析し、語彙に内包された文章構成機能を明らかにすることを目的とした。共同研究員は、次のとおり(五十音順)。内山清子(国立情報学研究所)、大塚みさ(実践女子短期大学)、金明哲(同志社大学)、江田すみれ(日本女子大学)、小森理(統計数理研究所)、清水まさ子(国際交流基金日本語国際センター)、高崎みどり(お茶の水女子大学)、馬場俊臣(北海道教育大学)、馬場康維(統計数理研究所)、村田年(慶應義塾大学)本報告書に収めた論文を簡単に紹介すると、専門用語の出現傾向から論文の構造との関係を分析した内山論文、受け身文の現れ方がジャンルによって異なることを明らかにした江田論文、学術論文における問題提起疑問文の機能を分析した清水論文、談話構成語や指示語などのテクスト構成機能を持つ語の詳細な分析を行った高崎論文、接続表現の二重使用の分布と組み合わせについて分析した馬場(俊)論文、学術論文を品詞を手掛かりに状態空間表現という概念を用いて分析した馬場(康)・小森論文、慣用句をもとにして学術論文のジャンルを判別した村田・山崎論文、同じく複合動詞の使用傾向から学術論文のジャンルを判別した村田・山崎論文、隣接段落間で共通して現れる語の計量的分析から文章のジャンルや文章構造との関係を記述した山崎論文、同じく文章中のすべての段落の類似度をもとに文章の結束性を観察した山崎論文の10論文である。これらの多くは後述の共同研究発表会で発表したもの、あるいは、共同研究の成果として「コーパス日本学ワークショップ」で発表したものをまとめたものである。本共同研究では以下の日程で共同研究発表会を開催した。第1回:2010年2月25日国立国語研究所・テキストにおける多義語の意味分布と語彙的結束性(山崎誠)・科学的な書物における「ている」の使われ方-「運動長期」「パーフェクト」の果たす「話題提供」「結論」の機能について-(江田すみれ)第2回:2010年8月23日同志社大学文化情報学部2・出現間隔と意味的距離から見た多義語の意味分布(山崎誠)・社会科学系論文の本論における構成要素間の結びつき(清水まさ子)第3回:2010年12月5日日本女子大・目白キャンパス・学術論文の本論における論の展開―構成要素のつながりから見る―(清水まさ子)・「させる」文の文脈の違いによる使用状況について―会話・小説・科学的入門書のコーパスによる調査結果―(江田すみれ)・テキストにおける語彙的連鎖(山崎誠)第4回:2011年3月6日国立国語研究所・「手」の慣用句を指標とした文章の所属ジャンル判別の可能性-現代日本語書き言葉均衡コーパスを用いて(村田年)・接続表現の二重使用と文章ジャンル(馬場俊臣)・文節の語彙属性パターンに基づいた文体分析(金明哲)第5回:2011年6月26日国立国語研究所・語彙の分布の視覚化(山崎誠)・論文の構成要素の分布から学術論文のタイプを見る(清水まさ子)・文章と語彙の関わりについて(高崎みどり)第6回:2011年9月24日北海道教育大学札幌駅前サテライト・文章における共起語率の分布(山崎誠)第7回:2012年7月1日お茶の水女子大学・学術論文における専門用語の分野基礎性に関する一考察(内山清子)・状態空間表現を用いた文章の特徴付けの試み(馬場康維・小森理)第8回:2012年10月28日国立情報学研究所・接続表現二重使用のジャンルによる偏り―BCCWJ「中納言」検索結果に基づいて―(馬場俊臣)・学術論文の分野・タイプによって構成要素の出現はどう変わるのか―一編の論文が持つ異なる属性に注目して―(清水まさ子)・明示的な構成を持つテキストの語彙的特徴(山崎誠)なお、上記とは別に名古屋大学で開かれた2012年日本語教育国際研究大会で以下のパネルセッションを行った。パネルセッション「構成要素の出現状況に基づく文章・談話の構造分析」(2012年8月19日)・テキストのタイプ・構成と語彙的結束性との関係(山崎誠)・多義語の出現環境と意味実現との関連(大塚みさ)・『ていた』のテクストの違いによる機能の違い(江田すみれ)・論証型論文における構成要素の特徴とは何か(清水まさ子)3論文の論理構造における分野基礎用語に関する分析内山清子(国立情報学研究所)†AnAnalysisofDomain-SpecificIntroductoryTermsinLogicalStructureofScholarlyPapersKiyokoUchiyama(NationalInstituteofInformatics)要旨本論文は、学術論文に含まれる多くの専門用語の中から、分野において必須で重要な用語を分野基礎用語と定義し、その用語の出現傾向について分析を行う。分野基礎用語は特定分野の研究をこれから学ぶような学部の学生は、専門が異なる研究者などに対して、効率的に分野の論文を理解するために、最低限知っておくべき用語を提示することを提案する。この分野基礎用語をどのように選定すべきであるのかについて、様々な観点を想定し、その観点を実際の文章に当てはめて分析を行った。また分野基礎用語が、論文中にどのような出現傾向を示すのか、特に文章の論理構造においてどのような役割を果たしているのかについて分析と考察を行う。キーワード:専門用語、分野基礎性、分野基礎用語、論理構造1.はじめに学術論文には分野で使われる専門用語や、著者が自分の研究を特徴づけるために作り出す独自の専門的な複合語などが数多く含まれる。これらの語は、分野の初心者にとって初めて遭遇する用語であり、その用語の意味を理解した上で論文を読み進めることが必要となる。しかし、分野初心者にとって、専門用語はすべて未知の語であり、どの語が重要な語であり最初に学ぶべき用語であるのか、また対象論文の研究内容の手がかり語となる用語であるのかなどの区別ができない。こうした専門用語に対して優先度を示すことにより、分野初心者が論文を読んで理解するための支援になるのではないかと考えた。そこで、本研究では、対象分野において最初に必ず学ばなければならない語、その分野における基礎的・必須である専門用語を分野基礎用語と呼び、分野基礎用語の選定方法を検討し、論文の論理構造における出現分布について分析を行う。2.関連研究と分野基礎用語の位置づけ従来、分野の用語(専門用語)については、専門性や重要性といった指標や関連用語収集などのテーマで研究がおこなわれてきた。まず、専門度を推定する研究として、専門外の人に対して専門用語を使わずに平易な用語に置き換えるために、専門外の人から見て比較的専門的な用語か、かなり専門的な用語かの2段階に分けたものがある。次に用語の重要性については、複合語を構成している単語の種類や隣接する単語の数をベースにして用語らしさとしての重要性を計算する手法が提案されてきた。また、関連用語収集として、複数の書籍に共通する用語をシードワード†kiyoko_at_nii.ac.jp4に設定して、その用語から関連する用語を自動的に収集する研究が行われた。この研究におけるシードワードは、本研究における分野基礎用語と一部一致している。本研究において、論文を理解するために効率的な用語として分野基礎用語を位置づけるために、分野基礎用語から始まり専門性・難易度が高い用語に至る学習段階を想定し、自分の知識と目標レベルに応じた以下の4段階の知識・学習レベルを設定した。(1)一般、大学学部生、他の研究分野の研究者(2)大学学部生(その分野を専門に学びたい学生)(3)大学院修士(修士論文テーマ探し)(4)大学院博士、研究者(博士論文、研究論文テーマ探し)まず、第一段階の一般、大学学部生、他の研究分野の研究者に対しては、分野知識を持っていないことを前提として、分野の全体的な概略を説明した解説文や理解しやすい教科書などに掲載されている用語を提示することが有効であると考える。次は学部3年生を想定して、卒業論文をまとめるために必要な分野の成り立ちも含めた詳細な概要を把握する必要がある。この段階では分野でよく利用される用語の理解を深めることが重要となる。第3段階は、大学院修士の学生が自分の修士論文のテーマを探すために、その分野の最新動向も踏まえて、興味のあるトピックに関する論文を読む必要性が出てくる。この段階では、論文を読むために、よく使われる用語に関連した専門性の高い用語を学ぶ。最後の段階では、大学院博士課程の学生や研究者として、過去の詳細な研究成果も含めた狭く深い情報が重要となってくる。この段階では、分野の中の特定のトピックに対する専門家が使っている専門性と難易度の高い知識を持っていることが前提となる。本論文では、このような4つの知識・学習段階を考えた中で、分野初心者に重要な最初のレベル(1と2)に必要な用語を分野基礎用語と位置付ける。3.基礎性判定の観点と尺度3.1優先度学問を学ぶ時の学ぶ優先順位がある程度決まってくる。自然言語処理の場合は、形態素解析を学んだ後で、構文解析、構文解析を学ぶといった優先度のことである。こうした学習において共通して初期の段階に優先的に教えられる項目は特に重要で、分野基礎性が最も高い用語として絶対的な尺度であると考えられる。たとえば、複数の教科書に共通する用語や同じ研究分野の大学講義等で複数の先生が共通して初期に教える用語などは優先度が高い語であると考える。3.2経年推移度昔は論文等で頻繁に使われていた用語が年数を経るごとに頻度が減ってきたり、その反対に増えてきたりする用語がある。分野基礎性が高い語は、年数が経っても平均してある一定以上の頻度を保って出現し、分野基礎性が低い語は突然爆発的に使われたとしてもある時期に落ち着いて、以後使われなくなったりする等、出現頻度に安定性がないと考えられる。53