第3回 Part.2

2006-11-13UP

コンピュータによる日本語研究で
新たな文法体系の構築をめざす(2)


青山学院大学 文学部日本文学科
近藤泰弘研究室

第4回 〜 第1回

第4回
安価な生分解性プラスチックを
畑のなかからつくり出す
《東京農工大学大学院 工学教育府応用化学専攻 国眼孝雄研究室》


第3回
コンピュータによる日本語研究で
新たな文法体系の構築をめざす
《青山学院大学 文学部日本文学科
近藤泰弘研究室》


第2回
バイオインフォマティクスで
ゲノム創薬への道を切り開く
《東京理科大学 薬学部
生命創薬科学科 宮崎研究室》


第1回
ロボットによる
日常作業の可能性を探る
《東京大学大学院 情報理工学系研究科
稲葉雅幸研究室》



はじめに



『新・研究室はオモシロイ』(全16回)
雑誌「ドリコムアイ」に掲載された記事をPDFファイルでご覧いただけます。

大和物語など古典文学作品の
文脈付き索引を作成


 近藤先生は、数々の古典作品ごとに文脈付き索引をつくっていった。そうした研究成果の1つに『大和物語』の文脈付き索引がある。その索引は、コンピュータの出力用紙を綴じたもので、厚さ4〜5センチもあり、半角カタカナの文字がびっしりと並んでいる。当時は、まだコンピュータで漢字が使えなかったためだ。

「たとえば『オナジ』という言葉だと『オナジ ヒト』『オナジ ヒトニアルヒト』『オナジ ミコノ』というように、『オナジ』の横を見れば、どういう文脈で使われているのかが一目でわかるようにしてあります。これを文脈付き索引と呼び、英語ではKWIC(クイック、Key Word in Contextの頭文字)といいます。

 こういう索引を手作業でつくるのは事実上、不可能です。原理は簡単ですよ。言葉を1語ずつ取り出して文脈を付けたカードを1枚ずつつくり、それを50音順に並べればいいのですから。ただ、それだと1つの作品の索引をつくるだけで一生かかってしまうのではないでしょうか(笑)」


情報技術の進歩とともに
研究環境が徐々に整う


 当時、パソコンによるデータの入力が終わっていれば、大型コンピュータを使って10分ぐらいで索引をつくることができたそうだ。近藤先生は「いまのパソコンなら同じ作業が数秒でできますよ」と話す。そうした情報技術の発達とともに、コンピュータによる日本語研究の環境も少しずつ整っていく。

「1990年代以降になると、あちこちの研究機関が、さまざまな作品のデータづくりを進めるようになりました。古典文学大系のデジタルデータ版というかたちですね。自分で入力しなくても、そういうデータを使えるようになって便利になりました。

 さらに、最近になって、本文を解析するためのプログラムも登場してきました。まだ数は少ないのですが、大体はフリーソフトなので、自由に使うことができます。ただ、それだけでは出来合いの研究しかできませんから、自分の研究のためには、いまでも自分でプログラムをつくっています」

「ことが」と「のが」の
用法の違いが明らかに


 最近のコンピュータによる日本語研究のなかから、現代語、古典語それぞれについて代表的な成果を教えていただくことにしよう。まずは現代語から。

「現代語の研究で、わかりやすい例としては『こと』と『の』の研究があります。何々した『こと』が何々の原因になった、という言い方がありますね。こういうとき『こと』は『の』に置き換えることもできる。値段が下落した『の』が目を引いた、というように。実は、これは日本語の研究のなかで昔から問題になっているテーマの1つなのです。そこで、『こと』と『の』を中心とした日本語の従属節のつくり方について、コンピュータを使って研究してみたのです」

 近藤先生は、日本経済新聞のデータを使って、この研究を進めた。1年間の記事のなかから『こと』と『の』が、とくに『が』で受けられる節(それぞれ『ことが節』『のが節』と名付けている)をコンピュータを使ってすべて抜き出したのだ。

 その結果、1年間の記事の総語数約3500万語のなかで、『ことが』は2万6000件、『のが』は2万5000件あり、数としてはほぼ拮抗していることがわかった。そして、その用例を調べてみると、意外なことがわかってきた。

「ことが」は抽象的表現を受け
「のが」は具体的な表現を受ける


「これまでも『ことが』と『のが』については、いろいろな説があったのですが、実際に調べてみた人はいなかった。頭でシミュレーションして、少し差があるかなと考えるぐらいでした。私の研究は実際に調べることを眼目にしていますので、新聞記事を網羅的に調べてみたのです。

 その結果、たとえば、何々させるという使役の表現は『こと』を使わないとダメだということがハッキリしてきました。具体例で見ると、国債を発行すると伝えられた『こと』が株式需給を悪化させる、といった用例がありますが、この場合は『の』ではダメなんです。

 では、なぜダメなのか。それを追究していって、『こと』のほうは抽象的な内容を受け取る表現であり、『の』のほうはより具体的な内容を受け取る表現であることがわかってきました。

『の』について見ると、向こうから彼がくる『の』が見える、家を出る『の』が遅くなった、というような表現があります。この場合は『こと』だと、おかしい。『の』には物事を生き生きと描写するような力があるんですね。

 こういうことは、頭のなかで考えているだけでは、ぼんやりとしかわからなかった。コンピュータを使って、実例で裏付けることで非常に明確にわかるようになったのです」

■参考資料:竹取物語のKWIC形式のデータベース
http://klab.ri.aoyama.ac.jp/data/taketori.htm


■青山学院大学 文学部日本文学科
http://www.cl.aoyama.ac.jp/japanese/

■青山学院大学
http://www.aoyama.ac.jp/