第3回 Part.2

コンピュータによる日本語研究で
新たな文法体系の構築をめざす(2)


青山学院大学 文学部日本文学科
近藤 泰弘 研究室
※部署名、役職名、研究内容などは取材当時のものです
更新::2006/11/13

大和物語など古典文学作品の文脈付き索引を作成

近藤先生は、数々の古典作品ごとに文脈付き索引をつくっていった。そうした研究成果の1つに『大和物語』の文脈付き索引がある。その索引は、コンピュータの出力用紙を綴じたもので、厚さ4〜5センチもあり、半角カタカナの文字がびっしりと並んでいる。当時は、まだコンピュータで漢字が使えなかったためだ。

「たとえば『オナジ』という言葉だと『オナジ ヒト』『オナジ ヒトニアルヒト』『オナジ ミコノ』というように、『オナジ』の横を見れば、どういう文脈で使われているのかが一目でわかるようにしてあります。これを文脈付き索引と呼び、英語ではKWIC(クイック、Key Word in Contextの頭文字)といいます。

こういう索引を手作業でつくるのは事実上、不可能です。原理は簡単ですよ。言葉を1語ずつ取り出して文脈を付けたカードを1枚ずつつくり、それを50音順に並べればいいのですから。ただ、それだと1つの作品の索引をつくるだけで一生かかってしまうのではないでしょうか(笑)」

情報技術の進歩とともに
研究環境が徐々に整う

当時、パソコンによるデータの入力が終わっていれば、大型コンピュータを使って10分ぐらいで索引をつくることができたそうだ。近藤先生は「いまのパソコンなら同じ作業が数秒でできますよ」と話す。そうした情報技術の発達とともに、コンピュータによる日本語研究の環境も少しずつ整っていく。

「1990年代以降になると、あちこちの研究機関が、さまざまな作品のデータづくりを進めるようになりました。古典文学大系のデジタルデータ版というかたちですね。自分で入力しなくても、そういうデータを使えるようになって便利になりました。

さらに、最近になって、本文を解析するためのプログラムも登場してきました。まだ数は少ないのですが、大体はフリーソフトなので、自由に使うことができます。ただ、それだけでは出来合いの研究しかできませんから、自分の研究のためには、いまでも自分でプログラムをつくっています」

「ことが」と「のが」の用法の違いが明らかに

最近のコンピュータによる日本語研究のなかから、現代語、古典語それぞれについて代表的な成果を教えていただくことにしよう。まずは現代語から。

「現代語の研究で、わかりやすい例としては『こと』と『の』の研究があります。何々した『こと』が何々の原因になった、という言い方がありますね。こういうとき『こと』は『の』に置き換えることもできる。値段が下落した『の』が目を引いた、というように。

実は、これは日本語の研究のなかで昔から問題になっているテーマの1つなのです。そこで、『こと』と『の』を中心とした日本語の従属節のつくり方について、コンピュータを使って研究してみたのです」

近藤先生は、日本経済新聞のデータを使って、この研究を進めた。1年間の記事のなかから『こと』と『の』が、とくに『が』で受けられる節(それぞれ『ことが節』『のが節』と名付けている)をコンピュータを使ってすべて抜き出したのだ。

その結果、1年間の記事の総語数約3500万語のなかで、『ことが』は2万6000件、『のが』は2万5000件あり、数としてはほぼ拮抗していることがわかった。そして、その用例を調べてみると、意外なことがわかってきた。

「ことが」は抽象的表現を受け
「のが」は具体的な表現を受ける

「これまでも『ことが』と『のが』については、いろいろな説があったのですが、実際に調べてみた人はいなかった。頭でシミュレーションして、少し差があるかなと考えるぐらいでした。私の研究は実際に調べることを眼目にしていますので、新聞記事を網羅的に調べてみたのです。

その結果、たとえば、何々させるという使役の表現は『こと』を使わないとダメだということがハッキリしてきました。具体例で見ると、国債を発行すると伝えられた『こと』が株式需給を悪化させる、といった用例がありますが、この場合は『の』ではダメなんです。

では、なぜダメなのか。それを追究していって、『こと』のほうは抽象的な内容を受け取る表現であり、『の』のほうはより具体的な内容を受け取る表現であることがわかってきました。

『の』について見ると、向こうから彼がくる『の』が見える、家を出る『の』が遅くなった、というような表現があります。この場合は『こと』だと、おかしい。『の』には物事を生き生きと描写するような力があるんですね。

こういうことは、頭のなかで考えているだけでは、ぼんやりとしかわからなかった。コンピュータを使って、実例で裏付けることで非常に明確にわかるようになったのです」

《つづく》

●次回は「コンピュータによる解析で判明した源氏物語の引用表現について」です。

■青山学院大学 文学部日本文学科
■青山学院大学

▲近藤 泰弘 教授

Lineup

第15回
工学院大学
工学部電気システム工学科

第14回
日本女子大学
家政学部被服学科

第13回
慶應義塾大学 経済学部

第12回
成蹊大学
理工学部情報科学科

第11回
早稲田大学
スポーツ科学学術院

第10回
首都大学東京大学院
都市環境科学研究科

第9回
明治大学
情報コミュニケーション学部

第8回
実践女子大学 生活科学部

第7回
東京工業大学大学院
理工学研究科

第6回
早稲田大学
教育学部地球科学教室

第5回
埼玉大学 教養学部

第4回
東京農工大学大学院
工学教育府応用化学専攻

第3回
青山学院大学
文学部日本文学科

第2回
東京理科大学
薬学部生命創薬科学科

第1回
東京大学大学院
情報理工学系研究科