大学、専門学校や企業などの研究室を訪問し、研究テーマや実験の様子をレポート
第3回 Part.2第3回
コンピュータによる日本語研究で新たな文法体系の構築をめざす(2)
Part.2
大和物語など古典文学作品の
文脈付き索引を作成
文学部 日本文学科 近藤 泰弘研究室
公開:
更新:
ここ1~2年、日本語ブームだといわれる。日本語関連の本がベストセラーになったり、日本語をテーマにしたテレビ番組が人気を集めているのだ。たしかに、普段あたりまえのように使っている日本語について、少し踏み込んだ話を聞くだけでも新たな発見があって「なるほど」と思わせられることも多い。これは日常レベルの話だが、学問の世界でも、もちろん日本語の研究が積み重ねられている。なかには、コンピュータを使って日本語を分析し、これまで知られていなかったことを明らかにしていく研究に取り組んでいるケースもある。そこで今回は、青山学院大学文学部の近藤泰弘先生の研究室を訪ね、コンピュータを使った日本語研究について話をうかがうことにした。(Part.2/全4回)
近藤先生は、数々の古典作品ごとに文脈付き索引をつくっていった。そうした研究成果の1つに『大和物語』の文脈付き索引がある。その索引は、コンピュータの出力用紙を綴じたもので、厚さ4~5センチもあり、半角カタカナの文字がびっしりと並んでいる。当時は、まだコンピュータで漢字が使えなかったためだ。
「たとえば『オナジ』という言葉だと『オナジ ヒト』『オナジ ヒトニアルヒト』『オナジ ミコノ』というように、『オナジ』の横を見れば、どういう文脈で使われているのかが一目でわかるようにしてあります。これを文脈付き索引と呼び、英語ではKWIC(クイック、Key Word in Contextの頭文字)といいます。
こういう索引を手作業でつくるのは事実上、不可能です。原理は簡単ですよ。言葉を1語ずつ取り出して文脈を付けたカードを1枚ずつつくり、それを50音順に並べればいいのですから。ただ、それだと1つの作品の索引をつくるだけで一生かかってしまうのではないでしょうか(笑)」
情報技術の進歩とともに
研究環境が徐々に整う
当時、パソコンによるデータの入力が終わっていれば、大型コンピュータを使って10分ぐらいで索引をつくることができたそうだ。近藤先生は「いまのパソコンなら同じ作業が数秒でできますよ」と話す。そうした情報技術の発達とともに、コンピュータによる日本語研究の環境も少しずつ整っていく。
「1990年代以降になると、あちこちの研究機関が、さまざまな作品のデータづくりを進めるようになりました。古典文学大系のデジタルデータ版というかたちですね。自分で入力しなくても、そういうデータを使えるようになって便利になりました。
さらに、最近になって、本文を解析するためのプログラムも登場してきました。まだ数は少ないのですが、大体はフリーソフトなので、自由に使うことができます。ただ、それだけでは出来合いの研究しかできませんから、自分の研究のためには、いまでも自分でプログラムをつくっています」
「ことが」と「のが」の用法の違いが明らかに
最近のコンピュータによる日本語研究のなかから、現代語、古典語それぞれについて代表的な成果を教えていただくことにしよう。まずは現代語から。
「現代語の研究で、わかりやすい例としては『こと』と『の』の研究があります。何々した『こと』が何々の原因になった、という言い方がありますね。こういうとき『こと』は『の』に置き換えることもできる。値段が下落した『の』が目を引いた、というように。
実は、これは日本語の研究のなかで昔から問題になっているテーマの1つなのです。そこで、『こと』と『の』を中心とした日本語の従属節のつくり方について、コンピュータを使って研究してみたのです」
近藤先生は、日本経済新聞のデータを使って、この研究を進めた。1年間の記事のなかから『こと』と『の』が、とくに『が』で受けられる節(それぞれ『ことが節』『のが節』と名付けている)をコンピュータを使ってすべて抜き出したのだ。
その結果、1年間の記事の総語数約3500万語のなかで、『ことが』は2万6000件、『のが』は2万5000件あり、数としてはほぼ拮抗していることがわかった。そして、その用例を調べてみると、意外なことがわかってきた。
「ことが」は抽象的表現を受け
「のが」は具体的な表現を受ける
「これまでも『ことが』と『のが』については、いろいろな説があったのですが、実際に調べてみた人はいなかった。頭でシミュレーションして、少し差があるかなと考えるぐらいでした。私の研究は実際に調べることを眼目にしていますので、新聞記事を網羅的に調べてみたのです。
その結果、たとえば、何々させるという使役の表現は『こと』を使わないとダメだということがハッキリしてきました。具体例で見ると、国債を発行すると伝えられた『こと』が株式需給を悪化させる、といった用例がありますが、この場合は『の』ではダメなんです。
では、なぜダメなのか。それを追究していって、『こと』のほうは抽象的な内容を受け取る表現であり、『の』のほうはより具体的な内容を受け取る表現であることがわかってきました。
『の』について見ると、向こうから彼がくる『の』が見える、家を出る『の』が遅くなった、というような表現があります。この場合は『こと』だと、おかしい。『の』には物事を生き生きと描写するような力があるんですね。
こういうことは、頭のなかで考えているだけでは、ぼんやりとしかわからなかった。コンピュータを使って、実例で裏付けることで非常に明確にわかるようになったのです」
《つづく》
●次回は「コンピュータによる解析で判明した源氏物語の引用表現について」です。