研究室はオモシロイ

大学、専門学校や企業などの研究室を訪問し、研究テーマや実験の様子をレポート

第3回 Part.3

第3回 
コンピュータによる日本語研究で新たな文法体系の構築をめざす(3)

Part.3
文字列分析の技術を使って
源氏物語の引用表現を抽出

青山学院大学
文学部 日本文学科 近藤 泰弘研究室
※組織名称、施策、役職名などは原稿作成時のものです
公開:
 更新:

ここ1~2年、日本語ブームだといわれる。日本語関連の本がベストセラーになったり、日本語をテーマにしたテレビ番組が人気を集めているのだ。たしかに、普段あたりまえのように使っている日本語について、少し踏み込んだ話を聞くだけでも新たな発見があって「なるほど」と思わせられることも多い。これは日常レベルの話だが、学問の世界でも、もちろん日本語の研究が積み重ねられている。なかには、コンピュータを使って日本語を分析し、これまで知られていなかったことを明らかにしていく研究に取り組んでいるケースもある。そこで今回は、青山学院大学文学部の近藤泰弘先生の研究室を訪ね、コンピュータを使った日本語研究について話をうかがうことにした。(Part.3/全4回)

▲近藤 泰弘 教授

古典語研究の代表例としては『源氏物語』と『古今集』の引用表現の研究がある。技術的に見ると、『こと』と『の』の研究はKWIC索引をつくる延長線上にあるものだ。その技術とは別に、N-gram(グラム、以下カタカナで表記)と呼ばれる解析手法を使って引用表現の研究を進めた。

グラムとは文字や単語1つずつの単位のこと。文字の場合なら、1文字は1グラム、2文字は2グラムとなる。この技術を使えば、文章のなかから任意のグラム数の文字列を抽出することができる。それを比較して引用表現を探そうという研究だ。

「文献の本文をすべて平仮名にして、1文字から20文字程度の文字列をすべて抽出しました。長い文字列まで調べたのは、単語レベルだけでなく表現そのものまで比較したかったからです」

文字列は、1文字ずつずらしてすべて抽出するため、なかには意味を成さないようなものも含まれるが、その総数は源氏物語が約1438万種類、古今集が約61万種類にもなった。次に、これらの文字列から源氏物語と古今集に共通する文字列を抽出する。これもプログラムによって、パソコンで自動的に処理する。

その結果、2作品の共通文字列として約3万8000種類が浮かび上がった。さらに、そのなかから長めの文字列、つまり、たんなる単語レベルではない文字列を詳細に調べていくと、引用表現と思われるものが見つかった。

知られていなかった引用表現を
20例近く発見

「長い文字列になると、偶然の一致ということはないでしょう。では何かということになりますが、やはり引用だろうと考えられます。源氏物語が古今集から引用した(引き歌という)表現が共通文字列として現れているのです。そういう引用表現で、これまで知られていなかったものが少なくとも10数例から20例ぐらい見つかりました。

源氏物語の引用表現は、室町時代にほとんど発見されていて、江戸時代初期の注釈書に出尽くしています。ですから、新しい発見をすることは非常に難しいのですが、コンピュータを使うことで見つけることができました。

ただ、源氏物語の専門家のなかには、コンピュータの発見したものなど信用できない、という方もいらっしゃるので、その辺は残念なんですけど(苦笑)」

複合辞の全容を明らかにして
国語辞書の改善につなげる

取り組みを開始したばかりの最新の研究もある。それは、Nグラムの手法を使って複合辞のリストをつくることだ。

「たとえば『なりそうだ』とか『違いない』という言葉がありますね。こういう表現はよく使いますが、国語辞典には載っていません。

『違いない』の場合なら『違う』と『ない』は載っていますが、その2つから『違いない』の意味は導き出せません。『違いない』は、正しいか、あるかないかという意味ではなく『きっとそうだ』という意味の推量表現です。『じゃないかと思う』なども同様の推量表現ですね。このように複数の言葉からなる固定的な表現のことを複合辞といいます。

では、そうした複合辞にはどのようなものが、どのくらいあるのかということになると、誰も知らない。いまいったように辞書には載っていません。文法の教科書を見ても、代表的なものがいくつか載っていて、そのあとに『などがある』と書いてあるだけで、全体像はわからない。

そこで、単語Nグラムの技術を使って、新聞のデータから網羅的に単語列を抜き出し、複合辞のリストをつくりたいと考えたのです。そして、最終的には辞書の改善につなげていきたいと思っています」

《つづく》

●次回は最終回「コンピュータによる文法の研究で変わる将来の日本語像について」です。

新着記事 New Articles