2009/08/26
[Kataro Syuwa :No.118] CLって、格フレームになるよね その3
ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
_/_/ メールマガジン 『語ろうか、手話について』 _/_/
_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/_/
No. 118 2009年 8月26日発行
ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ☆ミ
皆さん、こんにちは。団子屋を探している最中の徳田です。
引っ越した先で団子屋を探しています。最近は柔らかい物が増えて、なめら
かプリンとか、フワフワロールケーキとか、団子も軟弱な物ばかりで、イカン
です。団子は少し歯ごたえがある物がいいに決まっているぅ!
ということで、団子屋探しの旅が続きそうです。
----------------------------------------------------------------------
CLの話ですが、もうちょっと自然言語処理の話です。
----------------------------------------------------------------------
自然言語処理の話はとても難しく思われるようなので、少し、例を挙げて、
どんな風に役立つ物なのかを示します。
自然言語処理の代表的な例は、皆さんがパソコンでメールを使うときに必ず
使っている「仮名漢字変換」です。ひらがなを入力して、漢字に変換する、ア
レです。うまいこと漢字に変換するために、30年ぐらいの技術の蓄積がありま
す。なんとなく変な変換をすることもありますが、それでも今のレベルに到達
するまでは、たくさんの人の研究成果と、地道な努力があります。
Googleの検索技術も、ある意味、自然言語処理です。ただ、Googleの場合は
スゲー天才が一気にやっちゃった感があるので、伝統的な自然言語処理屋さん
は、なんとも複雑な気持ちがあるようですが。自然言語と言うより、統計処理
だよ、なんて意見もありますし。
ま、そんな内輪もめはさておき、手話と自然言語処理を結びつけるのは、今
までも度々出ている、機械翻訳です。手話を入力すると日本語になる、とか、
その逆に日本語を入力すると手話になる、という夢のような話です。
本当にできるのか? と言われると、すぐには無理とは思いつつも、10年後ぐ
らいにはなんとなくできるのではないかと思うのですが、今、話題にしている
格フレームは、この機械翻訳の基礎技術だと考えれば間違いないです。
----------------------------------------------------------------------
では、格フレームをどうやって翻訳に使うのか?
まずは「日本語->手話」の流れで説明します。
伝統的な自然言語処理の方法で、日本語文を入力すると、単語に区切ること
は、技術の蓄積があるので、すごく今では楽にできるようになりました。
例えば、以下の例文を単語に区切ると、
「彼はタイヤに付いた泥を払った」
こうなります。
「彼/は/タイヤ/に/付いた/泥/を/払った」
もちろん、こんなことをやる前には、どでかい辞書を作ってあって、賢いプ
ログラムも作ってあります。こういう処理を「形態素解析」と言います。細か
く区切った単語を「形態素」と呼びます。
さて、なんで、そもそも形態素解析なんてことをするのでしょうか?
それは、この後の処理が楽になるからです。文全体を一気に相手にするより
は分解して、それぞれの単語を相手にした方が楽だというわけです。
----------------------------------------------------------------------
さて、単語、いや形態素と言いましょう。文を形態素に分割しました。
日本語を手話にするのであれば、それぞれの形態素を手話に変換していかな
ければなりません。
やることは単純です。それぞれの形態素を日本語から手話に変えていくだけ
です。
ただ、ここでちょっとやっかいな問題があります。このメルマガは日本語で
書いているので、「手話に変換する」ということが正確には書けないのです。
動画をWebに置いておいて、皆さんに見てもらうという方法もできなくはない
ですが、私もそこまでの時間がありませんし...
ということで、ちょっとややこしいですが、以下では特に手話であることを
強調するときには《》という記号を使います。《東京》とあったら、手話の東
京を示すと思って下さい。両手で「L」を作って、上下する、あの手話です。
たぶん、それほどややこしくなくわかってもらえると思いますが。
----------------------------------------------------------------------
で、話を戻します。
例文の「彼/は/タイヤ/に/付いた/泥/を/払った」を手話にします。
まずは、構文(とりあえず文法と考えてもらってOKです)は考えずに、1対1で
変換していきます。つまり、日本語対応手話ですね。
変換する際に日本手話研究所発行の「日本語-手話辞典」を参考にします。
もし、時間のある方がいたら、あの分厚い辞書と見比べながら読んで下さい。
彼 : 2つ意味があるそうです。とりあえず1つ目の「彼とは仲良しだ」の
意味の《彼》にしておきましょう。
は : 助詞なので、とりあえず変換は後回しにします。今は考えません。
タイヤ: P922に1つだけ載っていました。《タイヤ》です。
に : 助詞なので、「は」と同様に後回しにします。
付いた: これは変化形ですね。原型は「付く」です。なんと辞書では26種類
も載っています。どうするかを後で解説します。
泥 : うーん、困りました。辞典には載っていません。
を : 助詞なので、これも後回しにします。
払った: 先週、調べたとおり、辞典には7つの意味が載っています。
ここまできて、単純に変換しようとして、途中経過は、「彼」と「タイヤ」
ぐらいしか決まっていません。しかも、「彼」は適当に決めました。
ここで話をすごく簡単にするために、助詞は再来週に以降に後回しにしま
す。皆さん、直感的にわかると思いますが、日本語対応手話であれば、助詞の
ことは、後で考えればいいかなぁ、ぐらいの妥協は許してくれるかと思いま
す。もちろん、日本語対応手話が手話なのか、という問題はあります。すごい
おおざっぱですが、まずはそこは目をつぶって下さい。
問題は、「付いた」と「払った」、それと「泥」です。
「泥」は辞書にそもそも載っていないという問題です。これは、私の大学院
の時の論文で、一応、片が付いていて、実は皆さんが手話を使うとき、通訳す
るときに自然と使っている方法で解決できるのですが、それは、これまた再来
週以降に解説します。
----------------------------------------------------------------------
では、「付いた」と「払った」の解決方法です。
まずは、「払った」から。
日本語の自然言語処理技術の蓄積があるので、この単語が動詞であって、活
用形(変化している)ことはすぐにわかります。わかるものだと思って下さい。
というのも、日本語の辞書を引けば、これぐらいのことはすぐにわかります。
「払う」という単語を日本語辞書で引きます。もし、身近に国語辞書があれ
ば、調べてみて下さい。私の手元にある辞書には、「払う(動ワ五)」と書いて
あります。これは、「払う」は、動詞で、ワ行の五段活用であることを示して
います。ワ行の五段活用ということは、
基本形 未然形 連用形 終止形 連体形 仮定形 命令形
払う 払お・払わ 払い・払っ 払う 払う 払え 払え
と変化します。コンピュータ(パソコンと考えてもらってOKです)で処理すれば
「払う」の変化形を全部羅列するのはすぐにできますし、そこで同じパターン
を調べればいいだけですから、連用形の「払っ」であることは瞬間でわかりま
す。
つまり、辞書の情報が全部入っているコンピュータの中では、「払った」と
いう形態素を入れれば、すぐに、原型は「払う」で、連用形で、語尾に「た」
がくっついている、ということがわかります。
さらに、ついでに、国語辞書には意味も載っていますから、「払う」には、
1) 粉末状のものを落とす
2) 人を去られる、いやな気分をすっきりさせる、下宿を去る
3) 代金を渡す
4) 心をある対象に向ける
5) 手足や持った物を横に振る
の5つの意味があることもわかります。辞書によっては、7つとか、3つとか分
類方法により違うかもしれませんが。ここは5つでいきましょう。
さて、ここで大問題。「払った」は、この5つの意味のどれに該当するので
しょう? これを決めることが、「機械翻訳」ということになります。つまり日
本語から手話に変換するということです。細かいことを省くと、これが通訳と
いうことです。(当然、ヨチヨチ歩きの程度の低い通訳です。もっと良い通訳
にする話は、追々やっていきます)
さて、もちろん、元の文を見ている皆さんは、どの意味が正解かは、わかり
ますよね。でも、コンピュータは「払った」の部分しか見えてないわけです。
そして、辞書には5つの意味があるよ、ということは載っていますが、どれが
正解かは、場合によるわけです。「払った」だけを見せられた状態を考えて下
さい。日本人だって、どれが正解はわかりません。情報が不足しているからで
す。
さて、どうするか?
自然言語処理でも、いくつか方法があります。でも、このシリーズの流れか
らして、ここで格フレームの登場です。
----------------------------------------------------------------------
実は、この続きは先週書いていますが、おさらいの意味もこめて、また来週
のお楽しみに書きたいと思います。
では、次回の語ろうかをお楽しみに。
----------------------------------------------------------------------
このメールマガジンは、インターネットの本屋さん『まぐまぐ』 を利用して
発行しています。http://www.mag2.com/ (マガジンID: 0000038270)
----------------------------------------------------------------------
■登録/解除の方法
メールマガジン「語ろうか、手話について」は、以下のURLよりいつでも
登録/解除可能です。
http://www.mag2.com/m/0000038270.htm
http://www.rr.iij4u.or.jp/~tokudama/kataro/
■バックナンバーの参照
http://www.rr.iij4u.or.jp/~tokudama/kataro/
http://backno.mag2.com/reader/Back?id=0000038270
■掲示板
http://www64.tcup.com/6411/tokudama.html
補助的な情報を掲載しています。編集者への連絡はMailをお使い下さい。
■苦情、文句、提案、意見など
Subjectに[kataro]を入れて、以下のアドレスまでMailをお送り下さい。
個別には返事ができないかもしれませんので、ご了承下さい。
tokudama@rr.iij4u.or.jp
======================================================================
○メールマガジン「語ろうか、手話について」(月1回以上 発行)
発行: 手話サークル活性化推進対策資料室
編集: 徳田昌晃
協力: 五里、おじゃまる子、くぅ(ヘッダ作成)
発行システム: インターネットの本屋さん『まぐまぐ』http://www.mag2.com/
マガジンID: 0000038270
■意見、文句、提案、投稿は、居住都道府県名と氏名(匿名可)を添えて
tokudama@rr.iij4u.or.jpまで送って下さい。
■メールマガジン「語ろうか、手話について」は、著作権は徳田昌晃に所属し
ますが、基本的には転載・複写自由です。有効にご活用下さい。
======================================================================


