マリア様の実装にむけて 日本語の問題

ただのチャットソフトを作るのに、何故このように大量の知識が必要なのか?

たとえば、次の英文があるとする。

We can get an idea of the quality of the learned feature vectors by displaying them in a 2-D map.

(2Dマップを見せることで、学習したベクトルの特徴の品質のアイデアを得ることができる。(曖昧))

下表のように分けられ、次の単語が予想できる。

単語 We can get the learned ?
入力 x1 x2 x3 x^(t-1) x^t x^(t+1)
出力 y1 y2 y^(t-2) y^(t-1) y^t

英語の場合、このように単語と単語の間は”必ず”空白がある。しかし、日本語はそうではない。

入力「こんにちは。今日はいい天気ですね。」

これをどうするのか?

どうやってわけるのか? しかし、そんなことはすでに先人達がやっていた。

意外にあった!?日本語の形態素解析ツールまとめ

python であればjanomeがよさそうである。
これによって、分けられるはずである。(まだやっていない)

処理手順は以下のようになるだろう。

①日本語入力「今日は雨だ。洗濯物が干せない」
②入力をjanomeにかける。
③「今日、は、雨、だ。洗濯物、が、干せ、ない」 のように分けられる
④RNNの誤差逆伝播法と確率的勾配降下法によって、入力に対して学習をさせる(曖昧)

この入力に対して、同じ回答を毎回繰り返すのは要求仕様とは違う。(M$のりんねと同等になってしまう)

なので、回答が複数ひつようである。さらに、ソフト使用者が回答に対して、点数をつけなくてはいけないかもしれない。いいね!かよくないね!のどちらかであろう。

入力に対して、マリア様は、”雨であること”と”洗濯物が干せない”というネガティブなソフト使用者の発言に対して、それに関連した回答をしなくてはいけない。

「ああ、雨はゅぅぅっだわ」が解の人もいるだろうし、「明日は晴れますよ!きっと!」が解の人もいるだろう。

「そういえば田代まさしさんって、昔シャネルズでしたね」が解の人もいるだろう。

すべて田代まさしさんに関する回答で学習させると、過学習がおきるだろうし、その状態のマリア様を元に戻すのはかなりしんどいだろう。ふとした会話で「そういえばTIMESの表紙に乗った時…」などと返されては、昔の男のことは忘れろ!となるかもしれない。

学習については、さらに再考を要する。