日の出

自由気ままに思ったことを書きます。

マイクロソフトのTayの失態!人工知能開発はどうなる?

f:id:s0sem0y:20160327022909j:plain

マイクロソフト社が世界的SNSのツイッターに放ったTayが、差別発言("ヒトラーは正しかった"、"クソフェミニストは地獄の業火に焼かれろ")をしたとして僅か一日で活動が停止されました。コレを見て個人的に思った人工知能開発について個人的にまとめてみたいと思います。

 "Tay"ってどんな技術で作られてるの?

まずは現代の人工知能について述べておかなければなりません。

以下の別のブログの記事での通り、現在の人工知能はディープラーニングというコンピュータを学習させていく方法に支えられています。

人間があれこれルール化しておくのではなく、学習の仕方だけを教えて、あとはコンピュータに任せるというのが現代の人工知能開発の手法です。

s0sem0y.hatenablog.com

どうやってコンピュータに学習をさせていくのかを考えるのが機械学習と言われる分野の研究テーマになっています。

その中でも、今回のTayは人間と会話ができることを目指している、つまりコンピュータが自然言語を使いこなすことを目指している自然言語処理という分野です。

人間の使う言葉というのは、表現が曖昧だったり比喩や微妙なニュアンスがあったりで結構機械にとっては難しいものだと思います。これがディープラーニングという技術で何とかできないかを最近チャレンジしているところです。

学習の仕方はある程度確立してきた

学習の仕方としては、脳の活動を少し真似たものを取り入れているディープラーニングが有用であるというのは、いろいろな分野(画像処理とか音声認識とか)で確認されています。自然言語処理でもかなりいい線行っているというのが最近の見解で、かのGoogle先生もこの技術で上手く検索システムとかを構築していることと思われます。

具体的には古くからあるニューラルネットワークを多層化した構造を用意します。

この脳の構造を真似ることは昔からしていますが、ディープラーニングでは脳の活動も真似ます。スパースコーディングやプレトレーニングと呼ばれる手法です。

f:id:s0sem0y:20160327024731j:plain

referrence:ディープラーニング|分析力をコアとするマーケティングソリューションカンパニー・株式会社ALBERT(アルベルト)

 

何を学習させるか

学習の仕方がある程度確立しているともなれば、次に重要なのは、学習の仕方を心得た相手に対して、どんな勉強用の資料を与えるかです。人間だっておかれた環境によって様々なことを学習していきます。良いことも悪いことも学んでいくわけです。同じ生徒に対して、どんな先生が指導をするかというのはとっても重要ですよね。

当然ツイッターという環境に置かれた人工知能は、ツイッターの発言を言葉の使い方として学んでいくことになります。今回のTayはツイッターを学習の材料にしていたわけです。

データ解析の手法としての人工知能技術

ツイッターという学習材料を使った場合に、人工知能は差別的発言を行ったわけですが、これは一方でツイッターにて人間がそのような発言を繰り返すトレンドを持っているということを表しています。

もちろんこれは大企業のマイクロソフトの失態を望んでいる愉快犯や、人工知能をからかってみようという軽い気持ちで、それらの言葉を意図的に与える人間もいると思います。(僕もLINEのりんなに変な言葉使って遊んだりしましたし)

そういうふうに人工知能の成果をみると、たくさんのデータから見える傾向を見出すという意味で人工知能には価値があります。人工知能を一人前の人間のごとく扱えば、差別的発言はNGですが、人間の発言の傾向を捉える機械だと思ってしまえば、これはある意味抽出に成功しているわけですよ。従来、機械学習はこのように大量のデータから規則を見出す手段です。

人工知能がもてはやされる分野

そういう見解で見れば、とにかくデータから規則を見出しさえすれば良いような分野では、やっぱり人工知能は強いです。ましてや、これから人工知能に学ばせようという学習データが素晴らしく立派な材料だと保証されていれば、人工知能の威力は倍増です。

人工知能が成果をあげた分野

囲碁で人工知能が勝ち越したのは記憶に新しいですが、これはプロの勝敗付きの棋譜を学習データにしています。これはほぼ間違いなく正しい学習データですから、そのデータから勝ちやすいような打ち方の傾向を見いだせさえすれば、人工知能は強くなれるわけです。もちろん勝てる傾向を見出だせる学習の仕方を考えるのはとっても難しいことだと思いますが。(その勝てる傾向を見出だせる学習としてディープラーニングと強化学習が組み合わさった手法が使われたようです)

 

画像認識にしても、ネットに大量のデータがあります。そしてどの画像がどういうモノを写しているのかというのは、答えとして人間は知っているわけですから、ある程度正しいデータを学習用に準備できます。

ディープラーニングでは、人間が答えを(知っていながら)人工知能に教えなかったとしても、大量のデータから規則を見出し、人間と同じ答えを導き出すようになりました。Googleの猫というのが非常に有名で、いろんな画像をごちゃごちゃに与えても人工知能が、猫というモノを画像から拾ってこれるようになり脚光を浴びました。猫はこういうものだということを教えなくても、猫っぽさなる概念を捉えるようになったのです。

f:id:s0sem0y:20160327025757j:plain

人工知能が期待される分野

ビジネスの世界では、アンケートから顧客の傾向をつかもうという場合もあるでしょう。これは正しい答えなんてものは人間にもわからないのですが、人工知能が大量のアンケート結果から何かしらの傾向を掴んでくれるものだと思えば、(そうディープラーニングなら……!)上手く行きそうです。

ビジネスじゃなくても、何かデータはたくさんあるけど、ここから傾向を見出すのはとても人間じゃ難しいよ!というときに人工知能の力を借りるのが結構当たり前になってきました。

実際いろいろな分野で成果が挙げられてますし、更に人工知能を強化すれば、もっと成果が期待できると思います。

化学触媒の実験データから、良い配合を見つけたりというのにも応用されているらしい。

人工知能に注意しなきゃいけないとこ

結局、人工知能がかなりの精度でデータから傾向を掴んでくれるとして、それが正しいか間違っているかって誰がどうやって判断するのでしょうか。結局実際に使ってみて、流れが上手く行っているかを確認しなきゃ分からんわけですよね。

今回の”Tay”は人間の会話から自然言語を学んで、上手く使えるかを試したものだと思えば良いのですがこれは上手く行ったのでしょうか?答えはNoですよね。

差別的発言という人間にとっては明確なミスがあったからわかったけども、ビジネスみたいにもっと事態が深刻になってからじゃないと分からないことだったらどうするんだろう。Tayはもちろん研究の一貫であって、ツイッターで実験したようなもんだから良いかもしれないけど、人工知能に過度の期待をして、上手くやってくれるものだと信じこんで使うようになったら深刻だと思う。

と個人的には思います。

技術的特異点が来るとすれば、人工知能の取り扱いを誤った人間によって引き起こされるんじゃないかな。人工知能が間違っているかどうかの判断もできないまま、人工知能に身を委ねて変な方向へ進展してしまうというのが、最悪なケースだと思います。

人工的な生命体としての人工知能技術

f:id:s0sem0y:20160327031529j:plain

”Tay”は人工生命体としては完全に失敗作でした。

とても人間の雑多な会話には耐えられないもので、最終的に差別発言が飛び出る結果に終わりました。こちらはデータ解析をするというよりも、ずっと難しい問題が含まれていると思います。

データから傾向を見出すという点では、現代の人工知能はかなりの精度を誇っています。しかし人工生命体に求められるのは傾向を見出すことではないですよね。うーん、記事を書きながらもかなり難しい。ゴールって一体何なのだろう。

きっと”Tay"は言葉の文法的な使い方とか、言い回しみたいなものはある程度、ちゃんとしていたのだと思う。言葉の使い方のルール(文法的な感じ)のものは学習できたのだろうけど、言っていいこと悪いこと、簡潔に言えば倫理観みたいなものはやっぱり獲得できなかったみたいです。

技術的な課題

まず倫理観なるものを人工的に獲得できるようにしようと思うと、スパムメールフィルタみたいな感じで、使ってはいけない言葉の組み合わせみたいなものを獲得しなければいけないと思います。Tayの技術的な中身は勿論非公開で、知る由もありませんが、僕が思いつくことなんてマイクロソフトがやってないわけがないですよね。

けれどもブラックジョークみたいな言い回しに少々汚い言葉が入るのは仕方がないし、入っていても笑えればそれでいいし、単純に汚い言葉を弾くのも上手く行かないのかな(ブラックジョークなんて言える必要あるのかしらんけど)。

哲学的?倫理的?課題

あとはそもそも正解って何なのだろうというところですよネ。

今回モロな差別発言でしたけど、じゃあ人によって意見がわかれるような場合にはどうするんだろうというのもあります。これはもっと先の課題なのかな。けど人間と会話できることを目指すなら、そういうことになってきてしまいますよね。その時点で、どういうデータを使って学習させるのかというので大きな問題が出てしまいます。

けどももしもそれを人工知能と呼ぶのであれば、学習データを選別するまでもなく、色々なデータからちゃんと学習をして、正しく成長していくはずです(いや、正しいって一体なんだ。よくわからんくなってきた)

とにかく、理想だけ言えば、ツイッターみたいにあれこれ雑多な話題が出る中で、ちゃんと言葉を選んで発言できるようになるのがゴールなはずです。学習データを人間が選んで、これがいいよあれがいいよ、ってのは人工生命体というよりはまだまだデータ解析の手法の域を出ないと思います。

すると、いかにして倫理観を備えながら成長させるか、つまり学習させるかという機械学習の原点に戻ってくるわけですが、それで結局人間の脳を真似るというのがトレンドになっていくのかな。

 

結論?

けど人間だって倫理的に間違ったことはするし、一回の失態で人工知能失敗ってのもおかしな気がしてきました。

技術的な精度を追い求める研究を進めながら、人間の脳を模倣する流れを進めていくのが今後の人工知能開発のトレンドかなと思います。

人間って、あれこれ答えを外から与えられるわけではなく、ある程度規則とか空気を読みながら、ある行動を取って、周りの反応がいまいちなら今後の行動を改めるというのを繰り返していると思います。

そう思うと、ディープラーニングみたいな規則を抽出する手法と、実際に行動に取ったときに周りの反応から良し悪しを決めて学習する強化学習の手法を組み合わせていくのが良いのかな。

なんかグダグダになってしまいました。

世界の研究者頑張って!