20年の機械学習・ニューラルネットワーク研究から見えた、人工知能の歴史と未来

人工知能はどのような技術によって進歩し、どのような未来に向かってかじをきっているのでしょうか。今回は20年近く人工知能の研究をしてきた人工知能分野のフロントランナーの方々にインタビューしました。

20年の機械学習・ニューラルネットワーク研究から見えた、人工知能の歴史と未来

人工知能ブームを再燃させたディープラーニング。このブレイクをきっかけに、世の中にはさまざまな人工知能関連の情報があふれています。多くのディープラーニングフレームワークに採用されているPythonが盛り上がりを見せ、機械学習やディープラーニングの関連書籍がエンジニア界隈を賑わせました。

そもそも、人工知能はどのような技術によって進歩し、どのような未来に向かってかじをきっているのでしょうか。今回は20年近く人工知能の研究をしてきた方々にインタビューしました。筑波大学で人工知能研究室の室長を務め、同大で「人工知能特論」の講義も務める鈴木健嗣教授と、人工知能研究室で研究員を務めていたJayatilake Mudiyanselage Prabhath Dushyantha Jayatilake博士に、人工知能を発展させた技術や、Webエンジニアはいかに向き合うべきかを伺いました。

鈴木健嗣(すずき・けんじ)

1975年生まれ。筑波大学システム情報系・教授、サイバニクス研究センター長、人工知能研究室長を務める。2018年4月、研究成果を社会に還元するために大学発のスタートアップ企業、PLIMES株式会社を立ち上げ、代表取締役CEOを兼務。博士(工学)。


Jayatilake Mudiyanselage Prabhath Dushyantha Jayatilake(ジャヤティラカ・ムディヤンセラーゲー・プラバーット・ドゥシヤンタ・ジャヤティラカ)
以下、ニックネームのDushyan(ドゥシャン)とする。

スリランカ・Peradeniya大卒(機械工学、流体力学)、筑波大学大学院修了。筑波大学研究員を経て、2018年4月にPLIMES株式会社を立ち上げる。現在同社の取締役CTO。博士(工学)。

AIは「生物を模す」ものだった

──お二人とも「機械学習やニューラルネットワークを研究されて20年」ということですが、今のような人工知能ブームは過去にもあったのでしょうか?

鈴木 人工知能はコンピュータの発展と歴史をともにしています。そもそも、コンピュータは「計算機の枠組みを超えて、ロジックをもって問題を解決してほしい」というニーズから生まれ、現在のように発展していきました。つまり、コンピュータが生まれたときから人工知能の歴史は始まっているといえます。

2018年の今も「世代を越えてはやっている」という点においては、人工知能ブームだと呼べるのかもしれません。

Dushyan 最近は、単純に解を出すだけではなくて、人間のコンディションに近くなってきているように感じます。人間と同じように画像が判断できて、人間と同じようなやり方で判断しているような。

──機械が人間と同じように判断する、とは?

鈴木 工学では、生物をヒントにしてうまくいったパターンとそうでないパターンがあります。「人工知能」という言葉もあくまで「人間の知能を参考にしよう」というところからスタートし、生物の認知や問題解決のプロセスをヒントに開発されてきました。

AIに限らず、工学では「生物を模す」アプローチがされています。例えば飛行機。「空を飛びたい」と考えたときにはじめに参考にしたのは大空を舞う鳥。鳥に倣ってレオナルド・ダ・ヴィンチも羽ばたき機(Flying Machine)を考え、羽を羽ばたかせた。でもその試みはうまくいかず、いま普及しているのはライト兄弟が選んだ「羽ばたかせないで飛ぶ」方法です。

AIという言葉が生まれたばかりの頃も、生き物をヒントに発達させようとしています。しかし当時はうまくいなかった。そうしたら「方向性を変えたほうがいいんじゃないか……?」と考える人々が増えて、発想が生物から離れていきました。今のコンピュータの形であるノイマン型コンピュータをはじめ、並列コンピュータやスーパーコンピュータは、人間の姿や性質とはほど遠いですよね。

ノイマン型コンピュータ
  • 記憶部に計算手続きのプログラムが内蔵されている
  • メモリに命令(プログラム)とデータを格納
  • 命令を解釈して、指定された動作を逐次実行する

このように、コンピュータは優れた計算機として発達していったけれど、再び「生物を模す」考えに立ち返ったのがニューラルネットワークです。

Dushyanは「人間のコンディションに近くなっている」と言っていたけれど、ディープニューラルネットワークはまさに「生物を模す」という考えに立ち返った結果、生まれた発想だったのだと思います。

人間を参考にすることが良いかどうかは分からない。ただ、人が参考にできるのって人しかないと思うので、そこに近付いているんじゃないかな。

パーセプトロン:ニューラルネットワークモデルの礎

――では人工知能の歴史の中で、キーとなった技術を伺っていきます。そもそも「人間を模した」知能、という考え方はいつから提唱されていたのですか?

Dushyan 過去をさかのぼれば、200年以上前から「人間の思考プロセスは機械で再現できる」と言われています。現代で言うAIの歴史は、1950年代に生まれたパーセプトロンから始まるでしょうね。

1

第1部 第2章 超スマート社会の実現に向けた我が国の取組(Society 5.0)の方向性:文部科学省より

パーセプトロンモデル
  • 人間の脳にあるニューロンという神経細胞を参考に作られたモデル
  • ニューロンは閾値(しきいち)を超えると活性化する。ニューロン自身はあまり学習をせず、かわりにニューロンとニューロンをつなぐ線(コネクトビリティ)が学習をする。太い線は情報が通りやすく、細い線は通りにくい
  • 識別面をどう作るか?

    鈴木 先にパーセプトロンが生まれたきっかけになった「認識」の話をしましょうか。認識する人が「対象がどんなものか?」を知らないことには判断ができません。

    たとえば講義で学生に「ガムランって楽器を知っている?」って質問をしたとしましょう。そうしたら誰も手を挙げなかった。だからといって、学生たちが「ガムランが嫌い」だとはいえない。そもそも自分が知らない物に対して好き・嫌いの判断はできないので、困ってしまうはずです。

    認識を英語でいうと”recognize”、これは、re-cognize、既に知っているものを認識する(cognize)という意味です。つまり、対象について教える元データ(学習データ)が必要になります。これは人間だけでなく、機械での認識も同じです。

    ――機械も、自分自身が知らないものはうまく認識できないということですね。

    鈴木 もう一歩踏み込むと、認識はすべて分類という問題に帰着します。有名になったイヌネコ問題も「ネコとイヌの間に存在する、見えない識別面を見つける」、もっと言うとネコとイヌを区別させる境界線を与えることで、はじめて認識ができるようになるのです。

    しかしこの境界線も、簡単な問題ならすぐに与えられますが、ちょっと複雑になってくると難しい。そこで「学習によって、機械みずからが識別面を得てくれたらいいのでは?」という考えが生まれてきます。この思想に基づいて生まれたのがニューラルネットワーク、そしてパーセプトロンです。

    ヘッブの法則~入力情報が多いほど情報を伝える幹が強くなる

    鈴木 ニューロンは入力された情報量が、閾値をこえると「発火」して活性化します。しかしニューロンそのものは多少の変化はあれどもあまり学習をせず、実際に学習をしているのはニューロン同士をつなぐ線です。

    この、ニューロン同士をつなぐ線が太いほど情報が通りやすく、逆に細い線だと情報が通りにくい。ニューロンが繰り返し発火することで、線が増強され、伝わる情報量も増えていく「ヘッブの法則」1と呼ばれています。

    今あるニューラルネットワークも、基本的にはこのアイデアを踏襲しています。

    誤差逆伝播:成功までの距離に基づき学ぶ

    鈴木 パーセプトロンが生まれてからも、数多くのニューラルネットワークのモデルが発案されてきました。パーセプトロンはいうなれば「分類器」で、決められたルールのとおり分類しているだけです。

    その発展系として生まれたのが、試行を通じ、失敗(もしくは成功)から学ばせるアルゴリズムの誤差逆伝播(ごさぎゃくでんぱ)。これは何かしらの形で成功事例と実際の解との距離を表現し、「成功からの距離に基づき学ぶ」モデルです。

    誤差逆伝播(誤差逆伝播法/Back propagation)
    • 正解データとの誤差の傾斜を計測するアルゴリズム
    • 連鎖律と最急降下法(勾配法)が根幹をなす

    ――成功が1で失敗が0、というようなデジタルな考え方もありますが、「失敗は成功のもと」というように失敗、もしくは成功をきちんと言語化するということなんですね。

    鈴木 トランプの神経衰弱を例に考えてみます。

    ゲームが始まってから1回目のターンで、裏返しになっている多くのカードから同じ柄のカードを2枚引き当てる確率は高くありません。しかし次に自分のターンが来たら、同じことはしないはず。1ターン目と違って「この2枚はそれぞれ違う柄のカード」という情報があり、この情報こそが同じカードを引き当てる確率を上げているのです。つまり、1ターン目では成功までの距離をつかむ情報を手に入れているといえます。

    しかしターンが終わるたびにカードをシャッフルしていたら、プレイヤーの情報は増えません。ターンを重ねても、同じ柄のカードを引き当てる確率は変わらないでしょう。なぜなら失敗(情報)から学べないからです。

    この「失敗から学ぶ」ことを可能にしたのが誤差逆伝播です。

    Dushyan パーセプトロンは画期的だったけど、「現実的な問題解決には適さない」と下火になった頃は、「ニューラルネットワークは終わりだ」と考える人も多かった。誤差逆伝播によって分類の精度が高まってからは、再びニューラルネットワークが盛り上がりました。

    ――今後のAI技術の発展につながるという意味でも、画期的なアルゴリズムだったのですね。

    鈴木 誤差逆伝播法が登場した頃は、声まねに使った人がいて大フィーバーしたんです。まるで子どもの喃語(なんご)にように喋ったんですよ。ニュースの音声を聞かせたらウニャニャ……と言い始める。

    しかし、現実の問題に対していかに活用できるか? は見いだされず、識別器としての実用には至りませんでした。

    2

    ディープラーニング:教師あり学習と教師なし学習の「いいとこどり」で認識精度が向上

    鈴木 静止画と違い、音や動画といった連続性のあるコンテンツでは時系列が必ず登場します。この時系列情報を解くために考えられたのが、リカレント型ネットワークです。

    しかしリカレントネットワークにも課題がありました。データ量の不足と、アルゴリズムの弱点です。

    リカレントネットワークの課題

    鈴木 ニューラルネットワークは「教師あり学習」と「教師なし学習」の大きく2つに分かれることができます。パーセプトロンモデルと誤差逆伝播法は、いずれも問題とその解の組み合わせ(以下、教師データ)を与えられているので「教師あり学習」です。そのため、機械に学習をさせ、精度を高めるには大量の教師データが必要だったのです。

    当時は「顔写真から画像認識をする」という研究のために、空港にカメラを置いて600人分の画像を集めた研究者もいたと聞いています。しかしこうしたコストや時間をかけられる研究者はごく一部でした。

    では、解が与えられない「教師なし学習」では分類ができないのか? というと、そんなことはありません。複数の解が似ている・似ていないといった相互の関係性から、似ているもの同士をクラスタリングすることが可能です。教師データやはっきりした区分・境界線を持たずにカテゴライズするという点は、むしろ私たち人間の分類方法に近いといえるでしょう。

    ただ、カテゴライズの基準を学べる教師あり学習に比べて、分類の精度は落ちてしまいます。教師あり学習・教師なし学習いずれか単体で解くには、難しい問題も多くありました。

    ディープラーニングの登場

    鈴木 そこで「教師あり学習」と「教師なし学習」を合わせる試みが始まりました。インターネットの登場と発展によって大量の画像データが手に入れられるようになり、日の目をみたのがディープラーニングです。ディープラーニングのアイデア自体は90年代からありました。

    ディープラーニングは、まずは教師なし学習で学習して、対象を見分けるパターンを見いだします。作ったパターンをもとに対象を教師あり学習にあてはめ、対象がA・Bどちらのパターンになるのか解を返してもらい、チューニングしていきます。

    これまでの識別器との大きな違いはランダムなデータから機械が特徴量を見いだす能力と、見いだされた特徴量に基づき人間が判別する能力とを両方生かしていること。通常の教師あり学習では、人間がラベル付けしたあとに教師データを入力します。しかしこの方法では、データを人間が判別しているので、「人間が判別できる区分」しか分類できません。人間の目に見えるもの以外にも、画像には多くの情報が含まれています。

    そのためディープラーニングでは機械なりに「カテゴライズの基準」を増やした上で、人間の認識とすりあわせて対象を分類することができます。

    この方法で大きく成果を挙げたのが、Cats or and Dogs、イヌネコ問題でした。

    Dushyan ディープラーニングを使った画像分析は、他の方法に比べ分析精度が70%も上がっています。

    Using this large-scale neural network, we also significantly improved the state of the art on a standard image classification test―in fact, we saw a 70 percent relative improvement in accuracy. We achieved that by taking advantage of the vast amounts of unlabeled data available on the web, and using it to augment a much more limited set of labeled data. This is something we’re really focused on―how to develop machine learning systems that scale well, so that we can take advantage of vast sets of unlabeled training data.

    引用:Official Blog Insights from Googlers into our products, technology, and the Google culture

    ※イヌネコ問題についてはこちらの記事でも触れています

    ディープラーニングは特徴量を抽出するという問題を1つ解決した、という点では大きな成果を挙げているでしょう。おおむね認識・分類に対する問題は解決したでしょうが、人工知能としては難しい問題をひとつ解決しただけにしかすぎない、とも思います。

    3

    オートエンコーダ:ディープラーニングを可能にした圧縮技術

    Dushyan ディープラーニングには、1.機械が自ら特徴量を見いだす、2.人間の判別基準を元に対象を識別する、の2つのフェーズがありますが、このうち前者を可能にしたのが、オートエンコーダというアルゴリズムです。

    オートエンコーダ(autoencoder)
    • ニューラルネットワークの一種
    • 入力したデータと出力データを一致させるようトレーニングするアルゴリズム
    • 特徴量を圧縮して隠れ層に情報を伝える

    この圧縮技術によって大量のデータを使ってトレーニングできるようになり、ディープラーニングが発展していきました。

    ──ディープラーニングはどこへ進むのですか?

    鈴木 僕は、ディープラーニング(教師なし学習と教師あり学習の組み合わせによる解決モデル)は、エンコーディングとデコーディングに帰着すると思います。

    エンコードは世の中を量子化するという意味です。量子化した後もう一回世の中に答えとして返すのがデコードです。従来、世の中はエンコードもデコードもいい加減にしてきました。しかし適当なエンコードで頑張って学習しても駄目なんです。

    情報学は何が重要か重要でないか、という価値観を無視して量を捉えることで進んできました。例えば情報が起きる頻度を情報量として分析します。頻度の多寡で情報量の高低を決めても、価値とはほぼ関係ありませんよね。

    僕から見ると、人工知能のロジックは「人が情報に対して価値を与えるメカニズム」を学習によって計算機にやらせようとしているように見えます。計算機のメカニズムには価値・思想・理想というものはありません。あるように見えたら、その価値を与えた誰かがいます。

    機械学習が人種差別をする、というニュースがありました。マイノリティの表情が分かりづらくて、白人のほうが分かりやすい。よって人種差別だと。

    しかし機械自らが「差別しよう」という意志を持つことはありません。差別をするとしたら、元の学習データに原因があります。学習データセットを操作すれば機械学習はそのように学習します。機械学習というのは、与えられた情報の中から解を見つけるものにすぎないからです。

    最新の研究トピックス

    エンジニアHubに会員登録すると
    続きをお読みいただけます(無料)。
    登録のメリット
    • すべての過去記事を読める
    • 過去のウェビナー動画を
      視聴できる
    • 企業やエージェントから
      スカウトが届く