サラ副チャンネルをご覧の皆さま
こんにちは。本日は、日本ディープラーニング協会G検定合格のための方法をお伝えします。
はじめに
この本の使い方
G検定は、自宅受験であり、試験中に問題に関する情報を調べることが禁じられておりません。
このページの使い方として、試験本番中は、このサイトをアクティブにして、試験に臨んでください。
そして、試験で分からないことがでてくれば、検索機能(Ctrl+F)で、その言葉を調べてください。
このサイトでは、G検定の公式サイトに掲載されているシラバスに沿って説明します。
免責
このサイトに記載された内容は、情報の提供のみを目的としています。したがって、本サイトを用いた運用は必ずお客様自身の責任と判断によって行ってください。これらの情報の運用の結果について、著者はいかなる責任も負いません。
また、このサイトの情報は、2020年1月現在のものを掲載しておりますので、ご利用時に変更されている場合もあります。
人工知能とは
人工知能の大まかな分類(白本のp5)
■レベル1・・・シンプルな制御プログラム(エアコンの温度調整、洗濯機の水量調整など)
■レベル2・・・古典的な診断プログラム
■レベル3・・・機械学習を取り入れた人工知能
■レベル4・・・ディープラーニングを取り入れた人工知能
人工知能ブーム(白本のP9)
■第1次AIブーム年代:1950~60年代背景:コンピュータが登場し始めた。
※トイプロブレムの問題・・・迷路や数学の定理のような簡単な問題は解けても、複雑な現実の問題は解けない。
※終焉のきっかけ・・・このトイプロブレムの問題により、第1次AIブームは終了する。
■第2次AIブーム年代:1980年代背景:家庭にコンピュータが普及。
※エキスパートシステム・・・データベースに大量の専門知識を詰め込んだシステム
※終焉のきっかけ・・・専門家の知識の定式化が難しく、複雑な問題を解けなかった。
■第3次AIブーム年代:2012年代以降(2000年代以降とも)背景:インターネットやクラウドが普及
※ビッグデータを用いることで自ら知識を獲得する機械学習が実用化され、特に知識を定義する特徴量を学習するディープラーニングが登場した。
人工知能をめぐる動向
探索・推論
■探索木・・・場合分けでゴールを見つける手法。幅優先探索と、深さ優先探索とがある(白本のp18~p22)
幅優先検索・・・長所は、最短距離でゴールにたどり着く。短所は、メモリ不足になる場合がある。
深さ優先探索・・・長所は、メモリ不足にならない。短所は、運が悪ければ、時間がかかる。
■探索木を使ってハノイの塔というパズルを解くことができる(白本のp22)
■ロボットの行動計画も探索木を利用して作成できる(プランニングと呼ばれる)(白本のp24)
■ディープマインド社が開発した囲碁プログラムAiphaGo(アルファ碁)
■コストの概念を取り入れられる。コストは、たとえば、有利または不利を示す点数のようなもの。利用される知識は、ヒューステリックな知識と呼ばれる。
■Mini-Max法・・・囲碁などのゲーム戦略は、Mini-Max法と呼ばれる手法が用いられる。自分が指すときには、ス コアが最大となるように、相手が指すときには、スコアが最小となるように戦略を立てる。
●Mini-Max法による探索をできるだけ減らす方法をαβ法と呼ぶ。
●βカット・・・スコアが小さいノードが出てしまった場合には、そのノードを探索対象から外す。
●αカット・・・逆に、すでに出現したスコアよりも大きいノードが現れた時点でその先につながるノードの探索を辞める
■モンテカルロ法・・・コンピュータが2人の仮想的なプレイヤーを演じて完全にランダムに差し続ける方法でゲームをシミュレーションする方法。ゲームを終局させることを「プレイアウト」という。また、ブルートフォース(力任せ)で押し切る方法ともいわれる。
■人工無能・・・特定のルールに基づいて、会話を機械的に処理するだけ。チャットボット、おしゃべりボットなど
●エライザ(ELIZA)・・・人工無能の元祖、ジョゼフ・ワイゼンバウムによって開発された。エライザは、話し手(人間)の会話をおうむ返しで発言しているので、一見すると会話しているように思えきすえる(エライザ効果)
●エライザの後にPARRY(パリー)が開発される
■エキスパートシステム
●MYCIN(マイシン)・・・エキスパートシステムとして最も影響力が大きかったもの
●DENDRAL
■意味ネットワーク・・・概念をラベルの付いたノードで示したもの
通常、「is-a」の関係、「part-of」の関係などがある。
例 「人間」と「哺乳類」との関係は?→人間 is-a 哺乳類
「目」と、「頭部」との関係は?→目 part 0f 頭部
■Cycプロジェクト・・・全ての知識を一般常識をコンピュータに取り込む
■オントロジー・・・言葉の定義など形式化し、それを用いて新たな知識の創出、共通の様々な局面に役立てようという試み
●ヘビーウェイトオントロジー(重量オントロジー)・・・構成要素や意味的関係の正当性について哲学的な考察が必要となるためどうしても人間がかかわることになる傾向が強い。
●ライトオントロジー・・・完全に正しいものではなくても使えるものであればいいという考えからその構成要素の分類関係の正当性については深い考察は行わない。
■ILSVRC(Imagenet Large Scale Recognition Challenge)
要はAIの性能を競う大会
●ILSVRC2012・・・ジェフリーヒントン率いるチームがAlexNe(8層)で圧勝
●ILSVRC2014・・・GoogleNet(22層)が優勝
●ILSVRC2015・・・ResNet(152層)が優勝
人工知能分野の問題
AIの問題一覧
■トイプロブレム・・・迷路や数学の定理のような簡単な問題は解けても、複雑な現実の問題は解けない。
■フレーム問題・・・今しようとしていることに関係のあることがらだけを選び出すことは難しい。
■チューリングテスト・・・人工知能ができたかどうかを判定する方法。別の場所にいる人間がコンピュータと会話し、相手がコンピュータだと見抜けなければ、コンピュータに知能があると判断する手法。アラン・チューリングが開発。
■強いAIと弱いIA
強いAI・・・適切にプログラムされたコンピュータは人間が心を持つのと同じ意味で心を持つ。また、プログラムそれ自身が人間の認知の説明である。
弱いAI・・・コンピュータは人間の心を持つ必要はなく、有用な道具であればよい。
■中国語の部屋
部屋の中に、中国語のマニュアルと、中国語がわからない人とがおり、この人に中国語の質問をすると、この人は意味も分からず、このマニュアルを読んで答えを返すというもの。したがって、チューリングテストに合格しても本当に知能があるかどうかはわからない。
■シンボルクラウンディングシステム
記号(シンボル)と、その対象がいかにして結びつくかという問題です。
たとえば、
人間・・・シマという言葉と、ウマという言葉とを聞くと、「シマウマ」を思い出す。
機械・・・シマという言葉と、ウマという言葉とを聞いても「シマウマ」に想定されない。
■シンギュラリティ(技術的特異点)・・・・人工知能が十分に賢くなり、自分自身よりも賢い人工知能を作るようになった瞬間、無限に知能の高い存在を作るようになり、人間の想像力が及ばない超越的な知性が誕生するという仮説です。以下に色々な人の意見を示します。
●レイ・カールワーツ・・・シンギュラリティは2045年に到達する。
●ヒューゴ・デ・ガリス・・・人工知能は、人間の知能の1兆の1兆倍になると主張
●イーロン・マスク・・・非営利のAI研究組織OpenAIを設立した。
●オレン・エツィオーニ・・・コンピュータが正解制覇するとはばかげていると主張
●ヴァーナー・ヴィンジ・・・シンギュラリティを、「機械が人間の役に立つふりをしなくなること」と定義。
●スティーブン・ホーキング・・・AIの完成は、人類の終焉を意味するかもしれないと主張
■誤差逆伝播法・・・モデルの予測結果と実際の正解値との誤差をネットワークに逆向きにフィードバックさせてネットワークの重みを更新する。
■勾配喪失問題・・・シグモイド関数の微分値は最大で0.25であることから、誤差逆伝播法を使用すると、フィードバックすべき誤差がなくなってしまう問題
■バーニーおじさんのルール・・・モデルのパラメータ数の10倍の数が必要
■勾配降下法(白本のp144)の問題
局所最適解・・・見せかけの解
大域最適解・・・本当の解
鞍点・・・ある次元から見れば極小であるものの、別の次元から見れば極大となってしまう。
→一度、鞍点に付近に陥るとそこから抜け出すことは困難であり、このように停留状態となることをプラトーという。
■次元の呪い・・・データの次元が増えることにより様々な不都合が生じること
■みにくいアヒルの子定理・・・機械学習で「みにくいアヒル」と、「普通のアヒル」とは区別できない
■モラベックのパラドックス・・・高度な推論よりも1歳児レベルの知能スキルを身に着ける方が難しい
機械学習の具体的手法
機械学習には、教師あり学習と、教師なし学習と、強化学習とがある。
■教師あり学習
例として、
・過去の売り上げ(教師)から、将来の売り上げを予測する。
・既存の動物の画像(教師・・・)を用いて、与えられた動物の画像を識別する。
●線形回帰・・・横軸が身長、縦軸が体重の関係を示す線形の関数(Y=AX+B)を取得し、新しく身長のデータが来たときにこの関数を用いて体重を求める。
線形回帰の中でも
・ラッソ回帰・・・L1正則化を適用する手法。L1正則化とは、一部のパラメータの値をゼロにすることにより、特徴選択を行うことができる
・リッジ回帰・・・L2正則化を適用する手法。パラメータの大きさに応じてゼロに近づけることで、凡化された滑らかなモデルを得ることができる。
●ロジスティック回帰・・・分類を行うための処理(既存の動物の画像(教師・・・)を用いて、与えられた動物の画像を識別す)。ロジスティック関数では、シグモイド関数を使う。
●ランダムフォレスト・・・特徴量をランダムで決定するとともに、このランダムに決定された特徴量に基づいて複数の決定木を作成する。
●アンサンブル学習・・・複数のモデルで学習させること
●バギング・・・全体から一部のデータを用いて複数のモデルを並列に学習させる方法
●ブースティング・・・全体から一部のデータを用いて複数のモデルを逐次的に学習させる方法
●サポートベクターマシン・・・各データ点との距離が最大となるように境界線をも求めることで、パターン分類を行う。距離を最大化することを「マージン最大化」という。
■教師なし学習
●k-means法
●主成分分析(Principal Component Analysis:PCA)
■手法の評価交差検証・・・手元にある全データを、学習用のデータ(訓練データ)と、評価用のデータ(テストデータ)とに分けて、作成された機械学習を評価する。
・ホールドアウト検証・・・訓練データとテストデータとを1回分ける。
・k-分割交差検証・・・・・訓練データとテストデータとを複数回分ける。
■評価指標(白本のp108)
TP:真陽性、TP:偽陽性、FN:偽陰性、TN:真陰性とすると、
正解率=(TP+TN)/(TP+TN+FP+FN)
適合率=TP/(TP+FP)
再現率=TP/(TP+FN)
F値=(2×適合率×再現率)/(適合率+再現率)
オーバーフィッティング・・・訓練データのみ通用するモデルとなること
アンダーフィッティング・・・正則化をしすぎてしまって、全体の凡化性能が低下すること
ディープラーニングの概要
■オートエンコーダ・・・可視層と隠れ層の2層からなるネットワーク。入力層と出力層とがセットになっている。
■積層オートエンコーダ・・・オートエンコーダーを積層したもの
■ファインチューニング・・・オートエンコーダを積層して、さらに重みの調整を行うこと
■深層信念ネットワーク・・・教師なし学習に制限付きボルツマンマシンという手法を用いた。
■CPU・・・演算処理装置
■GPU・・・画像処理に最適化されたもの
ディープラーニングの手法
用いられる関数の種類(具体的な関数の形は、p138~p143)
■シグモイド関数・・・微分の最大値が0.25
■tanh関数・・・微分の最大値が1であり、勾配が焼失し難い
■ReLU関数・・・tanh関数に代わり、現在最も多く使用されている関数。学習がうまくいかない場合もある
■ソフトマックス関数・・・分類問題で出力層付近で用いられる。
■ドロップアウト・・・重み更新の際に一定の割合でランダムに枝を無効化すること
■CNN・・・画像をのそのまま2次元で入力に用いることができる。
■RNN・・・時系列を反映できるモデル。
■LSTM・・・RNNの改良版。入力ゲーム、出力ゲート、忘却ゲートがある
■強化学習・・・行動を学習する仕組み
・Q学習
・DQN・・・Q学習にディープラーニングを組み合わせているもの
■画像生成モデル
●変分オートエンコーダ(VAE)
●敵対的生成ネットワーク(GAN)・・・画像を生成するジェネレータと、その画像が本物かどうかを予測するディスクリミネータがある。
●R-CNN
■特徴マップのサイズの算出
●特徴マップの幅・・・{(入力画像+パディング×2-フィルタの幅)/スライドの幅}+1
●特徴マップの高さ・・・{(入力画像+パディング×2-フィルタの高さ)/スライドの高さ}+1
ディープラーニングの研究分野と応用
■AI技術に関するプラットフォーム
Kaggle(カグル)・・・データ解析のコンペティションなどのディスカッションが行われるプラットフォーム
Google Scholar・・・学術論文の検索エンジン
Coursera(コーセラ)・・・世界中の大学の講義を受講できるオンライン講座
arXiv(アーカイブ)・・・研究論文の公開・閲覧ができるWebサイト
OpenAI Gym・・・自分で制作した強化学習用アルゴリズムを試験できる
■人物関連
●ジェフリー・ヒントン・・・ディープラーニングの父。今は、トロント大学の教授で、Google Brainプロジェクトの研究者でもある。2006年にはオートエンコーダや深層信念ネットワークという手法を提唱。ディープラーニングの基礎を築く。2012年には人工知能を用いて画像の認識力を競うコンテスト、「ILSVRC」ではディープラーニング(AlexNet)を用いて圧倒的に優勝する。
●アラン・チューリング・・・人工知能ができたかどうかを判定するテストである「チューリングテスト」を提唱。別の場所にいる人間がコンピュータと会話して、相手がコンピュータだと見抜けなければ知能があるとする。
●アンドリュー・ング・・・「Google Brain」や「coursera」の立ち上げにたずさわる。今はBaidu研究所に勤務。
●ヤン・ルカン・・・Facebookの人工知能研究所やニューヨーク大学に勤務。LeNetと呼ばれる有名なCNNモデルを考えた。手書き数字を集めたデータセット「MNIST」を作った。GANを高く評価した。
●レイ・カーツワイル・・・未来学者で「シンギュラリティ」という人工知能が人間よりも賢くなる年が来ることを予見する。
●ジョン・マッカーシー・・・パトリック・ヘイズとの共同論文でフレーム問題を提唱。余談だが、LISP言語を作った人。
●ジョセフ・アイゼンバウム・・・人工無能として有名な「ELIZA」を書き上げた人。
●ジョン・サール・・・強いAI・弱いAIという用語を作った人。中国語の部屋という思考実験をする。
●ロジャー・ペンローズ・・・『皇帝の新しい心』という著書の中で「強いAI」は実現できないと主張。
●ダニエル・デネット・・・フレーム問題の難しさを伝えるために、ロボットのたとえを挙げた。
●スティーブン・ホーキング・・・「人工知能の進化は人類の終焉を意味する」と発言。
●イーロン・マスク・・・人工知能を研究する非営利団体の一つである「Open AI」の創業者の一人。人工知能に対して「人工知能にはかなり慎重に取り組む必要がある。結果的に悪魔を呼び出していることになるからだ。」という脅威論を述べる。
●オレン・エツィオーニ・・・人工知能に対して「コンピュータが世界制覇するという終末論的構想は『馬鹿げている』としか言いようがない」と発言し脅威論をけん制した。
●福島邦彦・・・CNNの原型ともいえる、単純型細胞と複雑型細胞の2つの細胞の働きを組み込んだモデルである「ネオコグニトロン」を提唱。
●アーサー・サミュエル・・・機械学習を「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義した。
●イアン・グッドフェロー・・・生成ネットワークと識別ネットワークからなる教師なし学習手法である敵対的生成ネットワークを提唱した。ヤン・ルカンはGANについて「機械学習において、この10年間で最も面白いアイデア」であると評価した。
●デミス・ハサビス・・・DeepMindの設立者。