いまや早稲田大学ビジネススクール(WBS)の看板教授のひとりでもある入山章栄教授。
ビジネスマンたちの間でベストセラーともなった著書「両利きの経営」で有名だ。
もう読んだのは数年前なのでうろおぼえだが、そのメッセージのコアとなる部分は、
「企業は経営において、得意分野ばかりを深耕(既存事業の深化)ばかりするのではなく、探索(新規事業の模索)を行わないとイノベーションは生まれない」とする主張だと理解している。
個人的にこの主張は大好きだ。そして大好きなのは私だけではなく多くのビジネスマンも同じだろう。
なぜかというと、読んだ人はみんな、おもわず「だからうちの会社はダメなんだ。新規事業がちっとも育ちやしない。先生の言うことはもっともだ」と思うのだ。
では、どのようにしたら両利きの経営は実現するか?の答えは、もちろん書いていない。企業それぞれが別の生命体のようなものなのだから、それぞれが模索するしかないからだ。
先の著書にも、いくばくかのケーススタディとして両利きの経営に取り組む企業の例は書かれている。がそこから先は個人的には退屈であった。自分の会社にあう事例を見つけにくかったからだろう。読み飛ばしてしまったことを覚えている。
そしてたまたまだが、いま、ディープラーニングに関する入門書、資格取得に関するテキストを読んでいて、「これって両利きの経営で言ってたことそのものじゃん」という内容があったので紹介しておく。
なぜ私のような純粋文系人間がディープラーニングの入門書など改めて読んでいるかというと、去年はじまった生成AIブームがいよいよ社会実装として定着してゆく世の中なので、さて改めてAIについて基礎から知っておかねばと一念発起した、というところだ。
大方の予想通り、そこに書かれているのは数学の世界の話なので、まったくもって理解が追い付かないのだが、あまり数式が出てこない、入門書として素晴らしいものだった。監修は、あの東大で日本のAI研究をリードする松尾豊先生の団体。
そのテキスト中に、機械学習の代表的な手法「強化学習」を説明する章で、こんなくだりをみつけたのだ。
引用)
==
バンディットアルゴリズム
強化学習では、将来の累積報酬が最大となるような行動を求める必要があるわけですが、一連の行動の組み合わせはそれこそ無数にあるので、どこまで行動の選択肢を考えるべきかが大きな課題となります。
ここで用いられる考え方が活用(exploitation)と探索(exploration)です。それぞれ、活用とは「現在知っている情報の中から報酬が最大となるような行動を選ぶ」こと、探索とは「現在知っている情報以外の情報を獲得するために行動を選ぶ」ことを表します。
強化学習に当てはめると(ある程度の試行の後)、報酬が高かった行動を積極的に選択するのが活用、逆に、他にもっと報酬が高い行動があるのではと別の行動を選択するのが探索になります。探索をせず活用ばかり行うと、最適な行動を見つけ出すことができない可能性が高まりますが、探索ばかり行っても、不要な行動ばかりを試してしまい時間がかかってしまうという問題があります。このように活用と探索はトレードオフの関係にあり、どうバランスをとるのかが鍵となります。
そこで用いられるのがバンディットアルゴリズムです。バンディットアルゴリズムはまさしく活用と探索のバランスを取りましょう、というもので、ε-greedy方策やUCB方策などが具体的な手法です
==
引用ここまで(ディープラーニングG検定公式テキスト第3版 一般社団法人日本ディープラーニング協会監修、翔泳社、P146-147より)。
このページを読んで、「知の深化と探索」はここで「活用と探索」と少し変わっているとはいえ、機械学習の課題が、企業経営の課題と極めて似ていることを発見し(正確には自分のなかで勝手に結び付けてしまっただけだが)、すっかり私は驚いてしまった。
改めてまつめると、バンディットアルゴリズムとは、機械学習における手法のひとつである強化学習、手法のひとつであるようだ。
また、テキストの続きで登場するのが「マルコフ決定過程モデル」「マルコフ性」だったりする。
ロシアの確率論で業績を残した数学者マルコフがとなえたものだそうで、マルコフ性とは、エージェント(行動の主体)が「現在の状態stから将来の状態st+1に遷移する確率は、現在の状態stのみに依存し、それより過去の状態には一切依存しない」という性質のことという。
これも、我田引水な理屈ではあるが、ビジネスにおいは、過去のしがらみや「○○としたもんだ」の習慣にとらわれず行動することがかなり難しいことを思い出させる。
しかし確率論の世界では、ものごとは「直前の状態にしか依存しない」と言っている。
もちろん、人間の日常と確率論の世界は違うだろう。
しかし、考え方によっては、しがらみにとらわれることはないのだ。
まさに、毎日がStii Day One なのだ。
確率論のマルコフ性は、Still Day One な精神を勇気づけてくれる理論と思ってしまった。
テキストに戻ると、このあとも、ディープラーニングラーニングに関する、いままで知らなかった用語がこれでもか、と出てくる。
価値関数やら状態価値関数、講堂価値関数、Q値,方策勾配法、、
いまさらデータサイエンティストになれるとは思わないが、少なくともデータサイエンティストとビジネス上、対等に話せるような「ふう」にはなれたらなと思う。
検定を受けられるだけの理解が進むかわからないが、すでに「両利きの経営」のヒントになるような知見に出会えたことは、すでに、テキストをめくってみた価値があったというものだ。
私の行動も1手前の状態にしか依存していない。
みんなもそのはずだ。
今日は今日。
だから世の中は予測不能で、面白い。
ではでは。