
深津貴之×バーチャル美少女ねむ対談 メタバースはAIのために、AIはメタバースのためにーーその共振が“世界”を拡張する
2023年。すでに全世界で数百万人もの人々がオンラインの3次元仮想世界「メタバース」に没入し、そこで人生を過ごしている。かつてSF作品で“フィクション”として描かれた仮想空間での生活が今まさに新たな“リアル”になる。その瀬戸際に私たち人類は立っているのだ。 【画像】深津氏は社会実装にも積極的で、「note AIアシスタント」などをすでにサービスインさせている しかし、一方でメタバースはあまりにも発展途上で、それが私たちに何をもたらすのか、まだまだ未知数なのが実情だ。さらに現在、AI・Web3・クリエイターエコノミーなど、新たなテクノロジーの潮流が続々と生まれつつある。 本特集では、実際にメタバースに生きる“メタバース原住民”である「バーチャル美少女ねむ」が、各種先端分野の有識者との対談を通じて、メタバースとテクノロジーがもたらす人類の進化の“その先”に迫っていく。 第1回のテーマは「AI×メタバース」。ゲストには、THE GUILD代表であり、メディアプラットフォーム「note」のCXOを務める深津貴之氏をお招きした。インターネットの黎明期からテクノロジーと社会の関係をつぶさに分析してきた氏とともに、AIとメタバースがいかに共振するのかを探っていく。 ■バーチャル美少女ねむ メタバース原住民にしてメタバース文化エバンジェリスト。「バーチャルでなりたい自分になる」をテーマに2017年から美少女アイドルとして活動している自称・世界最古の個人系VTuber(バーチャルYouTuber)。2020年にはNHKのテレビ番組に出演し、お茶の間に「バ美肉(バーチャル美少女受肉)」の衝撃を届けた。ボイスチェンジャーの利用を公言しているにも関わらずオリジナル曲『ココロコスプレ』で歌手デビュー。作家としても活動し、著書に小説『仮想美少女シンギュラリティ』、メタバース解説本『メタバース進化論』(技術評論社) がある。フランス日刊紙「リベラシオン」・朝日新聞・日本経済新聞などインタビュー掲載歴多数。VRの未来を届けるHTC公式の初代「VIVEアンバサダー」にも任命されている。 ■深津貴之 インタラクション・デザイナー。株式会社thaを経て、Flashコミュニティで活躍。独立以降は活動の中心をスマートフォンアプリのUI設計に移し、クリエイティブユニットTHE GUILDを設立。メディアプラットフォームnoteのCXOとして、note.comのサービス設計を務める。執筆、講演などでも勢力的に活動。 ・大規模言語モデルによって、AIは「知性」を獲得した? バーチャル美少女ねむ(以下、ねむ):noteさんはGPT-3と連携した創作支援ツール「note AIアシスタント」をサービスインし、世界に先駆けてAIの社会実装を進めています。人間に代わってAIがクリエイティブを作るのではなく、あくまで人間自身がクリエイターとしてより効率的に創作を行うために様々なサポートをAIがしてくれる。そんなAIとの新しい関係性を提案する体験設計は素晴らしいと思いました。そこでCXOを務める深津さんは今、日本でAIをリードしている人のひとりだと思うのですが、いつごろからAIに関心を向けていたのですか? 深津貴之(以下、深津):AIとがっつり向き合うようになったのは、昨年の春くらいからです。それ以前のAIの世界って、マシンパワーや学習データをいかに確保するかが肝でしたよね。だから、そういった大規模なバトルはGAFAMに任せておけばいいかな、という方針だったんです。 ところが2022年の3月頃から「AIもオープンソースの時代が来そうだぞ」と界隈がざわつきはじめて。僕自身も「いま、ここにベットしておかないとヤバイ」と直感しました。これは世界を変える技術になるぞと。それで一気に基礎知識を学び、自分でもPythonコードを書くようになった感じです。 ねむ:深津さんの予想通り、AIは社会に大きな影響を及ぼしつつあります。「第四次AIブームがはじまった」という識者の方も多い。実際、ChatGPTをはじめとした生成AIは、これまでのものとは明らかに別次元です。まさかAIとこんな自然に会話ができるようになるなんて、驚きでした。 深津:これまでのAIが『AIBO(アイボ)』だとしたら、いきなり「ドラえもん」っぽいのが出てきちゃった、みたいな感覚ですよね。それくらい明確にフェーズが変わりました。 ねむ:第三次ブームのとき、「AIは目(認識能力)を獲得した」と言われていたじゃないですか。ある画像がバナナなのかリンゴなのかを、機械学習によって識別できるようになった。では、現在起きている大規模言語モデルの実用化によって、AIは何を獲得したのでしょうか? 深津:難しい質問ですが、ひとつ言えるのは今回の技術革新は「アテンション・メカニズム」と呼ばれる仕組みが鍵となっているということです。ChatGPTなどのベースになっている「Transformer」も、このメカニズムを採用したことがブレイクスルーのきっかけになっています。 僕の理解ではーーアテンション・メカニズムとは、与えられたデータの関連性をチェックして、どこに注目(Attention)するべきなのかを重みづけする仕組みです。つまり、すごく乱暴に要約すると、対話型AIは入力された文章のなかから重要そうなワードの関係性を特定して、それに関連がありそうなワードを並べている感じなんです。 ねむ:そう説明してもらうとわかる気もするのですが、それだけであんなにも知性を感じるようになるというか、まるで人と話しているように自然な会話が成り立つのは、やっぱり不思議です。「次の単語を予想する」を大規模学習しただけとはとても信じられないレベルの、高い「知性」を感じる瞬間が結構あるんですよね。 深津:僕たちの「知性」なるものが、その程度のものに過ぎなかった。そういう見方もできると思います。人間がちゃんと考えて書いた文章も、AIが確率的に単語をつなげただけの文章も、それほど差がないことが証明されてしまったわけですから。 ねむ:人間の「知性」は、実は簡単な仕組みで作られていたのかもしれない。そう考えると恐ろしいですね。人間は自身を、神に似せて作られた、特別な存在だと思いたい欲求がありますから。他の技術革新と違ってAIに対して嫌悪感が先行しやすいのは、そういう潜在的な恐怖が根底にあるのかもしれませんね。 ・AIは仕える人を選ばない、誰にとっても忠実な「執事」となり得るか? ねむ:深津さんは最初に「これは世界を変える技術になると直感した」と仰っていましたが、AIがどんな風に世界を変えていくと感じたのでしょうか? 深津:最も本質的な変化は、プログラミング言語なしに、誰もが簡単に機械(コンピューター)と対話できることだと思います。 ねむ:なるほど。その一方で「プロンプター」という言葉が注目されているように、AIを使う人間の側にもスキルが求められる、といった議論も見受けられますよね。 深津:そうですね。でも、それは過渡的な問題だと思います。あと数年もすれば、高度なプロンプトを扱うのは専門家だけで、一般ユーザーは「あれやっといて」くらいのアバウトな命令で、通じるようになっているはずです。 ねむ:その答えはちょっと意外でした。AIの力を借りることでトップクリエイターは大量のクリエイティブを生み出すことができるようになっていきそうですが、一方で、いわゆる一般の人がAIの恩恵を受けるのは、もっと先なのかなと思っていたんです。そのせいもあってか、AIが日常生活のなかでどんな役割を担っていくのか、まだイメージができていなくて。深津さんのビジョンを教えてもらえますか? 深津:わかりやすい例は執事です。たとえば「Aさんと会食だから準備しておいて」と命令すると、「いつものお店を予約しておきますね」とか「たしかAさんは魚がお嫌いだったので、お肉メインのお店でどうですか?」と提案してくれる。そんなイメージです。こちらから呼びかけなくても「4時からミーティングの予定ですが、そろそろ家を出なくて大丈夫ですか?」と、向こうから通知してくれると思います。 ねむ:それはありがたい(笑)。メタバースにしてもそうですが、最先端の技術って「これで個人でもすごいプロダクトが作れますよ」とか、そういうクリエイティブな側面が注目されてきたと思うんです。でも、AIはもっと汎用的なツールになって日常生活を変えていくという理解であっていますか? 深津:そうですね。たしかに今は、AIが「何かを作ってくれる」という側面に注目が集まっています。僕はそれよりも、「物事を進行してくれる」という側面に期待しています。というのも、従来のITツールの最大の課題って「結局は自分でやらなきゃダメだよね」という点に尽きると感じていて。Googleカレンダーは便利だけれど、僕たちユーザーがうっかりミスをすると、ダブルブッキングしてしまったりする。これからのAIは、その最後のひと手間を肩代わりしてくれると思うんです。必要なデータさえ与えておけば、あとはよしなにやってくれる。AIの行動に納得がいかなかったときだけ、プロンプトで細かい命令を出す。そういう風になるのではないでしょうか。 ねむ:言い換えると、AIによってITリテラシーがいらない世界がやってくる? 深津:このままAIが進化すれば、そうなると思います。僕たちは大まかな要望を伝えるだけで、それをどう実現するかはAIが勝手に考えて実行してくれる。それこそ忠実な執事のように。 これは個人的な哲学でもあるのですが、テクノロジーの本質は「民主化」です。一部の特権階級に独占されていた何かを、誰にでもアクセス可能なものにすること。それがテクノロジーの進化の基本的な方向性だと思うんです。たとえば、お抱えの料理人を雇うことはお金持ちにしかできないけれど、「Uber Eeats」を使えば誰もが自宅でプロの料理を楽しめます。お金に限らず、リテラシーや技術にしてもそうです。お金持ちでなくとも、エンジニアでなくとも、誰もがAIを手足のように扱える。そんな未来が訪れると予想しています。 ・アバターも、ワールドも。言葉ひとつで作れる時代に ねむ:それでいうと、私のいるメタバースの世界では「声」の民主化がはじまっています。好きなアバターを選ぶように、「声」を自由に選びたいという需要は、以前からあったんです。ただ従来のボイスチェンジャーには技術的な限界があって、本当に可愛い声を出そうと思ったら、ボイストレーニングや筋トレといった努力が不可欠でした。 それがつい先日、「Retrieval-based Voice Changer(RVC)」というオープンソースのAIボイスチェンジャーがリリースされて。これが想像以上の性能なんです。従来のボイスチェンジャーのように元の声にエフェクトをかけるのではなく、リアルタイムに全く別の他人の声に置き換えてしまう。最初は多少の遅延もありましたが、アップデートの度に改善されていって、今は相当に使いやすくなりました。既に数多くのメタバース住人がRVCを日常的に使って喋っています。アバターによる「なりたい姿」に加えて「なりたい声」で喋れるようになることで、「なりたい自分になれる」という私の考えるメタバースの理想に、ぐっと近づけてくれるツールだと感じています。一方でVTuberが声を「盗まれて」勝手に販売されてしまう、といった事件も起こっていますが……。 深津:AIボイスチェンジャーは、僕も色々と調べたことがあって。なにかつくれたら、と思っていたんです。けれどリサーチを重ねるなかで、リアルタイムで声を生成するのはとても無理だという結果に至って、諦めたんですね……。だからRVCが登場したときは驚きました。 ねむ:アバターやワールドも、AIが作ってくれるようになりませんかね? VRChatなどでは、現状はUnityの知識がないと、自由にアバターやワールドをつくれないので……。Unityってほんとに難しいじゃないですか。私も挫折したクチで、実はこのアバターも外注したものなんです。だからそのあたりをAIが担ってくれたらすごく嬉しいのですが、3Dモデルの生成AIってあまり聞かないですよね。 深津:実験的なものは多くでていますが、まだ実用レベルなものは聞かないですね。アバターやワールドをゼロから生成するのは大変なので、まずは既存の3Dアセットを「配置」するAIが登場するのではないでしょうか。3Dモデルも学習すればできると思いますが、ポリゴンの生成からやってしまうと、将来的にデータの形式が変わったときなどに、ヘビーな作業のやり直しが必要になりますよね。けれど「任意の空間に対して、任意のオブジェクトを、任意のルールで並べよ」といったトレーニングをしておけば、データ形式やソフトウェアの変化にも柔軟に対応できます。そういう抽象度の高い設計の方が、個人的には好みです。 ねむ:なるほど。私もイベントを開催するときにオリジナルのワールドを作ったりするのですが、たしかに既存のアセットの組み合わせで十分な場合がほとんどです。こんな音楽ライブをしたい、こんな学術イベントをしたい、だからここにこれを配置して…… と、そう語るだけでAIが代わりに最適なものを作ってくれたら、ワールド制作がいっきに身近になりますね。アバターにしても、私のようにフルスクラッチにこだわる人ばかりではありません。VRChatでは、既存のアバターを改変したり、販売されている衣装と組み合わせてオリジナリティを出しているがほとんどです。言われてみると、AIに代行してもらいやすい領域に思えますね。 深津:人気ゲームの『Fallout』には、優秀なキャラエディターが搭載されているので、あとはAIにつなげるだけで、すぐにプロンプトでアバターが作れるようになると思いますよ。ワールドにしても同じことで、「ワールドビルダーをプロンプトで動くようにしました」なんて、『Fortnite』あたりがいつ言い出してもおかしくない。 ねむ:エンジニアがUnityでやっていた「天地創造」が、誰にでもできるようなるわけですね。聖書の「光あれ」という一節ではないですが、まるで神様みたいに、ほんとうに言葉ひとつで世界が創れてしまう。そうなったら、遊び方の幅もめちゃくちゃ拡がりそうですね。アバターやワールド制作って初心者に対するハードルがものすごく高いと思っていたので、AIによってそれらが民主化されると、メタバースの普及が一気に加速しそうです。 ・メタバースとAIは、互いを補いながら成長していく ねむ:逆に深津さんは、メタバースがAIにもたらす恩恵はあると思いますか? 深津:AIとメタバースがきちんと接続されたら、データセットの収集はめちゃくちゃ効率化されると思います。たとえばいま「LoRA」でイラストを生成しようとしたら、モデルデータを何十枚と集めなければならないわけです。それって結構な手間じゃないですか。けれどたとえば、VRカメラでねむちゃんの活動ログを24時間記録しておけば、そこから何万枚というデータセットが簡単に作れます。 ねむ:たしかに! その視点は見落としていました。 深津:「この世にあるデータセットはもうすぐ枯渇する」という人がいますが、それは「世界」の捉え方が狭いだけです。メタバースの精度が十分に上がって、そこから適切に情報を吸い出せるようになれば、ほとんど無尽蔵のデータセットを手に入れたも同然です。 現実では集めにくい空間データを簡単に収集できることも、メタバースの強みです。リアルに再現した東京のメタバースのなかで、車を何百万台と走らせ、ビルに突撃させたり、逆走させたりして、そこで集めたデータで自動運転車のAIをトレーニングする、みたいなこともできると思います。 ねむ:なるほど。メタバースには何百万人という人が暮らしていますが、彼らが日々生み出しているあらゆる活動ログも、AIを成長させるための糧になりそうですね。 深津:GPT-5くらいになると、そうせざるを得ない気がします。AIはメタバースからデータを回収して、それを学習したAIがさらにメタバースの精度を高めていく。そんなキャッチボールで、AIとメタバースは互いを補完しながら、今まで以上の速度で進化していくのではないでしょうか。 ねむ:その世界観は、すごく面白いですね。実は正直なところ、ここ最近のAIの急速な進化に、メタバースはどうやって追いついていけばいいんだろうと思っていたので、「AIとメタバースが相互にアップデートしながら成長していく」というビジョンが聞けてよかったです! 本日はありがとうございました。
リアルサウンド