By ARK Invest
本レポートは、2022年10月10日にARK社のHPに公開された、英語による「Newsletter #337」の日本語訳です。内容については英語による原本が日本語版に優先します。また、情報提供のみを目的としたものです。
1. ARK、FRBに公開書簡を送る
By Cathie Wood | @CathieDWood
Founder, CEO, CIO
ARKの最新のIn The Know動画(キャシー・ウッドのマーケットとストラテジー)では、FRBがデフレを引き起こすような政策ミスを犯しているという懸念から、11月2日の次の決定に向けてFRBが検討すべき「データ主導型」のデータをいくつか提示しています。 矛盾するデータを前にしながらも、FRBが前回、FF(フェデラル・ファンド)金利75ベーシスポイントの引き上げを全会一致で決定したことは驚くべきことでした。
今回のマーケット・コメントでは、まず、川上の物価デフレが川下のデフレに転化する可能性が高いことを指摘しています。そして次に、FRBが判断材料としていると思われる2つの変数(雇用と総合インフレ率)に注目しています。私たちの見解では、どちらも遅行指標です。記事全文はこちらでご覧ください。
2. Teslaが先週開催の「AIデー」で人工知能分野におけるリーダーシップを発揮
By Tasha Keeney | @TashaARK
Director of Investment Analysis & Institutional Strategies
(この記事は、Sam Korus、Fandk Downingと共同で執筆しました。)
Tesla社が最近開催した「AIデー」では、同社がイノベーションの速度を重視していることが強調されました。Tesla社は今後数年のうちに、ロボット「Optimus(オプティマス)」の一体2万米ドルの量産型バージョンを市場に提供したい考えです。そのために、同社はAutopilotのハードウェアとニューラルネットワークを再設定し、再トレーニングを行ないました。このヒューマノイド(人型)ロボットは、自動車が走行する道路よりもはるかに制約の少ない環境で動作するため、エンジニアが解決すべき課題も異なります。
AIハードウェア?自動運転車?ヒューマノイド(人型)ロボット?迅速に行動を起こし、懸命に働き、大規模に展開したいイノベーターたちにとって、Tesla社以上に面白く、やりがいのある会社があるでしょうか?
「AIデー」の中で、イーロン・マスク氏は、今年末までにTesla社の完全自動運転(FSD)ソフトウェアを世界規模で展開することを改めて約束しました。同社は引き続き、自動運転ソフトウェアの多くを、手動で作成したルールではなく、ディープラーニングによって管理されるニューラルネットに移行し続けています。そして、同社はまた、言語モデルを含む他のAIモデルが、道路や交差点のデジタル表現を作成する手法にインスピレーションを与えていることも明らかにしました。約300万台の自動車が、世界各地における膨大な学習データを提供していることから、Tesla社は物理的空間を移動する物体の基礎モデルを開発できる数少ない企業のひとつになると思われます。
Tesla社はまた、スーパーコンピュータ「Dojo」の大幅な進化についても公表しました。Nvidia社のA100アクセラレータを搭載した既存のスーパーコンピュータは、同社の最大のニューラルネットワークをトレーニングするのに1ヵ月以上かかります。しかし、Dojoはトレーニング時間を1週間未満に短縮し、エンジニアがオートラベリングや占有ネットワークなどの主要モデルを反復する時間を大幅に増やすことができるようになりました。
これらのパフォーマンスの向上を達成するために、Tesla社は大規模なニューラルネットワークのトレーニングに必要な計算密度と帯域幅を備えた「Dojo」を設計しました。高帯域幅の相互接続を活用し、チップ間の物理的な距離を最小限に抑えることで遅延を減らし、多数のチップを編成して単一のコンピューティングユニットとして機能させます。1つのDojoの「タイル」は、25個のチップを組み合わせて、最大6台のGPUベースのサーバーのパフォーマンスを提供します。これらはすべて、1 台のサーバーを購入するコストよりも安価です。このレベルの高密度を実現するためには、電力、冷却、およびパッケージングなどのソリューションをカスタマイズする必要があります。そして、これらのコンパイラの最適化により、「Dojo」はNvidia社の既存のトレーニング・ハードウェアよりもチップあたりで 3.2倍から 4.4倍強力になるに違いない、と私たちのリサーチ結果は示唆しています。マスク氏は、次の四半期にDojo の最初の実稼働ユースケースを提供したいと考えており、次世代のハードウェアを使用して、さらにペースを加速させることを計画しています。
3. Make-A-Video、Imagen Video、Phenaki、DreamFusion、Stable-DreamFusion など、動画像の変換モデリングがブレイク中
By Andrew Kim | @andrewkimARK
Research Associate
(この記事は、William Summerlinと共同で執筆しました。)
動画像の世界では、ここ数ヵ月で人工知能の飛躍的な進化が起こっています。ある分野の研究者や開発者が他の分野の急速な成功に見習い、それを糧にすることで複合的に発展しているのです。研究はジワジワと進んでおり、マリオ・クレン氏によれば、arXivに掲載されるAI関連の論文数は指数関数的に増加しているそうです。
先週のARKニュースレターでは、Meta Platforms社の「Make-A-Video」というテキストから動画への変換モデルについて説明しましたが、その3日後、Google Researchは新たなテキストから動画への変換モデルである「Imagen Video」に関する研究結果を発表しました。ここでは、その違いを分析します。[1]
Meta社は、テキストと画像のペアで学習させた基本的なテキストから画像への変換モデルだけでなく、ペア化されていないビデオ映像に対するスーパーバイザー無しの学習も用いてMake-A-Videoを構築しました。Google社は少し異なるアプローチを取り、テキストと画像のペアで学習した独自のImagenテキスト画像変換モデルを、一般に公開されているLAION-400M画像テキストデータセット、および1,400万のビデオとテキストのペアの独自データセットと組み合わせて使用しました。一見したところ、両者の出力は似ていますが、私たちの分析からは、Google社のImagenは、3D空間を全体的に移動する動画を配信することに優れており、Meta社のMake-A-Videoの動画は、静止画像の中に孤立した動きを含んでいることが示唆されています。また、Imagen Videoは、英語のテキストを非常に首尾一貫した方法で配信しているようです。特に、DALL-E 2やStable Diffusionのテキストから画像への変換モデル(どちらもテキストのレンダリングに苦労しています)と比較すると、そのような傾向が見られます。
Google Researchは、Imagen Videoと並んで、「Phenaki」に関する研究結果も発表しています。 Phenakiは、ユーザーが作成したテキストプロンプトのシーケンスを使用して、より長いビデオを生成する新しいテキストから動画への変換モデルです。このモデルは長さのために視覚的な忠実度を犠牲にしていますが、数分間続く十分な動画を生成し、Make-A-VideoやImagen Videoよりも効果的に時間の流れを表現できるようです。今後は、計算コストを最小限に抑えながら、より高解像度の映像を出力することが課題です。今後、Imagine VideoとPhenakiの相乗効果が期待されます。
Make-A-Video、Imagen Video、および Phenakiを可能にしたモデルは、AIイノベーションの爆発的な広がりを象徴しています。消費者を喜ばせる動画コンテンツの作成能力も含め、当社ではテキストから動画への変換モデルの商用化の可能性について引き続き注視していきます。
一方、3Dの世界では...
Meta社がMake-A-Videoを発表したのと同じ日に、Google ResearchとUC Berkeleyは、新しいテキストから3Dへの変換モデルであるDreamFusionに関する研究を発表しました。 DreamFusionのテキストから3Dへの変換では、事前に学習させたテキストから画像への変換モデルとしてImagenを使用し、Neural Radiance Field(NeRF)と呼ばれる別の3Dモデルを組み合わせて使用します。このモデルは、様々な角度からの2D画像を生成し、BlenderやUnityなどのコンピュータグラフィックスソフトウェアがサポートする3Dアセットを構築することが可能です。Make-A-Videoと同様に、DreamFusionはモデルの出力と一致するペアデータの大規模なトレーニングセットを必要としません。つまり、Make-A-Videoは動画とテキストのペアのデータセットでトレーニングされておらず、またDreamFusionも3Dアセットとテキストのペアのデータセットでトレーニングされていないのです。
テキストから3Dへの変換モデルは、ビデオゲーム開発、ユーザー生成コンテンツ、およびゲーム内広告に大きな影響を与える可能性があると私たちは考えています。当社の予備的な予測に基づくと、2022年にビデオゲームの開発費が1,000億米ドルを突破するのに伴い、世界のゲームソフトウェアおよびサービスの売上は2,000億米ドルにまで近づく可能性があります。
ただし、テキストから3Dへの変換モデルが実用化されれば、我々の予測は大きく狂うことになるでしょう。というのも、AIモデルは、ビデオゲームの設計と開発のコストを劇的に低下させる可能性があると同時に、ユーザー生成コンテンツ(UGC)の採用により参入障壁が低くなるからです。過去数年間のRobloxでの広告のように、没入型のゲーム内広告を試みる消費者ブランドは増えるでしょう。さらに、テキストから3Dへの変換モデルが進化し、費用対効果の高い没入型プログラムによるゲーム内広告が可能な完全な仮想環境の制作に移行すれば、デジタル広告費は加速度的にビデオゲームに移行すると思われます。
オープンソースモデルとプライベートモデルの間の健全な競争は、最近のAIの急速な進歩の鍵となっています。DreamFusionの公開から1週間後、個々の投稿者がGoogleが独自に開発したモデルであるImagenに代わり、一般に公開されているテキストから画像への変換モデルであるStable Diffusionを使って、テキストから3Dへの変換モデルを複製し、オープンソース化したのです。現在、Stable-Dreamfusionは、DreamFusionの出力品質に匹敵するものを目指して進化中です。この数週間のAIの進歩には驚くばかりです。
[1]Meta PlatformsとGoogle Researchはまだモデルを公開していないため、各社のウェブサイトに表示されている事例をもとに比較しました。
ARK’s statements are not an endorsement of any company or a recommendation to buy, sell or hold any security. For a list of all purchases and sales made by ARK for client accounts during the past year that could be considered by the SEC as recommendations, click here. It should not be assumed that recommendations made in the future will be profitable or will equal the performance of the securities in this list. For full disclosures, click here.