本レポートは、2/22にリリースされたGoogleのVeo2についてまとめたものです~✨️
以下の内容を参考にぜひ使ってみてください~🙆♂️
PS:本記事は、ChatGPTのDeep Researchのみで作りました◎
20,000文字ほどの記事が30分かからず完成。
ChatGPT Deep ResearchのWeb情報収集力を活かしたレポートは、ここまで完成されたクオリティで出してくれます♪
2/25よりChatGPT Plusプラン(月3,000円)も使えるようになりました!
レポートのクオリティや作成の速度感を体験していただけると嬉しいです🙌🏻
Googleが開発した最新の動画生成AI「Veo 2」は、テキストから高品質な動画を生成できる最先端モデルです。2024年12月に初公開され、前身のVeo(2024年5月発表)から大幅に性能が向上しました。Veo 2は従来の画像生成AI技術を動画領域に応用したもので、ユーザーが入力した文章(プロンプト)に基づき、数秒から数分程度の短編動画クリップを自動生成します (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。このモデルは生成される映像の解像度や現実感が飛躍的に向上しており、最大4K解像度・最長2分程度の動画にも対応しています (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。映像の内容やスタイルも多彩で、シネマティックなカメラ演出やリアルな物理挙動まで再現できる点が大きな特徴です。発表当初よりYouTube Shortsの背景生成機能(Dream Screen)やGoogleの実験プラットフォーム「VideoFX」で一部ユーザーに提供されており、クリエイターや企業が創造的な動画コンテンツを手軽に制作できる未来を切り拓いています (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。
モデルのアーキテクチャ: Veo 2の内部構造は、最先端のディープラーニング技術を駆使したものと考えられます。具体的な技術仕様は公開されていませんが、大規模なディフュージョンモデル(拡散モデル)やTransformer(トランスフォーマー)を用いた動画生成アーキテクチャが採用されていると推測されます (Video Generation: A Diffusion based approach) (Video Generation: A Diffusion based approach)。ディフュージョンモデルとは、一旦ノイズだらけの映像から徐々にディテールを復元していく手法で、画像生成AI(例えばStable Diffusionなど)で成功を収めた技術です。Veo 2ではこれを時間軸にも拡張し、空間(画像)と時間(動画)の両次元を同時に扱う3次元U-Netなどのネットワーク構造を用いている可能性があります (Video Generation: A Diffusion based approach)。この構造により、連続するフレーム間での整合性(オブジェクトの位置や形状の一貫性、動きのスムーズさ)を保ちながら、高解像度な映像を生成することができます。さらにGoogleの発表によれば、Veo 2は「映画撮影の言語」を理解するよう設計されており、カメラレンズの種類やショットの角度、映像効果などをプロンプトで指示すると、それに沿った映像表現を作り出せます (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。これはモデル内部でカメラワークや光学効果に対応するパラメータ制御が可能であることを示唆しており、従来の画像生成モデルにはない高度なアーキテクチャ上の工夫がなされている部分です。
生成プロセス: Veo 2で動画が生成される流れは、おおまかに以下のように説明できます。まずユーザーの入力したテキストプロンプトがテキストエンコーダによって数値ベクトル(意味を表す潜在表現)に変換されます。次にモデルはランダムなノイズからスタートし、このテキスト情報を条件づけとして徐々に画像フレームを生成していきます(ディフュージョンの過程)。この際、時間軸も一緒に生成するため、最初は荒い動画(低解像度・短いフレーム列)を作り、続いてそれを洗練・高解像度化していくカスケード処理が行われると考えられます (Video Generation: A Diffusion based approach)。例えば最初に小さな解像度でラフな動画を作り、次にそれを元に解像度を上げた動画を生成し…という段階的プロセスです。こうした段階的生成により、最終的には4K相当の高精細なフレームまでディテールを補完します。また、一連のフレームを一度に生成することで各コマ間の連続性(動きの滑らかさ)を確保しています。加えて、Veo 2は物理法則や人間の動作のニュアンスを理解しているとされ (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)、液体が注がれる様子や重力に従った動きなども自然に表現できます (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。具体的には、コーヒーやシロップを注ぐシーンで液体の流動や飛沫がリアルに再現されたり、人間の細かな表情変化が捉えられる動画を生成したりします (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。このような高度な表現力は、大量の動画データから物体の挙動パターンや物理的制約を学習し、生成過程でそれらを反映しているためと考えられます。
学習データ: Veo 2の学習(トレーニング)には、莫大な規模のデータセットが使われています。しかしGoogleは具体的な学習データの中身を公開しておらず、詳細は不明です (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。多くの専門家は、Google傘下のYouTube上に蓄積された膨大な動画がデータ源の一つではないかと推測しています (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。つまり、世界中の多様な映像(風景、人物、アニメーションなどあらゆるジャンル)をモデルが大量に見て学習したことで、幅広い内容の動画をそれらしく生成できるわけです。学習過程では、テキストの説明文とそれに対応する映像(フレーム列)のペアを与え、モデルが「この文章にマッチする動画」を生成するよう訓練されます。おそらく数百万〜数億件規模のテキスト・動画ペアが用意され、何週間にも及ぶ計算処理でモデルパラメータを最適化したと考えられます。こうした大規模データでの学習により、Veo 2は現実世界の多種多様な映像パターン(例えば「犬が水に飛び込むと水しぶきが上がる」「夕焼け空は赤橙色に染まる」等)を統計的に把握しています。その結果、ユーザーが未知の組み合わせのリクエストをしても、学習データから類推してありそうな映像を作り出せるのです。ただし学習データには著作権物や人物映像も含まれる可能性があるため、生成時には著名人の顔や特定のキャラクターを正確に再現しないようフィルタリングや調整も行われているでしょう。モデルのサイズ(パラメータ数)は公表されていませんが、画像生成の最先端モデルが数十億〜数千億パラメータ規模であることから、Veo 2も同程度かそれ以上の巨大モデルである可能性があります。これは高性能GPUを多数用いた大規模分散学習環境で初めて実現できる規模です。Googleは学習アルゴリズムの詳細な技術報告書をまだ公開していませんが (Video Generation: A Diffusion based approach)、先行する研究(Imagen VideoやPhenakiなど)で培われた知見を活かし、長時間の動画でも破綻しにくい独自の学習手法を導入していると考えられます。例えば、動画をトリミングせずオリジナルのアスペクト比で学習する工夫は、OpenAIの競合モデルSoraでも効果が報告されており (Video Generation: A Diffusion based approach)、Veo 2でも構図やフレーミングの自然さを維持するために類似のアプローチを取っているかもしれません。総じて、Veo 2は「大量の多様な動画データ」×「高性能な新世代AIアーキテクチャ」によって支えられており、その技術的土台は非常に先進的です。
近年、テキストから動画を生成するAIは各社がしのぎを削る分野となっています。その中でVeo 2は現時点で最高水準の性能を示すモデルの一つです (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。ここでは、特にOpenAI社の動画生成AI「Sora」との比較を中心に、他の競合モデルと比べたVeo 2の特徴・優位点を解説します。
OpenAIのSoraとの比較: OpenAIが2024年末に発表したSoraは、Veo 2の有力な競合です。両者ともテキストプロンプトから動画を作る点は共通していますが、その設計思想と性能にはいくつか違いがあります。まず出力解像度と動画長について、Soraは現時点でフルHD(1080p)・20秒程度までの動画生成に対応します (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。これに対しVeo 2は最大4Kの超高解像度かつ最長2分程度の動画まで生成可能であり、解像度・尺の両面でSoraを凌駕しています (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。実際、GoogleはVeo 2のリリースにより「解像度と長さでSoraを追い抜いた」と明言しています (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。次に映像品質とリアリティの面では、Veo 2はSoraに比べて細部まで緻密で現実感の高い映像を出力できるとの評価があります (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。動画生成AIはしばしば人の手の本数を誤ったり背景にあり得ない物体を出現させたりする「幻覚」と呼ばれる誤生成を起こしますが、Veo 2ではこれが大幅に抑えられています (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。Googleによれば、Veo 2は不要な指や不自然なオブジェクトを生じさせる頻度が以前のモデルより減っており、その分だけ出力がよりリアルになっています (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。一方のSoraも高い生成能力を持ちますが、OpenAI自身が示した技術レポートによると物理的に複雑な現象(例えばガラスの破砕など)や物体の状態変化の再現に課題を残すとされています (Video Generation: A Diffusion based approach)。Veo 2は物理法則の再現性に注力して改良された経緯があり、液体の動きや人物の自然な挙動など物理的リアリティに関してSoraより優れていると考えられます (Google takes on OpenAI's Sora with its 'Veo 2' AI video generation model - The Tech Portal)。
またユーザー制御性の違いも注目点です。Soraは単に動画を生成するだけでなく、生成後の編集・加工を支援する豊富なツール群を特徴としています。具体的にはRemix(既存動画の一部要素を差し替え/除去)、Re-cut(映像の特定シーンを自動延長して滑らかに繋ぐ)、Loop(ループ再生がきれいにつながるクリップを生成)、Storyboard(コマごとのフレームを指定して物語構成を細かく制御)、Blend(二つの動画を融合する)、Style Presets(スタイル設定の保存・共有)といった6つの主要機能を備えています (Six Top Features of Sora, OpenAI’s New AI Video Creation Platform) (Six Top Features of Sora, OpenAI’s New AI Video Creation Platform)。これらによりSoraは生成後の編集・加工までオールインワンで行える「動画制作プラットフォーム」に近い存在です。一方、Veo 2は現時点では生成そのものの品質と多様性にフォーカスしており、ユーザーが細かく動画を編集するツールは提供していません(GoogleのVideoFXはあくまで生成実験用のインターフェースです)。その代わり、Veo 2はプロンプトの指示だけで高度な映像効果を反映できるよう設計されています。例えば「ローアングルでシーンを移動するカメラ」と指示すればその通りのカメラワークの動画が得られ、「18mmレンズで広角撮影」と書けばレンズ特有の歪みを持つ広角映像になり、「浅い被写界深度」と付け加えれば背景がボケたシネマ風の映像が生成されます (Updates to Veo, Imagen and VideoFX, plus introducing Whisk in Google Labs)。このように、Soraは豊富な編集機能、Veo 2は高度なプロンプト解釈による自動映像表現という棲み分けが現状あります。両者の指向は異なりますが、総合的な映像生成クオリティでは、公開直後の評価ではVeo 2に軍配が上がっています。Googleが行った人間による評価実験(Meta社の公開したMovieGenBenchデータセットを使用し、1000件以上のプロンプトで各モデルが生成した動画を比較)では、全体的な好ましさとプロンプト忠実度の両指標でVeo 2がトップとなりました (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp) (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。具体的には、評価者がVeo 2の動画を他モデルより「好む」と答えた割合が最も高く、OpenAIの最新モデル「Sora Turbo」や中国のMinimax社モデルなどを明確に上回っています (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。プロンプトの指示どおりに内容を再現できている度合いについても、Veo 2がSora Turboや他社モデルを抑えて最も高いスコアを記録しました (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。もっとも、この評価はGoogle側の発表であり自社有利な見せ方である可能性もあるため鵜呑みにはできません (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)が、少なくとも現段階でVeo 2が競合を凌ぐ性能を示していることは確かでしょう。
他の動画生成AIとの比較: OpenAIのSora以外にも、2024年時点でいくつか注目すべき動画生成AIがあります。例えばRunway社のGen-2は2023年に一般公開されたテキスト動画生成モデルで、クリエイター向けに使いやすいWebサービスを提供しています。しかし出力解像度や映像の精密さではVeo 2に及ばず、生成できる動画は数秒程度・解像度も640x360~720pが上限でした。またMeta社も研究段階で「Make-A-Video」というモデルを発表していましたが、一般公開はされておらず実用面での競争には参入していません(評価用ベンチマークデータセットの提供 (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)などで間接的に関与)。中国系ではTencent(騰訊)社のHunyuanや、スタートアップのMiniMax、Kling AIといったプレイヤーもおり、それぞれ独自の動画生成モデルを開発しています (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp) (Six Top Features of Sora, OpenAI’s New AI Video Creation Platform)。特にTencentのHunyuanは2024年に高品質な動画生成を実現したと報じられ、中国国内で注目を集めました。しかしこれらのモデルも含め、解像度4Kでの出力や映画レベルのカメラ指示への対応といった点で、Veo 2が一歩先んじている状況です。実際、先述のGoogle評価実験にはMetaやKling AI、MiniMaxといった複数モデルが比較対象に含まれていましたが、いずれもVeo 2に追随する結果でした (What Is Google's Veo 2? How to Access It, Features, Examples | DataCamp)。総合すると、Veo 2は現状の競合モデルに対して解像度・映像美・指示追従性で優位に立っており、特に「高精細な動画を長時間生成できる」という点はユニークな強みです。一方、OpenAIのSoraは編集機能の充実で差別化を図っており、用途によってはSoraのほうが便利なケースもあるでしょう。今後、Veo 2がSoraのような編集機能を取り込んでくるのか、逆にSoraが高解像度化・長尺化を図ってくるのか、競争は激化していくと予想されます。この競い合いが技術のさらなる進歩を促し、ユーザーにとってますます有用なツールが生まれてくることが期待できます。