ちょっとここだけ変えたい!が叶うAI画像編集! 誰でもできるAI画像カスタマイズ入門

AIKIDO LIVE

Flux1コンテキストで1枚の絵から表情・ポーズを自在に変える——AI画像カスタマイズ入門

2024年7月9日(水)配信

この記事の3行まとめ

  • Flux1 Contextは「1枚の元絵」から、同一キャラクターの別表情・別ポーズ・別シーンを一貫性を保ったまま生成できる画期的なモデルだ。
  • 従来は大量の学習画像でLoRAモデルを作る必要があったが、Flux1 Contextなら1枚の画像だけで一貫性のあるキャラクター画像が作れる。
  • Genspark・ComfyUIでも使え、Grokの画像生成エンジンにも採用されているため、すでに知らないうちに使っている人も多い。

今日のゲスト——イフ塾の高崎翔太さんと山崎たくみ君

7月9日水曜日の朝ライブ。ゲストはイフ塾の高崎翔太さんと山崎たくみ君だ。高崎さんは「誰でも通えてAIと企業が学べるイフ塾」を運営していて、ゲーム開発も手がけている。山崎君はここ数日、夜8時台には寝ているという「おじいちゃんみたいな生活」と自己紹介して笑いを取っていた。早寝するくらい充実した毎日を送っているということだよ。

今回のテーマは「AI画像カスタマイズ入門」。画像編集をしたことがある人なら1度は悩んだことがある「もうここだけちょっと直したいんだよな」というあの感覚を、サクサク解決するツールの紹介だ。ひろくん自身も毎日のように画像生成をしていて、「ちょこっとだけ変えたい」という場面がよくあると言っていた。料理で言えば、仕上がった料理の「ここだけ塩が足りない」という部分だけをピンポイントで直せるような感覚で、全部作り直す必要がなくなるんだ。

「ここだけちょっと直したい」——AI画像編集の永遠の悩みを解決

高崎さんが普段ゲームを開発していて、「キャラクターの元絵はデザイナーさんに書いてもらったけど、そこから怒り顔・悲し顔・会話シーンのポーズが欲しい」という現実的な課題を抱えていた。元絵は1枚しかない。デザイナーさんに全パターンを依頼するのは時間もお金もかかる。かといってAIにバラバラに生成させると、キャラクターの一貫性が保てない。

「ゲームってなんか例えば会話のシーンとかだったらなんかちょっと怒ってる顔になったりとか、悲しい、もうこんなのでうまくいってないよみたいな顔になってるとか、そういうちょっと豊かな表情とかポーズが変わったりとかが結構必要なんですよ」という高崎さんの言葉が課題を端的に表している。そこで登場するのがFlux1 Contextというわけだ。

Flux1 Contextとは何か——1枚の元絵から無限に派生できるモデル

Flux1 Contextは、1枚の参照画像(元絵)を読み込ませて、そのキャラクターや被写体の一貫性を保ちながら別のシーンや表情を生成できるモデルだ。Flux1という既存のモデルにさらに別モデルが乗っかった形で、「Flux1 Context Pro」と「Flux1 Context Max」の2バージョンがある。

「フラックスって聞いたことない方もいるかもしれないんですけど、GrokのX上の画像生成の裏側がFlux1ですよ」と高崎さんが補足する。さらにGensparkでも「勝手にFluxが採用されているので、皆さん知らないところですでに使ってる方も多いんじゃないか」というわけだ。意識せずに使っている最高級の食材、みたいな存在だよ。ComfyUIでも読み込めて、そちらでさらに高度なワークフローも組める。

従来のLoRAモデル学習との違い——1枚から作れる革命

今まで一貫性のあるキャラクター画像を生成するには、LoRAモデルの学習が必要だった。「いろんな角度・いろんな表情してるキャラの画像を大量に用意して、それをAIに学習させて、1つのモデルとして作るんですよ。そのモデルをまた読み込ませて、それに乗っかって絵を描いてってやると結構一貫性のあるキャラが作れる」という工程で、手間も時間も膨大にかかる。

Flux1 Contextはそれを「1枚の画像」で実現する。元絵さえあれば、「祭りの真で炎を召喚して激しく踊っているトレーディングカード風」「うどん屋でうどんの生地を大きなテーブルでこねているポケモンカード風」など、テキストプロンプトで自在にシーンを変えられる。ゼロからレシピを考えるんじゃなくて、すでにある料理をアレンジし続けられる感覚だよ。しかも生成速度が速く、ライブ中でも「お早い。もう出来たの?」という反応が出るほどだった。

実演:ナさちゃんが祭りで炎を召喚するトレカ風画像

ライブ中の最初の実演では、高崎さんが作ったキャラクター「ナさちゃん」(海沿いの地名にちなんだ名前のキャラクター)を使って試した。「ナさちゃんが祭りの真で炎を召喚して激しく踊っているトレーディングカードを作ってみたい」というプロンプトで、元絵から1枚生成。

「角度とかちょっと手とかの構図も変わってたりして、でもキャラの顔は保たれていてエフェクトも入れてくれて結構いい感じ」という評価が出た。元絵にはなかったポーズ・シーン・エフェクトが加わりながら、キャラクターとしての一貫性が保たれている——これがFlux1 Contextの核心的な価値だ。右下のキャラクター(秋田県出身の設定)は「実体のない闇に飲まれてる感じのカード」になっていて笑いも起きていた。

実演:ゲームキャラ「カト君」のうどん屋シーンを生成

メインの実演は、高崎さんが開発中のゲームに登場する「カト君」だ。カト君の設定がユニークで、稲庭うどん屋の息子なんだけど格闘の道に進み、最終的に稲庭うどんの奥義を格闘技に取り入れるというキャラだ。「ネタバレですね」と笑いが起きていたけど、このキャラがうどん屋でうどんをこねているシーンをFlux1 Contextで生成した。

プロンプトは「うどん屋でうどんの生地を大きな広いテーブルでこねている、全体にキラキラしたエフェクトを入れ、ポケモンカードのイラストのような雰囲気にして」というものだ。Flux1は日本語との相性が悪いので、高崎さんはいつもGemini(「下駄箱先生」と登録されているらしい)に日本語の説明を英語に変換してもらってから使っているという。実際「稲庭うどん」のような日本特有の食材の詳細描写は英語モデルには苦手な部分があった。

生成結果は「ちゃんとキャラが入ってる」と確認できるものになったが、「やってることがちっちゃい。台がちっちゃい」という課題も出た。うどんをこねる大きなテーブルを表現するためにプロンプトを「大きな広いテーブルで」と追記して再生成するという試行錯誤も見られた。

ProとMaxの違いを実験——画質と一貫性のトレードオフ

ライブ中に高崎さんがFlux1 Context ProとMaxを同じプロンプトで比較した。Maxは「2倍のクレジットコスト」がかかるが、画質が上がり細部の表現が改善される。「マックスにしたら画質が綺麗になった気がする」「なんかちょっとちょっと多分画質いいな」という感想が出た。

Maxにすると複数パターンが出力されることもあり(「マックスエディティングエクスペリエンス」という選択肢が出てきた)、比較しながら最良のものを選べる。一方でProでも十分な精度が出る場面も多い。「テーブルの大きさ指定とか、日本語の食材(稲庭うどん)の詳細描写は英語モデルには苦手な部分がある」という課題はProでもMaxでも同様だ。Geminiに日本語の説明を考えてもらってから英語に変換して渡す、というハイブリッドな使い方が有効と高崎さんが提案した。

クレジットについては「なんか確か買いました。なんか何円か分とかを買うとクレジットが付与されて、それが減ってく」という仕組みで、Maxだとコストが倍になることを踏まえてProで試して、最終アウトプットだけMaxにするという使い分けが現実的だ。

ComfyUIとの連携——Flux1 Contextを取り込んでさらに拡張する

「ComfyUIはいろんな画像生成や動画生成が一箇所で使えるツール」と高崎さんが説明する。Flux1 ContextはComfyUI上でも読み込め、さらに複数のモデルを組み合わせた高度なワークフローが組める。今回のライブでは主にGenspark上での実演だったが、「今後こういう元絵をベースにいろんなものを作る機会は絶対増える」という言葉の通りだ。

ComfyUIを使えば、生成したキャラクターに別のエフェクトを重ねたり、動画化したりという拡張も可能だ。ゲーム・マンガ・SNSコンテンツ・商品説明画像など、応用範囲は広い。山崎君も「これ、きっとこれから動画を作るか何するかは分かりませんが、そういう時にきっと役に立つので覚えていけたら」と話していた。技術の習得は今すぐ使わなくても、いざという時に「あ、あれを使えばいい」と引き出せる状態にしておくことが大事だよ。

Gensparkでも使えるFlux1 Context——今すぐ試せる環境

「GensparkでもFlux1 Contextのコンテキストもあります。できます」という確認がライブ中にあった。Gensparkを普段使っているならその中でFlux1 Contextを使えるということだ。「じゃあGensparkでもできんの?」という驚きが参加者から出ていたが、GensparkがFluxを採用しているのだから当然といえば当然の話だ。

「でもその一貫性が保たれているかどうかはちょっと怪しい」という懸念もあるが、まずGenspark上で試してみて、より高度な一貫性が必要ならComfyUIに移行するという段階的なアプローチが現実的だ。ツールを完璧に理解してから使い始めるんじゃなく、まず触ってみてから理解を深めていくというスタンスが大事だよ。

AI画像生成の次のステップ——キャラ一貫性からコンテンツ量産へ

Flux1 Contextが示す方向性は明確だ。「元絵1枚さえあれば、そこから無限に派生できる」という世界だ。ゲーム開発では喜怒哀楽の表情パターン、各シーンのポーズ、特殊技やイベント用の演出画像——これらを全部デザイナーに依頼していたら時間もコストも膨大になる。それが1枚の元絵とテキストプロンプトで量産できる時代になった。

ゲームに限らない。SNSのキャラクターアカウントの投稿画像、絵本や漫画のシーン展開、商品をさまざまなシチュエーションで見せるECサイト用画像、プレゼン資料のオリジナルイラスト——どれも「1枚の元絵があれば量産できる」という恩恵を受けられる。「今後こういう元絵をベースにいろんなものを作る機会は絶対増える」という高崎さんの予言は、すでに現実になりつつある。AI画像生成は「作る」から「育てる」という段階に入ってきているんだ。

よくある質問

Q. Flux1 ContextとStable Diffusionはどう違うのですか?
Stable Diffusionはテキストから画像を生成する汎用モデルだが、Flux1 Contextは「参照画像の一貫性を保ちながら別シーンを生成する」という点に特化している。LoRAモデル学習なしに1枚の元絵だけで一貫性のあるキャラクター画像が生成できるのが最大の特長だ。GrokやGensparkの裏側でもFlux1が動いていて、知らないうちに使っている人が多い。
Q. Flux1 Contextを使うのにプログラミングの知識は必要ですか?
Genspark上で使う場合はプログラミング不要だ。元絵をアップロードして、プロンプトを英語で書いて生成ボタンを押すだけ。ComfyUIを使う場合はやや学習コストがあるが、それでもコードを書く必要はなく、ノードをビジュアルで繋いでいく操作だ。まずはGenspark上で試してみることをすすめるよ。
Q. 日本語のプロンプトは使えますか?
Flux1は主に英語のモデルのため、日本語との相性が悪い部分がある。日本の食材(稲庭うどんなど)の細かい描写が出にくいことがある。高崎さんが実践しているように、GeminiやChatGPTに日本語で説明を考えてもらってから英語に変換してプロンプトに使うと精度が上がる。「Geminiは下駄箱先生として登録している」という使い方が面白かった。
Q. ProとMaxのどちらを選べばいいですか?
まずProで試すことをすすめる。Maxは画質と細部表現が向上するが、クレジットコストが約2倍になる。キャラクターの一貫性は両方で十分に確保できることが多いため、最終アウトプットにより高い画質が必要な場合だけMaxを使うのが現実的だ。比較してみると「なんか綺麗な気はする」という感覚は確かにあった。
Q. ゲーム以外にどんな用途で使えますか?
SNSのキャラクターアカウント用投稿画像、商品のさまざまなシーン別画像、絵本や漫画のキャラクター一貫性確保、プレゼン資料のイラスト生成など幅広く使える。「元絵1枚さえあれば派生画像を量産できる」という特性が、あらゆるコンテンツ制作の効率化に貢献する。ゲームの会話シーン(喜怒哀楽の表情)を全部AI生成で賄えるというのが、現場目線での最大のメリットだ。
Q. LoRAモデルの学習と比べてどれくらい手間が違いますか?
LoRAモデルは、いろんな角度・表情のキャラ画像を大量に用意して、AIに学習させて、そのモデルを読み込ませて絵を描いてもらう、という複数ステップが必要だ。Flux1 Contextは元絵1枚をアップロードしてプロンプトを書くだけで同様の一貫性が得られる。手間は圧倒的に少なく、技術的なハードルも低い。これが「革命」と呼ばれる理由だよ。
Q. ComfyUIとGensparkのどちらで使うのがいいですか?
初めはGensparkが圧倒的にとっつきやすい。UIが直感的で、アカウントがあればすぐに試せる。ComfyUIはノードを繋ぐビジュアルプログラミング的な環境で、複数モデルの組み合わせや動画化など高度な拡張ができる。「まずGensparkで試してみて、物足りなくなったらComfyUIに挑戦」というステップアップが現実的だ。

🎯 AI氣道で一緒に学ぼう

上部へスクロール