FLUX.2とは何か
Black Forest Labs(BFL)が新たにリリースした画像生成モデル「FLUX.2」が、Hugging FaceのDiffusersライブラリに対応した。前作のFLUX.1シリーズとは異なり、アーキテクチャをゼロから再設計した完全新規モデルであり、単純な後継版や置き換えとして位置付けられていない点に注意が必要だ。
FLUX.2はテキストプロンプトによる生成だけでなく、画像を参照入力として複数枚受け取りながら出力を生成する画像ガイド生成にも対応している。生成と編集の両用途をカバーする設計となっている。
アーキテクチャの主な変更点
テキストエンコーダーの刷新
FLUX.1では2つのテキストエンコーダーを使用していたが、FLUX.2ではMistral Small 3.1に一本化された。これによりプロンプト埋め込みの計算が大幅にシンプルになり、最大512トークンまでのシーケンス長をサポートする。また、単一レイヤーの出力ではなく中間レイヤーの出力を積み重ねる手法を採用しており、表現力の向上が期待される。
DiTブロック構成の変化
FLUX.2はFLUX.1と同様にマルチモーダル拡散トランスフォーマー(MM-DiT)+並列DiTの構成を踏襲しているが、いくつかの重要な変更が加えられている。
- 時間・ガイダンス情報の共有化: 各トランスフォーマーブロックが個別のモジュレーションパラメータを持つFLUX.1と異なり、FLUX.2ではダブルストリーム・シングルストリームそれぞれのブロック群でこれらを共有する
- バイアスパラメータの完全廃止: アテンション層・フィードフォワード層を含むすべての層でbiasパラメータを使用しない設計に
- 完全並列トランスフォーマーブロック: シングルストリームブロックで、アテンションのQKV投影とFF入力投影を統合した完全並列構造を採用
シングルストリームブロックの割合が増大
FLUX.1[dev]-12Bがダブルストリーム19ブロック・シングルストリーム38ブロックだったのに対し、FLUX.2[dev]-32BはダブルストリームをわずかA8ブロックに絞り、シングルストリームを48ブロックに拡大している。総パラメータに占めるシングルストリームの割合はFLUX.1の約46%からFLUX.2では約73%へと大幅に増加した。
推論に必要なVRAM
FLUX.2の最大の課題はそのハードウェア要件だ。大規模なDiTとMistral3 Smallの組み合わせにより、オフロードなしでの推論には80GB超のVRAMが必要となる。Diffusersのドキュメントでは、CPUオフロードや量子化を活用した一般的なGPU環境向けの推論方法も解説されており、コンシューマー向けGPUでの利用も一定程度可能とされている。
LoRAファインチューニングへの対応
Diffusersの対応によりLoRAを用いたファインチューニングも可能となった。カスタムスタイルの学習や特定ドメインへの特化といった用途に活用できる。
まとめ
FLUX.2は画像生成・編集モデルとして技術的に大きな前進を示しているが、32Bという巨大なモデルサイズはリソース面でのハードルも高い。Diffusersへの統合により推論の敷居は下がったものの、実用的な活用には引き続きハイエンドなGPU環境が求められる。オープンソースの画像生成モデルとして、研究・開発コミュニティにおけるFLUX.2の動向に今後も注目したい。