-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[2112.10741] GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [paper-reading] #63
Comments
以前 diffusion model の勉強をしようと思って論文を読んだ #62 が、もともとやりたかったのはこの論文を見て diffusion model 知らないから勉強してみるか〜ということだった。 この論文自体ではそこまでアルゴリズムとかモデルの話はない。 |
論文のモチベーションはタイトルの通りで、テキストを入力してそれにマッチする photorealistic を画像生成を diffusion model で実現したい(できる)というものである。 この手のタスクで衝撃を受けたのが DALL·E だったが、その DALL·E よりも良い結果(人間が選んだときにより評価が高い)が出ているということで興味を持った。 ちなみに DALL·E の中でも使っている CLIP をこの論文でも使うので、それは事前知識として知っておいた方がよい。 |
その他に事前知識として必要なのは、diffusion model で画像生成する際に、class conditional な画像生成をするための手法として提案されている以下の論文:
さすがにこれだけだと何を言ってるかは分からん。 |
上で導入したものの数式的な理解と、この論文で追加で定義している CLIP guidance を見てみる。 guided diffusiondiffusion model とは別の、noise あり $ x → y $ (label) を予測するモデル $ p_\phi $ を使って、平均 $ μ $ を以下のように定める。 これは二項目が特徴的で、classifier $ p_\phi (y|x_t) $ の勾配情報を使っている。 一項目が $ y $ で条件づけられてるのはちょっとよく分かってない。 classifeir-free guidanceぶっちゃけこれちゃんと理解してないので今の理解を書いておく。もっと詳しくなったら適宜修正したい(しなそう)。 conditional で学習するというのは、学習段階では入力画像と label を準備することができるので、label の embedding をモデルに足し込むことを意味している。 これで学習するノイズの表式を上記の式にように定義する。 ここで使っているのは embedding vector なので、ラベルじゃなくてテキスト(例えば画像のキャプション)を使うこともできるというのがポイントになる。まさにこの論文でやりたいことだ。 CLIP guidanceCLIP は画像とテキスト両方のエンコーダー $ f(x), g(c) $ があるので、今回やりたいことにおあつらえ向きである。 画像とテキストの特徴量は別の空間でなく同じ空間に map して処理する(つまり画像とテキストの特徴量は密接に結びついてる)ので、$ f(x) g(c) $ の積を使っていることに注意。 あとは基本的に guided diffusion とやっていることは同様で、noise あり画像に対して CLIP を学習しないといけないというのも同じだ(これはだいぶ高コストだな〜)。 |
学習の際の詳細はスキップしてしまって、結果だけを眺めてみる。 全部を載せるのは大変なので、以下の結果だけ載せる。
|
ということで結果がすごいのであまり内容自体には触れてないゆるふわ回ではあったが、一通りは眺めた。 公式実装も公開されているが、以下とのことで小さいモデルのみが公開されてるのは残念感はある。
|
論文リンク
https://arxiv.org/abs/2112.10741
公開日(yyyy/mm/dd)
2021/12/20
概要
diffusion model で画像生成をするというのが流行っているが、生成したい画像をテキストで表現してそれに適う photorealistic な画像生成に成功しましたという論文。
同様のタスクでは同じく OpenAI が出した DALL·E の結果が衝撃的だったが、この GLIDE の結果は DALL·E よりも明確に良いもので、自分たちで塗り替えたということこになる。
classifire-free guidance という枠組み(これ自体は過去論文で提案されている)を使い、テキストからの画像生成を実現している。
いくつか実験をしているが、生成されている画像は photorealistic と言っても過言ではないような画像も生成できていて、結果はかなり驚きのレベルで良いものだった。
公式実装(小さいモデルだけしか公開されてない): https://github.com/openai/glide-text2im
The text was updated successfully, but these errors were encountered: