当前位置:静雅生活网 > 数码百科 >

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

导读:开源 AI 绘画扛把子,Stable Diffusion 背后公司StabilityAI再放大招!  全新开源模型DeepFloyd IF,一下获星 2 千 + 并登上 G

  开源 AI 绘画扛把子,Stable Diffusion 背后公司StabilityAI再放大招!

  全新开源模型DeepFloyd IF,一下获星 2 千 + 并登上 GitHub 热门榜。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  DeepFloyd IF 不光图像质量是照片级的,还解决了文生图的两大难题:

  准确绘制文字。(霓虹灯招牌上写着 xxx)

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  网友表示,这可是个大事,之前想让 Midjourney v5 在霓虹灯招牌上写个字 AI 都是瞎划拉两笔,对于镜子理解的也不对。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  使用 DeepFloyd IF,可以把指定文字巧妙放置在画面中任何地方。

  霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  这意味着,AI 直出商品渲染图、海报等实用工作流程又打通一环。

  还在视频特效上开辟了新方向。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  有需求的小伙伴可以抓紧反馈起来了。

  像素级图像生成

  DeepFloyd IF 仍然基于扩散模型,但与之前的 Stable Diffusion 相比有两大不同。

  负责理解文字的部分从 OpenAI 的 CLIP 换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

  负责生成图像的部分从潜扩散模型换成了像素级扩散模型

  也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  官方还提供了一组 DeepFloyd IF 与其他 AI 绘画模型的直观对比。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  可以看出,使用 T5 做文本理解的谷歌 Parti英伟达 eDiff-1也都可以准确绘制文字,AI 不会写字这事就是 CLIP 的锅。

  不过英伟达 eDiff-1 不开源,谷歌的几个模型更是连个 Demo 都不给,DeepFloyd IF 就成了更实际的选择。

  具体生成图像上 DeepFloyd IF 与之前模型一致,语言模型理解文本后先生成 64x64 分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  在这种架构上,通过把指定图像缩小回 64x64 再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  并且不需要对模型做微调就可直接实现。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  谁是 DeepFloyd

  DeepFloyd AI Research 是 StabilityAI 旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只 " 研发乐队 "。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  主要成员只有 4 人,从姓氏来看均为东欧背景。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  这次除了开源代码外,团队在 HuggingFace 上还提供了 DeepFloyd IF 模型的在线试玩。

  我们也试了试,很可惜的是目前对中文还不太支持。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  原因可能是其训练数据集 LAION-A 里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  One More Thing

  DeepFloyd IF 并不是 Stability AI 昨晚在开源上的唯一动作

  语言模型方面,他们也推出了首个开源并引入 RLHF 技术的聊天机器人 StableVicuna,基于小羊驼 Vicuna-13B 模型实现。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  完整的桌面和移动界面也即将发布。

Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,实现像素级图像生成

  Deepfloyd IF 在线试玩:

  https://huggingface.co/spaces/DeepFloyd/IF

  代码:

  https://github.com/deep-floyd/IF

  StableVicuna 在线试玩:

  https://huggingface.co/spaces/CarperAI/StableVicuna

  参考链接:

   [ 1 ] https://deepfloyd.ai/deepfloyd-if

   [ 2 ] https://stability.ai/blog/deepfloyd-if-text-to-image-model

   [ 3 ] https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

   [ 4 ] http://stable-diffusion-art.com/how-stable-diffusion-work/

版权声明:本文部分来自互联网,由小编精心所写,本文地址:http://www.zhubian88.cn/smbk/86794.html,如需转载,请注明出处!

联系我们

在线咨询:点击这里给我发消息

微信号:weixin888

工作日:9:30-18:30,节假日休息