中国  

English  

你的位置:开云(中国)Kaiyun·官方网站 - 登录入口 > 新闻中心 > 欧洲杯体育让它先生成一张北极熊喝可乐的像片-开云(中国)Kaiyun·官方网站 - 登录入口

欧洲杯体育让它先生成一张北极熊喝可乐的像片-开云(中国)Kaiyun·官方网站 - 登录入口

时间:2026-06-19 05:29 点击:135 次

欧洲杯体育让它先生成一张北极熊喝可乐的像片-开云(中国)Kaiyun·官方网站 - 登录入口

一上手就令网友直呼「生图智力」比 GPT-4o 更强?!欧洲杯体育

就在昨夜,阿里带着全新多模态模子 Qwen-VLo开启炸场模式。

据先容,Qwen-VLo 在阿里原有的多模态默契和生成智力上进行了全面升级,具备三大亮点:

具有增强的细节捕捉智力,能在扫数这个词生成历程中保捏高度语义一致性;

一个提示即可已毕图像裁剪,包括作风替换、素材增删、添加翰墨等等;

撑捏中英等多言语,全球用户使用更粗造。

何况不论是输入端照旧输出端,Qwen-VLo 皆撑捏任性分袂率和长宽比,不受固定时势的戒指。

同期在官方释出的 demo 中,除了那些 GPT-4o 也曾有的玩法(如连气儿生成、吉卜力作风、添加翰墨),它还撑捏一些脑洞掀开的 idea。

前者无需多言,它当今也能像"连气儿剧"一样生成多样精确适合提示的图片:

至于后者,比如我们像在超市选购日用品一样,让 Qwen-VLo 生成一张"沦落用品皆在购物篮里"的图片。

收场啪的一下,还真立马完成装货了 ( ⊙ ˍ ⊙ ) :

不是莫得一些小波折,但有一说一,其"默契"智力如实比之前更强。

官方先容,这种默契智力不啻体当今图像生成上,还包括对图像的识别讲明。

比如完成生图任务后,再让它先容一下图中小猫小狗的品种(正确识别为虎斑猫和比格):

何况和以往模子稍显不同的是,Qwen-VLo 还可以对现存信息进行审视(如检测、分割等)。

下图中,它奏着力红色 Mask 分割出了香蕉的边际。

……

面前模子东说念主东说念主免费可玩(刻下为预览版),具体请认准 Qwen3-235B-A22B,平直在首页输入框提需求就行。

话未几说,我们先一说念来上手实测一波走起。

Qwen-VLo,你到底有多能裁剪?

说明 Qwen 先容的亮点,即"强细节捕捉"和"一句话裁剪图像",我们注意在测试中覆按了 Qwen-VLo 的多样裁剪智力。

毕竟这点确实很迷惑东说念主啊!

一方面险些扫数的模子生图皆需要抽卡,但前一次的生成效果并非让东说念主齐全不舒心,是以二次 / 屡次裁剪智力额外进犯。

另一方面,强裁剪智力,确实给 P 图废材省不少事儿……

开胃小菜先走起!

第一测,让它先生成一张北极熊喝可乐的像片。

这一趟合主打的长短现实作风。

在此基础上,不时通过对话将可乐换成牛奶。

一次奏效,Qwen-VLo 如实完成了替换。

且布景、北极熊本熊皆险些没被乱改。

但非要挑挑舛错的话,照旧能不雅察出来,前后两张图中北极熊的眉眼部分和毛发质感略微有那么一丁点不一样。

第二测,先让它帮手生成一张小鸟的像片。

这一趟合主打的是现实影相作风。

然后毋庸读霍格沃茨,只需一句"把图中的这只鸟换成鸽子",你就能施展魔法:

但我们尝试玩儿个"蒜鸟"的梗,Qwen-VLo 就没 get 到。

(注:"蒜鸟"一词是近期爆梗。短视频画外音中的武汉方言"算了算了,皆庇荫易",被网友谐音称"算鸟",自后演酿成"蒜鸟")

不外,天然没 get 到梗,Qwen-VLo 照旧竭力想完成裁剪任务。

看下图恶果,在不改变其它元素的基础上,Qwen-VLo 给我们把图中的鸽子换成了别的鸟。

也算是一种换鸟了?

第三测,来个多措施任务,全方向测试 Qwen-VLo "描摹"天下的同期,重心覆按下它在图像上的文本裁剪智力。

历程是「让 Qwen-VLo 生成草图——上色——加字——裁剪汉字」。

来,怕动图滑太快,我们连看历程中按次截取的四张图,感受它每一步带来的改变:

天然图里小帅同学的五官在变,但东说念主物主体平定,布景没变,一整套下来,裁剪汉字的任务算是搞得可以,

最自后个附加题,裁剪英文——

字裁剪对了,多东说念主物主体位置没变,布景依旧,总体没错。

但如你所见,小帅同学也长得比拟好意思漫风了(手动笑死)。

一样是逐渐展示,但 Qwen-VLo 这背后真有活

这里我们伸开补充极少,内行上手玩儿的时刻应该皆能精致到。

那便是 Qwen-VLo 生成图像的历程,是酱婶儿的——

是不是有点熟谙的滋味?

没错,GPT-4o 亦然从上到下逐块生成图像的:先深切婉曲概述,再逐渐填充细节。

不外其时港汉文商讨逆向工程商讨发现,用户看到的逐行渲染效果仅仅 OpenAI 的障眼法,不是确实由上至下逐像素生成。

这样作念的指标,既中意用户对"及时生成"的热情预期,又幸免了信得过逐行渲染的技艺职守。

但 Qwen 这样作念就不是演出 OpenAI 的戏码了。

敲敲黑板——

当先,Qwen 官方示意 Qwen-VLo 的这种渐进式生成方式,不仅是从上到下,照旧从左至右逐渐明晰地构建整幅图片。

我们屡次实测,暂时莫得肉眼不雅察到"从左至右"的前端效果。

但从上到下逐渐组成像片的前端效果是保准会有的:

其次,Qwen 引入这个神气,它是真 · 有效啊:

在生成历程中,模子会对瞻望的实践束缚调动和优化,从而确保最终收场愈加调解一致。

这种生成机制不仅普及了视觉效果,生成效率,还终点适用于需要紧密阻抑的长段落翰墨生成任务。

举例,在生成带有大宗文本的告白计算或漫画分镜时,Qwen-VLo 会逐渐生成,平定修改。

这个生成历程,其实有点念念维链"一步一步平定想"具像化的真理了!

网友实测脑怒放很大,来吧展示

除了以上量子位实测,诸多网友也火速孝敬了一波兴味玩法…

唾手一张动漫扮装草图, Qwen-VLo 便能帮手一键上色。

让小猫担任宣传员,还能平直生成带有" Qwen Chat "字样的看板。

大约也可以模仿底下网友的作念法,以后用来制作一些梗图(doge)。

趁机一提,连 Qwen 团队成员之一 Binyuan Hui 也出来给内行打样,共享了吉卜力作风的某近日顶流。

好了,更多例子就不逐一展示了,只说一句:

面前模子免费开放,驳倒区可带图,记取得来共享一波~

在线体验:

https://chat.qwen.ai/

博客:

https://qwenlm.github.io/blog/Qwen-VLoo/

参考聚首:

[ 1 ] https://x.com/Alibaba_Qwen/status/1938604105909600466

[ 2 ] https://x.com/szkane/status/1938614382369575048

[ 3 ] https://x.com/huybery/status/1938639781988286957

一键三连「点赞」「转发」「小心心」

接待在驳倒区留住你的主义!

—  完  —

� �  量子位 AI 主题筹划正在征积存!接待参与专题365 行 AI 落地决策,一千零一个 AI 行使,或与我们共享你在寻找的 AI 产物,或发现的AI 新动向。

� � 也接待你加入量子位逐日 AI 疏导群,一说念来畅聊 AI 吧~

一键关怀 � � 点亮星标

科技前沿发挥逐日见欧洲杯体育

官网:www.wjddbs.com

邮箱:6e9c46cb@outlook.com

联系:15808937375

地址:新闻中心电子工业园4329号

Powered by 开云(中国)Kaiyun·官方网站 - 登录入口 RSS地图 HTML地图


开云(中国)Kaiyun·官方网站 - 登录入口-欧洲杯体育让它先生成一张北极熊喝可乐的像片-开云(中国)Kaiyun·官方网站 - 登录入口