新智元报道

编辑:好困 桃子

【新智元导读】龙虾终于会画图了!阿里Wan2.7-Image刚刚上线,捏脸到骨相级、首创「调色盘」、3K超长文本写满A4不崩,还能接入OpenClaw一句话出图。

养虾人狂喜! 今天,龙虾终于学会生图了。

捏脸捏到骨相级别,调色精确到HEX色号,文字渲染一口气写满一页A4纸,编辑指哪改哪,9张参考图喂进去脸都不崩。

炸不炸?先看这组。

同一段提示词,只改外貌描述,出来五张完全不同的脸——

Prompt:

正面半身人像,一位【外貌的设定】的男性乐队主唱在舞台上演出,单手握住立麦,头微微后仰嘶吼,汗水从额头滑到下颌线,汗湿的黑色碎发贴在前额和鬓角,穿一件被汗浸透的黑色背心,锁骨和手臂肌肉线条清晰,舞台顶光从正上方打下来形成强烈的明暗对比,背景是模糊的彩色舞台灯光和烟雾,摇滚现场抓拍风格,高ISO颗粒感,85mm镜头。


从满脸的络腮胡、稚嫩的娃娃脸,到微胖的身材、深棕黑色的皮肤,主体保持了惊人的一致性。





左右滑动查看

同一个舞台,同一束顶光,但是五张完全不同的脸!

背后的狠角色,是阿里4月1日刚上线的Wan2.7-Image,一个把生图和编辑能力统一在一起的新模型,同步支持作为Skills接入OpenClaw

翻译成人话:你的龙虾,现在不光能聊天、写代码、跑自动化,还能画图了。而且画得,相当能打。

千人千面,告别AI脸

「活人感」,一种微妙的真实,恰恰是AI生图最难驾驭的地方。

打开任何一个图文平台,满眼皆是同质化的「塑料AI脸」。不偏不倚的五官比例,毫无瑕疵的鸡蛋肌,以及一双空洞呆滞的眼睛。

这些被算法喂出来的「标准脸」,美得毫无破绽,却像流水线上批量生产的偶像练习生。

千人一面,毫无灵魂。

Wan2.7-Image的解法,是把生成粒度下钻至「骨相」与「皮相」的微观层级。一句简单的提示,便可做到从骨骼结构、眼眸深浅到五官细微处的全方位定制。

你可以精准要求生成鹅蛋脸、圆脸、方脸或长方脸。

Prompt:

正面半身人像,一位25岁的东亚女性,【脸型的设定】,自然光线,眼神直视镜头,黑色直发披肩,穿白色圆领T恤,背景纯色浅灰,写实摄影风格,35mm镜头,浅景深。




鹅蛋脸、圆脸、方脸

这种「捏脸」还可以进一步延伸到眼部细节的微调。杏仁眼、圆眼、丹凤眼,动动嘴就能定制。

Prompt:

一张超近距离面部特写,画面只截取眉毛到鼻尖的范围,一位25岁东亚女性,【眼睛的设定】,皮肤细腻有毛孔质感,自然光从正面柔和打入,没有妆容,素颜,睫毛根根分明,虹膜深棕色可见纹理,眼角有一颗小痣,背景完全虚化为奶白色,微距摄影风格,100mm微距镜头,超高清。




杏仁眼、丹凤眼、眯缝眼

整个人的全脸拿捏,仅凭一句话即可完成。千人千面,尽在一语之间。

这正是「活人感」的本质:不完美,但真实。

首创「调色盘」,色彩不再是盲盒

在设计师眼里,颜色就是精准的空间坐标。

一句「暖橙色调」,对于不同的AI可能产生差异悬殊的结果:有时是莫兰迪的土橙,有时是梵高向日葵的明黄,有时又会滑向秋日夕阳的深红。

这种「色彩盲盒」式的随机性,设计师根本没法交差。在严苛的品牌视觉系统面前,1%的色差即是无效产出。

由此,Wan2.7-Image在业内首创「调色盘」功能,将色彩控制权交还给创作者。

用户可通过HEX色号,一键提取或输入参考图的各种颜色和占比,自由调控颜色的数量和比例,自定义配色方案。

从马蒂斯浓郁的红色系、梵高明媚的黄色系,到毕加索清冷的蓝色系,都能参考生成同色系的图片。


万相网页版已经内置了完整的调色盘交互,三步搞定:

第一步,点击底部工具栏的「调色盘」按钮,弹出配色面板。系统预置了「蓝调」「热情」「马卡龙」「莫兰迪」等多种推荐配色方案,选一个直接用也行。


第二步,想自定义?

点「新增配色方案」,然后点「从图片提取配色」,上传任意参考图,系统自动提取主色和占比。

颜色数量可以用加减号增删,比例可以拖动色块边界自由调整。



第三步,确认配色后回到主界面,调色盘已经挂载到工具栏上。输入场景描述,点生成,出来的图就严格遵循你定义的色彩方案。


有了这套流程,世界名画的灵魂色彩,从此触手可及。

梵高《星月夜》中,那抹热烈奔放、盘旋交织的蓝黄撞色,让Wan2.7-Image提取八种颜色,并重构于现代都市。

可以看到,在这座灯火通明的城市中,点缀的正是星月夜中的色调。

Prompt:

一座现代城市的天际线夜景,高楼大厦的灯光倒映在平静的江面上,远处有一座跨江大桥,天空中有几朵流动的云,电影感构图,宽幅画面,油画质感。



又或是,将莫奈《日出·印象》中蓝灰色调与太阳爆发出的柔和橙黄,映射到另一个物理空间中。

Wan2.7-Image把莫奈的色彩DNA植入到每一个元素中,让江南水乡也有了一种印象派的滤镜。

Prompt:

一座江南水乡古镇的清晨,石拱桥横跨窄河,两岸是白墙黛瓦的老房子,河面有薄雾弥漫,一条乌篷船静泊在桥下,柔和的晨光从东方透过来,摄影质感,35mm镜头。



同样,还可以把一张AI艺术画的色调,一键迁移至「大裤衩」的建筑艺术构图中。

Prompt:

A surreal 3D installation of the CCTV Headquarters building in Beijing, the building is made of translucent blue crystalline glass with a diamond grid texture, adorned with oversized colorful vibrant flowers and pom-poms in pastel pink, orange, and blue, lush flower garden at the base, bright blue sky with fluffy white clouds, dreamy and romantic atmosphere, soft natural lighting, C4D rendering, Octane render, high detail, 8k, cinematic composition.



3K超长文本,生图告别「文盲」时代

在AI图像生成的「顽疾清单」上,文本渲染始终盘踞榜首。

一旦字数超过几个词,AI的表现便开始失控:字母变形、笔画断裂、汉字错位,甚至整段文字莫名消失。

Wan2.7-Image对这一顽疾发动了正面进攻。它实现了对超长文字、表格、复杂公式的印刷级渲染,支持业内最长的3K Tokens文字输入,可以写满一页A4纸

Prompt:

一张大学高等数学期末考试试卷,白色纸张,印刷体黑色文字,包含以下内容:

一、选择题(每题5分,共20分)

函数 f(x) = (x²-1)/(x-1) 在 x=1 处的极限为: A. 0 B. 1 C. 2 D. 不存在

若 ∫₀¹ f(x)dx = 3,则 ∫₀¹ 2f(x)dx = A. 3 B. 6 C. 9 D. 12

二、计算题(每题15分,共30分)

求不定积分 ∫ x²·eˣ dx

计算二重积分 ∬_D (x²+y²) dxdy,其中D为 x²+y²≤4

三、证明题(25分) 用ε-δ语言证明:lim(x→2) (3x-1) = 5

四、应用题(25分) 设曲线 y = x³ - 3x + 2,求该曲线在区间[-2, 2]上与x轴围成的面积。

标准A4纸排版,页眉印「XX大学 2024-2025学年第一学期期末考试」,页脚印「第1页 共2页」。


积分号、求和号、ε-δ语言,一个没崩。

再来一张竖版书法卡片:

Prompt:

一张竖版宣纸质感的书法卡片,毛笔楷体风格,居中排列,内容为苏轼《水调歌头》全文: 明月几时有?把酒问青天。不知天上宫阙,今夕是何年。我欲乘风归去,又恐琼楼玉宇,高处不胜寒。起舞弄清影,何似在人间。转朱阁,低绮户,照无眠。不应有恨,何事长向别时圆?人有悲欢离合,月有阴晴圆缺,此事古难全。但愿人长久,千里共婵娟。 背景淡米色宣纸纹理,右下角一枚红色印章。


对比之下,ChatGPT和Gemini都有明显的错字。



但真正让我们倒吸一口凉气的,是下面这组。

Wan2.7-Image直接生成了带有完整图表、公式、分栏排版的学术论文页面。



说实话,这个场景日常用到的概率不高,背后的提示词长到离谱,塞满了论文标题、正文段落、图注、参考文献格式等海量细节。

普通用户大概率不会这么用。但这恰恰是秀肌肉的时刻。

能把这种极端长文本、多层级排版、图文混排的任务吃下来,说明Wan2.7-Image的文本理解和渲染引擎在底层就是按「印刷级」的标准做的。

日常写个菜单、出张海报,对它来说只是降维打击。

甚至是多语言文字同屏输出,也难不倒Wan2.7-Image。

Prompt:

一张极具电影感的写实照片,展示一位优雅的中国女子,身穿精致的汉服风格深蓝色提花夹克(金丝祥云刺绣)和米色褶皱长裙,头发整齐地盘在脑后,插着一根精致的发钗。她正坐在一张古朴的深色木桌前,专注地阅读一本封面标有「WORLD LITERATURE」和中文「世界文学」古籍。 桌上堆放着两摞多语言书籍,书脊清晰可见,标有「Oxford English Dictionary」、「现代汉语词典」、和「DEUTSCHE GRAMMATIK」等字样。在她面前,一本打开的笔记本上摆放着一支精致的钢笔,笔记本上写满了手写笔记。在桌子的左侧,两个古董地球仪(一个显示欧洲,一个显示亚洲)摆放有序。 背景是两个巨大的、堆满数千本多语言书籍的实木书架,书籍摆放整齐。一个大型的中式木窗位于左侧,透过窗户可以看到一个宁静的竹林花园和远处的树叶。窗玻璃旁墙上清晰地贴着一个挂轴,上面写着四个中文大字:「学无止境」。 自然的晨光从窗户洒进来,照亮了场景,营造出温暖、宁静的氛围。视角是眼平视,捕捉了女子和环境的丰富细节。电影级画质,自然胶片颗粒。


Prompt:

一位面带微笑的、不同族裔的五人小组,在阿姆斯特丹繁忙的、铺有石板的步行市场街道上,面向镜头,肩并肩站成一排。从左到右:一位老年中国女性,穿着传统的丝绸图案夹克,双手拿着一个木牌,上面用白色汉字写着「你好!」;一位年轻的日本男性,戴着眼镜,穿着米色连帽衫,拿着一个纸板标志,上面用黑色日文写着「こんにちは」;一位年轻的法国女性,戴着黑色贝雷帽,穿着条纹衬衫,拿着一个纸板标志,上面用黑色法文写着「bonjour!」;一位年轻的印度男性,戴着深蓝色头巾,穿着米色突尼克衫,拿着一个纸板标志,上面用黑色印地语写着「नमस्ते!」;一位年轻的非裔女性,留着蓬松的卷发,穿着色彩鲜艳的图案上衣,拿着一个纸板标志,上面用黑色葡萄牙语写着「Olá」。背景是典型的荷兰运河房屋、一辆行驶中的阿姆斯特丹有轨电车、色彩鲜艳的街道旗帜和繁忙的市场摊位,柔和的日光,景深较浅。


AI绘图的「文盲」时代,由此终结。

交互式编辑,指哪打哪

生图能力再强,创作者最终还是需要编辑。而AI的编辑能力,长期以来是一块烫手的短板。

用过传统AI修图的人,或许都经历过一种绝望:改一下背景颜色,主体人物的服装也变了;稍微调整一下嘴角,整个面部结构崩塌重建。AI不理解「局部修改」的边界,把不想改的地方也改了,妥妥的「效率黑洞」。

Wan2.7-Image用「精准框」的交互方式解决了这个问题。在指定区域内完成元素添加、对齐、移动元素或logo,框外的内容纹丝不动。

举个栗子,精准框选图中的大雁,并输入指令:将图中框选的大雁移动到虚框位置,并且姿势变成站在屋檐上。

被框选的大雁,已经落到了屋檐上,图中的其余部分都被「完美锁定」,未受任何干扰。

更惊叹的是,Wan2.7-Image智能地将大雁缩小,让其符合透视原理,完美融入远景建筑物的比例。

大雁的姿态也从「展开双翼飞翔」切换为「收起翅膀直立栖息」,整个画面过渡非常自然。



万相网页版已经内置了完整的编辑交互,操作也很直觉:

第一步,在图片生成页面,底部工具栏将模式切换为「底稿」,上传要编辑的原图。

第二步,点击已上传的图片缩略图,弹出操作菜单,选择「框选」。也可以选「更换」或「删除」,对应不同的编辑需求。



第三步,在图上拖出一个矩形框,圈住你要编辑的区域(支持框选1-2个区域)。支持消除、修改、添加、移动、尺寸变换等操作,确认后回到主界面。


第四步,在输入框里写上你的编辑指令,比如「框选的位置加个薯饼」,点生成,搞定。


这种指哪打哪的「交互式编辑」,让AI终于从「不可控的艺术家」变成了「听话的执行搭档」。

最多9图参考,主体统一不走形

多人场景一直是AI生图的重灾区。角色一多,脸就崩,风格就飘。

Wan2.7-Image支持最高9张图片作为参考源,多张参考图喂进去,人物长相、风格、光影全锁死,输出结果在视觉上高度统一。

做电商的朋友们真的有福了。只需上传一张参考图,Wan2.7-Image就能带着同一个模特在全球各地「瞬移」,不管环境怎么变,主体人物的长相、神态都稳如老狗。


上一秒身着波西米亚长裙,漫步在马尔代夫的细软沙滩,下一秒已身处巴黎街头慵懒地喝着咖啡。

从高级商务范到东京潮流街拍,再到健身房的运动风,切换得游刃有余。






左右滑动查看

不止人物。

五双完全不同的鞋子,Wan2.7-Image也能完美揉进同一张画幅,无变形、无违和。这才是电商人梦寐以求的生成器。







更狠的是,Wan2.7-Image还能一口气吐出多达12张逻辑连贯图像序列。

下面这个测试中,它连续生成八张图,构成了一个完整的小故事,角色特征始终如一,几乎毫无偏差。

Prompt:

请生成一组8张逻辑连贯的电影分镜序列,讲述以下故事:一个穿黑色风衣的年轻女性深夜走进一家无人便利店,她从货架上拿了一杯泡面,坐在窗边等热水,窗外开始下雨,她看着雨发呆,手机屏幕亮了一下她没接,泡面泡好了她开始吃,最后一张是她吃完走出便利店撑开伞消失在雨夜街道尽头。全程无对白,电影感构图,每张画面的机位和景别有变化(远景、中景、特写交替),统一冷青色调,35mm胶片质感。









左右滑动查看

从「单帧」到「时序」,分镜脚本、PPT系列配图、电商模特套图、多视角建筑方案,都可以批量交付。AI生成从「逐张抽卡」跃入「序列化生产」。

六边形战士是怎么练成的

实测看完了,拆底层。

Wan2.7-Image凭什么做到上面这些?五大功能的背后,每一项都指向算法架构与训练数据上的深层变革。

先看硬指标。

在人类偏好盲测中,Wan2.7-Image的文生图能力超过GPT Image 1.5和国内主流模型,在文本渲染、照片级成像和世界知识三个指标上,逼近Nano Banana Pro,可谓国内最强生图模型。


再看能力面。

Wan2.7-Image支持交互式编辑(文字编辑、空间变换、内容生成和替换),多图像生成能力覆盖时尚美容、平面设计等多领域,堪称六边形战士。


那关键问题来了:它为什么不只会生图,还更懂图?

答案藏在三层技术栈里。

第一层,数据。

超大规模的异构数据底座,不仅涵盖全域品类的视觉素材,还整合了理解类数据。模型不是只看过图,它还「读」过图。

第二层,架构。

Wan2.7-Image采用生成与理解统一的模型架构,在共享的潜在空间内完成语义映射。文字紧挨着画面,模型不需要费力去猜文字对应的画面,它本来就知道。

第三层,训练。

训练流程中引入了多模态指令(文字+图片混合输入),让模型实现了从单纯的像素拟合到底层语义认知的跨越。配合多维精细标注体系(按布局、文字、光影、拍摄角度、用途等维度标注)和分阶段训练策略,模型在长尾场景下依然稳得住。

同步上线的还有Wan2.7-Image-pro,基于更大规模数据和模型尺寸训练而成,构图更稳,语义理解更精准。追求极致效果的用户,可以直接上Pro版。


三步接入龙虾,让它替你画图

这一次,Wan2.7-Image同步支持作为Skills接入OpenClaw。

那么,具体该怎么接?

万相网页版左下角已经挂上了「龙虾」图标,简单三步一键完成接入——


第一步,在你的「龙虾」里通过对话安装Skills,直接发一句:

帮我安装Wan-skills https://github.com/Wan-Video/Wan-skills


第二步,按照提示告诉「龙虾」阿里云百炼API Key。

第三步,用对话开启「龙虾」生图体验。

接入之后,即可立刻体验Wan2.7-Image生图魔法了。

上面实测中,捏脸、调色、长文本渲染、精准编辑、多主体一致性,全部可以通过龙虾的对话界面触达。

这才是AI生图真正该有的样子:深度嵌入你已有的工作流,成为一个随叫随到的「设计师」。

每个人手里,都握着遥控器

回看Wan2.7-Image的五项核心能力,它做的事说到底就一件:把创作的控制权,从算法的随机性里夺回来,交还给人。

一个十人规模的短剧团队,过去最头疼的是「预生产」阶段。角色长什么样,分镜怎么画,特效预演怎么做,每一步都是时间和钱。现在,千人千面的捏脸加上组图生成,角色设定、动作参考、视觉方案可以在正式开机前全部跑通。试错成本从「天」压缩到「小时」。

一个做穿搭号的自媒体博主,日常最大的消耗不是选品,而是配图。封面图的风格要统一,OOTD的场景要多变,系列内容的视觉调性不能跑偏。现在一段精确的提示词加一个调色盘,品牌视觉的一致性就有了底。

一个中小电商商家,一件商品需要数十张素材图。传统摄影外包的成本和周期让人望而却步。多主体一致性加上组图生成,单张模特图可以裂变为覆盖不同场景、不同卖点的完整素材库,上新周期大幅缩短。

从「千篇一律」到「千人千面」,从「盲盒抽卡」到「精准微操」。

AI生图这件事,第一次真正由你说了算。

即日起,用户可在https://tongyi.aliyun.com/wan/、wan.video网站和阿里云百炼体验Wan2.7-Image,千问App也即将接入。