从生成四个人的“五口之家”,到将宠物也纳入家庭成员,AI的生图能力在艺术性和准确性之间展现了巨大的差异。本文通过一系列AI生成“五口之家”图片的测试,揭示了AI在理解家庭结构和社会关系时的有趣“误解”。
周六去跑了个画了个小乌龟的线路图,在尝试使用 AI 生成一点配图的时候,然后看到别人了一张逆天的图:
我滴妈耶,这先不说数量不对吧,里面的角色安排也让我大吃一惊。
当我像个乐子一样把这一家五口的图片转发出去后,让我更炸裂的事情来了。有网友发了 AI 生成的新一家“五口”,简直不是人啊~
我不知道这个是什么情况啊,但我知道如果家里的小女儿也是这种情况,这个父亲和母亲是肯定笑不出来的。
于是乎,就这“一家五口”这组关键词,我进行了一些测试。
第一张的2个成年男子年龄较为接近,也符合要求。
第二张符合要求,父母加老大,加双胞胎。
第三张是长者+父母+双胞胎,也没啥毛病。
第四张和第二张相似。
通过场景的提示词重新生成:
家五口站在春日花园中,背景是盛开的樱花树和蓝天白云。要真人实拍,摄影风格,16:9,4k 画质
父母:父亲穿深蓝色衬衫,母亲穿浅紫色连衣裙,两人牵手站在中间,微笑看向孩子们。
孩子:
姐姐(左1):扎高马尾,穿粉色短裙,手持气球,微微跳跃。
弟弟(左2):戴鸭舌帽,穿条纹T恤,正放飞手中的风筝。
妹妹(右1):坐在草地毯子上,抱着绒毛小熊,脚边趴着一只柴犬。
细节:阳光透过树叶洒下光斑,孩子们影子清晰,父母身后有彩色风筝线飘向空中,画面充满温馨活力感。
结果是:文心一言更加精致的把5这个数字改为4,其他没毛病。
这个画风有点不对了,爸爸没有了,三个孩子看似血缘关系还有点不一样。
通过场景的提示词重新生成:
结果是:讯飞星火精准识别到了要求,除了人物的个数不对,其他没毛病。
豆包的生成还是很满意的,数量也对,并且还延伸了思考的概念。在无边界范围的情况下,拟定边界,这样做更加精准的输出,有利于更好的产生结果。
通过场景的提示词重新生成:
豆包对于复杂描述的提示词,这里就出现了一点卡壳。常见的问题还是数字的概念,其他效果都很好。
Kimi没有直接生图的能力,所以这里就不测试了。
350鸿图:一家五口。
图像的画质还不错,但数量不对。
通过场景的提示词重新生成:
360的鸿图明显出现了错误的情况,不但没有把文字内容的需求识别出来,另外还出现了数量错误和内容错误的情况。
这里我们放大来看,人脸全部都是一塌糊涂的状态。
一句话生成图片,混元在数量上没有做到完全识别。
通过场景的提示词重新生成:
通过更多描述词的添加,混元反而生成的内容更加精准。
以出图出圈的 AI工具 即梦在出图上,竟然也出现了两张数量不对的情况。
通过场景的提示词重新生成:
精准提示词的效果还不错,即梦的生图能力还挺好。
同样是以图像出圈的可灵,一共生成4张图,3张不符合数量要求。
通过场景的提示词重新生成:
通过更多关键词的描述,可灵生成的图片还是比较真实的。
以上评测,仅为一娱乐,不代表什么技术性的测试,也无意说明谁家好谁家不好。每个 AI 软件都有自己的优点和一些缺点,更多的还是要看底层的技术能力和针对场景的识别定义能力。
AI 生成图像的核心技术是生成对抗网络(GAN)和扩散模型。简单来说,GAN 就像一场 “造假者” 与 “审查员” 的博弈:生成器负责根据文字描述生成图像,判别器负责判断图像是否真实。两者不断对抗,直到生成器能骗过判别器。
但问题在于,AI 并不真正理解文字的含义,它只是通过海量数据学习 “五口之家” 常与 “五个人” 同时出现,于是直接把五个人拼在一起,却忽略了人体结构的细节。这就像你教小孩 “苹果” 是红色的,但他看到红气球也会喊 “苹果”——AI 的逻辑就是这么 “单纯”。
或许五口,这个概念对于 AI 来说,口就是个数的代替,人类的脑洞就是这么奇葩,所以我理解一家四个没有问题啊~多个那个口和我有什么关系呢?
经系统性梳理,当前AI图像生成领域除艺术风格差异外,主要存在两大技术瓶颈:人物数量动态控制失准与社会关系语义理解偏差。
在人物数量控制层面,AI模型存在显著的输出稳定性问题。以五口之家这一典型家庭结构为例,尽管家庭成员间的代际关系(如直系血亲、隔代亲属等)属于社会学中的基础概念,但现有AI系统难以精准映射此类结构化信息,常出现人物数量冗余或缺失现象。同时,在人物关系表达方面,模型输出易产生语义混淆,例如生成多个面部特征高度相似的个体,导致亲属关系逻辑紊乱。
从语义理解维度分析,AI系统对”家庭”概念的认知存在局限性。在现代社会语境中,家庭范畴已延伸至包含宠物等情感陪伴对象,但当前AI模型的训练语料库尚未充分覆盖这一概念的语义扩展,致使输出内容与现实认知存在偏差。此外,针对本地化模型的应用场景优化存在不足,未充分考量区域文化特征对家庭结构的影响。以国内模型为例,由于文化背景差异,模型输出中频繁出现与本土家庭结构不符的混血人物设定,反映出对地域文化特征的适配性不足。
前俩月在 AI 圈又出个大新闻:刘强东和王兴在外滩上演 “哥俩好” 自拍,两位电商大佬勾肩搭背、笑容慈祥,活脱脱像是要宣布 “京美合并”。结果仔细一看,照片边缘竟露出#ChatGPT的标签 —— 好家伙,这根本就是网友用 GPT-4o 生成的 “电子乐子”!更绝的是,还有各种公众人物莫名的出现,一眼看过去竟然都是“真”
AI把不可能变成“随手拍”,反而成了“真实”的认证标签。
据了解,这个功能上线初期无限制生成,虽然后续限制为每日10 张,但对比 Midjourney 的订阅制,OpenAI 用“免费午餐”快速占领用户心智。
当AI 生成变得像发朋友圈一样轻松,它就不再是小众玩具,而是融入日常生活的基础设施。
在这场永不停歇的人机对话中,真正赋予作品生命力的,从来不是精确的参数计算,而是创作者指尖的温度、眼眸的神采,以及面对镜头时那笨拙却真挚的姿态。这些不可量化的生命印记,构成了独属于人类的 “元代码”,在数字时代的艺术创作中,始终保持着不可复制的独特价值。
专栏作家
老虎~色,公众号:产品经理有话说,人人都是产品经理专栏作家。13年产品经理经历,涉及商业设计、业务转型、产品架构定义、个成成长等方面。自学AIGC落地应用,目前在鸿蒙场景做产品服务工作。
本文原创发布于人人都是产品经理。未经许可,禁止转载
题图来自 Unsplash,基于CC0协议