9 月 25 号的时候,OpenAI 公布了 ChatGPT 的新能力:ChatGPT can now see, hear, and speak,ChatGPT 终于有了“眼睛”,可以看懂图片了。
国庆期间,就被灰度到了图像理解能力,体验了一下,还是很惊艳的。接下来会从下面的一些维度,来带大家一起深度体验 ChatGPT 的图像能力。
先来看看 ChatGPT 的物体识别能力吧,刚好十一出去玩的时候看到用玉石做的一些食物摆件挺逼真的,拿来让 ChatGPT 识别看看。提示词如下:
这个图里面有哪些食物?
ChatGPT 的回答还算可以了,识别出了以下的食物。其中部分的回答不是很精确,不过也超出我的预期了。下面是 ChatGPT 的回答,其实这里没看到鸡爪,不知道它把什么识别为了鸡爪了。另外把荷包蛋识别为了猪耳朵,有点逗~
还有一个用玉石做的各种古书的图片,ChatGPT 识别出显示的可能是这些古籍的复制品或艺术品,而非实际的古书。也能识别出其中部分书籍的名字,但还是有幻觉,给了一些图片里没有的书籍。
小的时候经常会有看图写作文的题目,给一个图片,然后让写一段内容来描述图片里的故事或情境。我们来看看 ChatGPT 的能力如何,这里在网上找了一个插图,提示词如下:
可以帮忙描述下这张图片里面的情景吗
然后直接让 ChatGPT 描述下这张图片里面的情景。ChatGPT 的回答依旧惊艳,总结这张图片展现了一个充满乐趣和欢声笑语的生日派对场景,还给出了详细描述:
不过尴尬的一点是,把墙上相框里面的照片识别成了电视,然后里面的人物数量也不是很准确。
其实上面的例子中已经可以看出来 ChatGPT 对细节的捕捉能力很强了,注意到了地上散落的玩具小车、气球等。我们还可以继续追问一些细节,比如“图片左侧中间偏上一点的黑色的是什么呢?”。ChatGPT 认为图片左侧中间偏上的黑色物体是一个壁炉(fireplace)。从其结构和位置来看,它应该是房间的一个固定装饰或建筑元素。
接下来继续追问它墙上相框里照片有多少人,这次 ChatGPT 翻车了,先是说 5 个人,让它重新数,说是 6 个,最后让它“仔细看下“,还是回答错误:照片中有五个人,分别是两个成年人和三个孩子。
一个不到 1 岁的人类小孩子都能读懂大人的表情,知道大人的情绪,那么 ChatGPT 在看懂表情这里的表现如何呢?这里为了测试起来方便,直接拿了一个有很多张表情的照片来测试。提示词如下:
这个图片里还好多人脸表情,分别是什么情绪呢?你可以一个个给我描述下情绪
ChatGPT 直接从左上角开始,按照从左到右、从上到下的顺序描述,不过开始给了我 17 个表情描述,然后告诉他一共有 15 个,让它重新生成描述。为了和图片对应起来,这里我输出一个表格,对应上面的表情的位置。
1 | 2 | 3 | 4 | 5 |
---|---|---|---|---|
思考或困惑 | 惊讶 | 难过 | 思考 | 无表情或冷漠 |
微笑 | 吓到 | 开心 | 惊喜 | 深思 |
不悦或皱眉 | 大笑 | 调皮或开玩笑 | 严肃或无表情 | 开心或欣然 |
大家都玩过一些找左右两张图片不同点的游戏吧,这种对人来说还是挺难的,有时候就是找不出区别来。那么 ChatGPT 表现如何呢,在网上找了一个图片,拿来试试看。提示词如下:
找出这张图片里,左右两部分不同的地方,并逐个描述出来
ChatGPT 的回答有比较严重的幻觉,它认为左右两部分的不同之处:
它也能看到左边部分中间有彩虹色的棒棒糖,虽然事实上左右颜色都一样,但是 ChatGPT 认为右侧的颜色较为简单。另外两个不同地方也都是不对的,看来 ChatGPT 在这类任务上能力还是比较差的。
通过前面的体验,可以看到ChatGPT在图像理解方面的能力还是很不错的,在物体识别、情境解释等方面表现出惊人的潜力。ChatGPT的视觉能力才刚刚开启,仍有不少提升空间。我们有理由相信,随着训练数据的丰富和模型的迭代升级,ChatGPT将来可以做到真正“看得清”。
在视觉能力出来之前,为了让 ChatGPT 生成一些前端代码,还得费尽心思给它描述页面长什么样,以后就直接把设计图或者随手画的草图扔给它,然后坐等它实现代码了。