豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。

上周我写过一篇AI产品自用分享,当时我说,AI知识问答方面,我会选择openai o3和豆包。


PC场景下,o3比较多,而手机场景下,我用的比较多的还是豆包。


虽然ChatGPT也有app,但一旦手机开了魔法,微信啥的还有一些其他的应用,就很容易卡,非常的不方便。


所以我前两天在上海逛ChinaJoy的时候,看到一些忘了的图,或者是我不懂的梗,我都是随时随地问豆包。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第1张


比如这个暴雪展上巨大的泰瑞尔,当时跟朋友大眼瞪小眼,忘了是个啥,然后掏起了豆包就开始问。


然后我就发现,这个豆包,又双叒叕更新了。


更新了图片的视觉推理。


不愧是我群的高频讨论对象。。。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第2张


就是当你开着这个深度思考模式,再上传图片的时候,豆包就能对这个图片展开思维链推理了。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第3张



我给你们直接放个实例看看。


比如我刷ChinaJoy视频,看到了一个特别抽象的黑人哥们儿,念哪吒的打油诗念的头头是道的。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第4张



我想知道他是谁,就在豆包的深度思考模式下上传了一张他的视频截图,然后问豆包。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第5张


然后豆包就开始刷刷刷分步思考。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第6张



先是找了参考图片,然后又根据返回的结果搜索关键词和参考资料。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第7张



最后,给了我一个准确的结果。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第8张



如果ChatGPT玩的比较多的,应该就能非常熟悉了。


这不是o3最独特的那个视觉推理。




豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第9张


豆包,也终于上线了这个视觉推理功能,牛逼。


而且,o3要钱的,而豆包,免费。


豆包还是牛逼。


也用这个功能,给大家测一些好玩的。


我想到的第一个case,就是德爷。


与贝爷齐名的荒野求生硬汉,最近来中国了,这阵子在深圳。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第10张


热情好客的中国朋友,本着来都来了大过年的都是孩子都不容易的原则,生生把德爷的荒野求生变成了满汉全席。


视频里他们吃的那家饭店,我还挺想吃的,但点进评论区,居然没人说是哪家。


这届网友不行。。。


所以我就去问豆包了。


(是为了测试,并不是因为我馋。)


我扔给豆包几张截图,然后问它,这是哪家店。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第11张


它就开始思考了。


先确定这里是深圳。


盘子上有汉字,可能是店名。


视频发布者是德爷。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第12张


然后按照自己的推测,开始放大盘子,查看汉字。


给我看懵了,这么小的字,它居然都给认全了。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第13张



给我的结果,就是旺吉利海鲜大排档。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第14张


上大众点评一搜,真是这家店,往下一翻,卧槽,德爷跟店家的合照就明晃晃在店家动态里挂着。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第15张


单说豆包,可能还感受不到差距。


但我放个失败的案例你们就明白了。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第16张


把地址认成了北京,还说了一堆片儿汤话,最后也没给答案。


差距是拉开了的。


我们再来看一个德爷的案例。


最近他在深圳刷了一天盘子。


因为白吃了人家的牛杂,被抓去做劳力。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第17张


我就把德爷刷盘子这个图片发给豆包,问它这是哪家店。


它开始放大图片看细节。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第18张


文字信息不全,它也会自己脑补,最终得出了准确的答案。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第19张


添加图片注释,不超过 140 字(可选)


还有更好玩的,我把一张表情包发给它,问它出处是什么,它也是张口就来。

比如这两个表情包,一只骚气的鸡和一只尴尬但不失礼貌的猪。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第20张


豆包给我的回答,是这样的。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第21张


然后我才知道,这个鸡和这个猪,分别来自于太太乐鸡精和双汇火腿肠。


论当代网友的精神状态。。。


豆包甚至认识所有的奥特曼。


这是爱迪。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第22张



这是盖亚。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第23张



对于甄嬛传也是烂熟于心,给它看一张图,它就知道是哪个名场面,还能精确到集。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第24张


这在某种程度上,其实已经有点超越人类了。。。


除了搞抽象,干正事儿也不耽误。


这是考公都要面对的行测题。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第25张


豆包思维链那一栏刷刷刷跑了巨长,最后得出结论,这是一个关于对称的问题,然后选了B。


它答对了。


这道更复杂一点的题,也答对了。


豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第26张


还有这种考眼力的题目,我一看头都晕,但豆包飞快地把F给找了出来。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第27张


我还考了它一个高难度问题,就是把宗庆后的全家福发出来,让它认。


一顿截图推理之后,结果是这样的:比较重要的人物,宗庆后,妻子施幼珍,女儿宗馥莉,爷爷宗启騄,奶奶王树珍,都对上号了。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第28张



不过,豆包的深度视觉推理当然也有软肋。


遇到这种六个手指的问题,它还是会信誓旦旦地说出五个手指。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第29张


还有,把我的照片给它让它识别,它一次把我识别成了电竞选手,还有一次说我是电视剧三体的总导演。


到处碰瓷,把我给吓得。。。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第30张



不过这俩其实都还好,毕竟六根手指是现在所有大模型都绕不过的幻觉。


而我的形象也并没有在网上大范围流传,它不知道也正常。


总的来说,我觉得豆包这个功能,还是挺实用的。


把o3的视觉推理直接免费平权,用着也很方便。


还有我一个,我觉得非常酷的事。


就是,我在忙到爆炸的间隙出去看了一部一直都很想看的电影,《浪浪山小妖怪》。


我真的非常非常非常喜欢这部电影。


讲的是一群被上司压榨多年无法晋升的小妖怪,决定搏一把大的,冒充唐僧师徒去西天取经。


一路上这支散装队伍吵吵闹闹的路过了很多风景。


那些风景,在熹微的晨光或是朦胧的夜晚,静默地注视着这群心怀热血的小妖怪,看他们到底能不能把这个充满规则和潜规则的世界,搅得天翻地覆。


答案当然是不能。


故事中的一段,他们来到了这个场景。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第31张


我一看,好眼熟啊,好像在黑神话里见过,但我忘了是哪了。


然后一出影院我就问豆包,这个场景是哪,它很快的给了我回答: 佛光寺。



豆包悄悄上线的这个新功能,也能用眼睛推理全世界了。  第32张


我就说嘛,这是大圣去过的地方。


在电影里,几个小妖怪真在这个地方,见到了大圣。


小妖怪冒充唐僧师徒,但大圣没有杀小妖怪,而是给了他们,四根保命毫毛。


所以搜出来答案的那一刻,我感觉黑神话和浪浪山真的梦幻联动了,不只是场景。


还有内核,那种属于中国人骨子里的侠义情结,对命运的抗争,对苍生的悲悯。


然后我就觉得,这种快速把知识、线索串起来,然后电光火石间有所领悟的感觉太爽了。


这种知识丝滑进入脑海的方式。


可能就是我们未来与AI沟通的常态了。


当你有所想。


AI,便有所应。


文章来自公众号“数字生命卡兹克”,作者“卡兹克