AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题

豆包大模型1.6惊艳亮相,成为国内首款多模态SOTA模型,256k对话窗口,深度思考最长上下文。它不仅能看会想,还能动手操作GUI,国内最有潜力考清北。


还得是字节,一下子能掏出这么多好东西。


就在刚刚,火山引擎原动力大会上发布的豆包大模型1.6,是国内各家SOTA模型中首个多模态模型,也是国内首个支持256k上下文长度的思考模型。


此外,豆包·视频生成模型Seedance 1.0 pro、豆包·语音播客模型,豆包·实时语音模型也都在火山引擎上全量上线。


这让豆包大模型家族凭借全模态支持、全尺寸覆盖和超高的性价比成为行业领先的顶尖模型。


其中,豆包大模型1.6除了支持深度思考、多模态理解,还能进行GUI(图形界面)操作,这意味着豆包既有「眼睛」,还能「动手」。


性能上,无论是数学、推理还是多模态,都妥妥的国际第一梯队水平。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第1张


现在新推出的模型推理能力都很强了,拉出来解个数学题啥的应该问题不大。


豆包大模型1.6做今年的海淀模拟全卷,就取得了理科706、文科712的高分!


相比之下,去年的豆包只有600分左右的成绩,真是进步巨大。


看起来这么厉害,高考刚刚结束,来实测一下这次的豆包1.6是不是「真的」能考上清北。


高考题测试推理能力


首先从比较少有人测的物理开始。


看看豆包能否搞定带图的物理题目。


来看一道今年刚刚出来的物理真题,这是一道压轴题,关于大气压强的。


光看到题目,大部分小伙伴可能已经投降了,让我们期待一下豆包大模型1.6「学霸」的表现。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第2张


稳定又惊艳!


连续两次测试都得到完美的正确答案。


可以看到,每一个小问,豆包大模型1.6都会给出思路分析、关键步骤以及最终答案,相当的详细。


而且,回答中对于公式的渲染也没有任何的问题,看起来舒服又专业,大大的点赞👍。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第3张


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第4张


思考的过程也非常流畅,没有拖泥带水的感觉,消耗的token量很少。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第5张


值得一提的是,豆包1.6可以启动AUTO模式——模型会自动判断当前问题是否需要启用「思考」,这样不仅可以针对简单题目省去不必要的思考时间来提高效率,并且还能大幅减少token的消耗。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第6张


不难发现,豆包1.6在思考模式下的思维链非常简洁清晰,既没有大段毫无意义的废话,也不会陷入自我怀疑夸张不停地重复。


一步一步做完,最后再检查一遍,就直接「出炉」了。


接下来我们测试了网上讨论很多的一道考生做起来很简单,但大部分模型都全军覆没的图表题。


在这道需要精准识别坐标和向量方向的推理题中,豆包1.6的表现依旧惊艳,可以通过逻辑清晰的5个步骤解答出正确答案。


但需要说明的是,豆包1.6在回答这道问题时并不稳定,大概是图像箭头的识别容易混淆。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第7张


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第8张


看来上面这道题豆包已经可以解出来了,那么只能请出今年高考的数学压轴题了!


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第9张


豆包这次的思考时间明显变长,足足耗时505秒,看着长长的思考列表,不得不感叹这也太强了,这么长的思维链竟然没有断开。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第10张


思考过程也更加复杂,不仅要记住三个小问题,还要一个个攻破。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第11张

仅仅是一小部分的思考过程


在实测过程,还意外的捕捉到了豆包1.6「啊哈时刻」,和之前DeepSeek-R1论文中的简直如出一辙。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第12张


最后来展示下豆包给出的答案,和目前流传的答案对比,也是完全正确。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第13张


此外,这次全国卷中还有一道带有图片的几何大题,我们也让豆包1.6来挑战一下。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第14张


这次豆包仅用83秒就完成了解答,在和网上的答案进行比对后,豆包再次答对。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第15张


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第16张


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第17张


高考化学题目也不在话下(对不起,我的化学已经完全还给老师了,这是什么天文符号啊)。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第18张


在经过180秒的思考后,豆包完成了这道题目(有没有大学霸帮忙看看,豆包做的对不对)。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第19张


图像识别和分类


实测豆包1.6多模态图像能力,真的被震惊,甚至比ChatGPT 4o原生图像能力还要强大。


如果让你分辨这些猫猫的品种,后两种肯定难不倒你,但是前两个大概率会猜错。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第20张


但是豆包1.6只用了不到40秒就完全回答正确!要知道小熊猫和浣熊是非常容易认错的。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第21张


豆包的思考过程非常的详细,已经能够「细致到」识别动物头顶的小撮发色、眉眼的纹路以及一点点漏在外面的粉色舌头。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第22张


还有最近很火的看图猜地点玩法,下面这张图几乎没有任何额外的有效信息,即使是专业玩家也无法准备定位。


意外的是,豆包竟然猜了个大差不差。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第23张


结果这就离谱,豆包竟然根据植物分辨出了南北,还根据环境中的电线猜出了城市道路。


最后定位于北方城市公园(真的就是北京某个公园,有没有大佬猜出这是哪里的),还给出了可能的选项,真的要给跪了,太强了。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第24张


视频理解能力


豆包1.6多模态大模型现在还可以直接理解视频,你敢信?!


上传一个太阳系的视频,豆包就能给出这个视频的完整分析。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第25张


豆包就像一个编剧一样,将视频内容完全地转化为了剧本。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第26张


在字节的官方描述中,豆包1.6的视频理解不仅可以提取视频信息、描述视频内容,还可以根据视频创作文案,还能审核。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第27张


上传一个最新出炉的MacOS 26的最新Dock栏视频,豆包竟然也能识别。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第28张


甚至还给出了每个App的详细描述,以及视频画面中鼠标的位置变动,这样看起来这个功能真的有点科幻了!


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第29张


GUI操作


在智能体越来越流行的当下,能让智能体「动起来」也变得越来越重要。


豆包大模型1.6凭借强大的视觉深度思考和精准的视觉定位能力,能让智能体轻松与浏览器和其他软件互动,高效完成各种任务。


它对GUI(图形界面)的操作,远不止代替人点击几下APP界面那么简单,而是能打破传统APP和界面的限制,更智能、自动化地满足人们的真实需求。


比如,豆包大模型可以调用豆包APP,自动上传小票、自动识别小票的消费地与金额,甚至还能进行汇率换算、整理到Excel表格里。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第30张


火山引擎加速进击AI云市场


如今,火山引擎已经在快速进击AI云市场。


过去两年多,字节自研的豆包大模型和火山引擎的AI云原生基础设施,已经获得不少市场的认可。


如今,他们的优势还在进一步扩大。


豆包的优势


首先,豆包1.6模型的超高性价比,扩大了竞争优势。


现在,豆包大模型的日均Tokens使用量,已经达到了16.4万亿,占中国公有云大模型服务调用量的第一,市场份额直接达到了46.4%。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第31张


随着深度推理模型的发布,AI工具的Tokens消耗增加了4.4倍;K12的在线教育场景增加了12倍;新出现的智能巡检、图片信息理解等场景,也迅速单日破百亿Tokens。


同时,豆包大模型的应用,还在加速渗透企业生产场景。


比如在消费电子行业,全球有Top 10手机厂商中有9家都选择了火山引擎;在汽车行业,它已经助力了8成主流汽车的AI升级;在金融领域,它服务了70%的系统重要性银行;在教育,火山引擎已经和北大等超5成的985高校达成合作。


Agent开发平台


很多人说,25年很可能是中国的智能体应用元年。在这个阶段,深度思考、多模态理解和工具的基础调用,是模型进化的关键方向。


而在AI时代,大模型要做好强推理、多模态、低成本,才能支持好Agent的大规模应用。


同时,厂家也需要提供强化学习、Prompt优化、MCP Hub、知识库、运行沙盒等种种开发平台和工具,才能基于模型做好Agent的开发。


总之,构建高生产力的Agent,既要用好AI,也需要做好AI。


为此,火山引擎提供了一系列工具,其中MCP和知识管理,属于「用好AI」的层面,而PromptPilot和强化学习,则属于「做好AI」的范围。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第32张


MCP


围绕MCP协议,火山引擎致力于链接开发、生态和云服务这三大要素,目的是将其串联起来。


现在,火山引擎的MCP Hub,已经和AI原生IDE Trae、火山方舟体验中心、Cusor以及扣子打通,可以一键选择200多个丰富的MCP协议和服务。


它集成了还火山引擎的云服务,帮助用户快速进行端到端AI应用开发。开发者通过MCP,就可以控制火山引擎的大部分云服务组件,把创意变成成熟的产品了。


PromptPilot


同时,火山引起还推出了大模型应用的重要领航员——Prompt Pilot。


在第一步,它就可以让开发者以最自然的语言来表达一个模糊的需求,在简单互动中得到一个初步增强后的Prompt。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第33张


然后,它还能在互动中,帮助用户明确理想的回答和评估标准。


另外,它还能让开发者通过good case和bad case的对比,表达自己对哪一版更满意,通过自动比较分析,积累出更完整的真实意图。


在这个过程中,它还能实现提示词的自动优化。


好消息是,现在PromptPilot已经面向所有用户全面开放了!豆包大模型再加上PromptPilot,将意味着模型潜能的极致挖掘。


AI知识管理


同时,今天火山引擎还发布了AI知识管理产品。


首先,它可以消化全部的信息模态,能支持文本、图像、视频等多模态的对话式输入,还能把输出的数据组织为更为易于理解的图表。


其次,它可以将企业和平台的本地资源和互联网的内容结合,以企业内部信息为主,以互联网搜索为辅,呈现出更立体的结果,内外联动,瞬时可查。


另外,它还能进行可交互的推理——「做个计划」,过程还可修正,就好像你正在和同事协作一样。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第34张


veRL强化学习框架


如今,强化学习的应用会越来越重要,多步骤复杂任务的成熟和落地,已经是2025年的重要趋势。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第35张


不过,强化学习的落地,始终面临着很多挑战,有很多门槛。


为此,字节跳动开发了veRL强化学习框架,并在2024年1月正式开源。


它可以轻松扩展各种强化学习算法,将现有LLM基础设施与模块化API进行无缝集成,还拥有极致的吞吐性能,支持复杂工具的使用场景。


现在,它已在Github社区获得8.6k stars,已经有将近30个行业工具、框架基于其发展。它已是学术界、产业界最受欢迎的RL框架之一。


数据


大数据上,AI时代数据的量级和类型都在发生变化。


从结构化数据,到非结构化数据,再到以多模态数据为主,如何为AI构建多模态数据湖,就成为了新的挑战。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第36张


多模态数据湖


为此,火山引擎专为企业打造了新一代AI原生数据基建——多模态数据湖。


它能支持GPU和CPU的异构计算,大幅提升资源使用率,灵活支持多种开源系统,还能和火山的机器学习平台和方舟平台一键打通。


这样,用户就能通过可视界面操作数据,筛选出高质量的数据导入到方舟平台,进行下一步的应用和精调。


由此,数据就从过去的单纯支撑商业智能报表,转变为驱动AI模型训练与决策的核心燃料。


Data Agent


很多企业都希望,能用AI给每个员工配置一个数字专家。基于这样的观察,火山引擎推出了Data Agent产品。


这个企业级的AI数字专家,能够主动思考、洞察、分析与行动,构建自主进化数据大脑。


比如,现在你需要做今年的618规划,分析过去的促销需求。这个任务过去需要多个分析师花10多天完成,现在Data Agent在一个小时内,就能给出对应的结果。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第37张


由此,Data Agent让每个员工都能像专家一样思考,让企业竞争力得到质的飞跃。


AI Infra


在AI时代,要以大规模GPU推理为核心来构建新一代的计算、存储和网络系统。


火山方舟上,豆包和DeepSeek的性能之所以达到业界最佳,背后都是下面这些基础设施的功劳。


AI真有希望考清北了!豆包1.6多模态推理发威,闯关数理化带图大题  第38张


AgentKit发布


AgentKit是围绕着Agent打造过的工具和平台进行的一个整体的SDK封装。


依托字节跳动大量AI应用研发经验,它提供了强大的Agent开发底座。


它通过极致弹性沙箱,保障了工具生态安全高效运行,还搭配开箱即用的记忆管理机制和Agent全链路观测等核心能力。


由此大幅降低了Agent开发的复杂性,帮助企业聚焦核心、提高效率。


TrainingKit发布


模型的训练正在向预训练和后训练转移,以RL为代表的后训练,对基础设施提出了更高的要求。


火山引擎的云原生训练套件TrainingKit,面向预训练提供集群诊断、故障自愈等能力,助力实现高达99%+ETTR。


因为提供了HPN高性能智算网络、veCCL集合通信优化、BCC拥塞控制算法,它助力实现了高达60%+MFU。


面向后训练,它提供了veRL框架集成、训推引擎集成,Sandbox百万核秒并发能力,助力后训练吞吐提升,有效提升了后训练的效果。


ServingKit推理套件


ServingKit提升了模型在推理过程中的效率问题,特别是通过支持各种开源框架的优化。


目前,它已经为互联网、物流、汽车等诸多行业头部客户提供了强大的AI基础设施。


总之如今这个时代,在基础架构层面,计算、大数据、安全都在发生巨大变化。


这一系列新的技术栈,就是所谓的AI云原生,它是企业在AI时代构建好Agents创新的关键。


而火山引擎提供的一系列产品,就能为企业保驾护航。


三条技术主线,火山走在最前沿


2025年的AI赛道,依旧热闹非凡。


OpenAI谷歌争相发布旗舰模型,Anthropic、微软等国内外科技巨头纷纷追赶,AI百家争鸣成为常态。


难道在这条路上,只有异而没有同吗?


火山引擎智能算法负责人吴迪点明了三条清晰主线。不管市场噪音多大,今年这三大主线是不会错的。


多模态推理:从「文本脑」到「视觉脑」


AI推理能力和深度思考早已融为一体,对模型理解至关重要。


然而,仅靠文本推理远远不够。


真正的智能爆发,需要「视觉理解」的加持,包括图片、视频,让AI像人一样「看懂」世界。


因此,2025年多模态理解,将成为行业核心突破点。


豆包1.6正是这一趋势下的先锋,凭借文本、图像、视频综合理解力,解锁一系列丰富的场景。


不过,吴迪也坦言,行业应用尚未全面爆发,将是今年亟待攻克的难题。


视频生成:从「玩具」到生产力


2024年底,全球视频生成模型,还停留在「玩具」阶段,难以进入实际生产。


但到了今年,情况彻底改观。


以谷歌Veo2、Veo3、可灵2.0、豆包Seedance为代表,让整个行业看到,视频生成技术已迈入实用门槛。


或许到了年底,AI视频生成将广泛渗透到短视频广告、电商宣传、专业内容创中。


这次我们也看到了,豆包Seedance 1.0 Pro尤其注重镜头语言和智能理解,生成的视频不仅画面真实,还能捕捉指令背后隐性语义。


比如,一位醉汉在雪地中行走输出中,它会自动呈现蹒跚步伐和复杂表情,堪称「AI导演」。


多步骤复杂任务:不仅会答题,还会干活


如今,我们已经从生成式AI迈向了Agentic AI时代。


可以这么理解,生成式AI给你一段代码,还得自己手动跑;而Agentic AI直接帮你把活干完了。


多步骤复杂任务,正是这一转型的核心,常听的Tool Use、Computer Use都是这一类型。


目前,豆包大模型1.6的GUI能力,已能自主操控APP,比如自动查询航班和订票,妥妥一个小能手。


除了以上三点,还有一个值得注意的现象是——2025年token用量将迎来爆发式增长。


核心驱动因素,来自多模态推理和工具使用场景。一个基础任务可能消耗10万token,更别提视频生成这类巨耗计算资源的场景了。


更重要的是,强化学习需求的崛起,将重塑算力格局。


吴迪透露,2024年上半年,火山方舟的SFT算力占比高达30%,如今降至5%。


随着复杂任务的普及,强化学习算力需求,将在26年秋季逼近预训练水平。


半年前,火山引擎开源的veRL框架,以高精度、易用性、高吞吐量,成为了强化学习领域的全球标杆。


火山引擎Force大会,不仅知识技术秀场,更是AI产业的风向标。


豆包大模型1.6以「清北级」实力,轻松破解高考难题,展现多模态AI无限可能。


从「看懂」图,到「干完」复杂任务,豆包1.6用硬核表现告诉我们——


AI不只是工具,更是能思考、能行动的「超级助手」。


火山引擎更是以AI云原生为引擎,携veRL框架和MCP生态,帮助企业从数据到决策全链路智能化,稳稳占据了MaaS市场头把交椅。


未来,随着Seedance 1.0 Pro、语音播客模型、实时语音模型推向落地,相信行业能够解锁更多应用场景。


文章来自于“新智元”,作者“编辑部 YZXN”。