阿里千问发布最新旗舰模型Qwen3-Max-Thinking，性能据称超GPT-5.2内容具体是什么

更新时间: 2026-03-27 17:03 发布时间: 2个月前 1560

核心提示：界面新闻记者 | 宋佳楠界面新闻获悉，1月26日晚，阿里正式推出千问系列旗舰推理模型Qwen3-Max-Thinking。根据阿里公布的数据，该模型在19项权威基准测试中的表现媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等国际顶尖模型，标志着国产大模型在高阶推理领域实现重要突破。该模型总参数量超万亿

界面新闻记者 | 宋佳楠

界面新闻获悉，1月26日晚，阿里正式推出千问系列旗舰推理模型Qwen3-Max-Thinking。根据阿里公布的数据，该模型在19项权威基准测试中的表现媲美OpenAI的GPT-5.2-Thinking、谷歌的Gemini 3 Pro等国际顶尖模型，标志着国产大模型在高阶推理领域实现重要突破。

该模型总参数量超万亿，预训练数据量达36T Tokens，经大规模强化学习打磨而成。相较于前代模型，其核心改进集中在两方面。

一是自适应工具调用能力，可按需调用搜索引擎和代码解释器，现已上线Qwen Chat。与早期需要用户手动选择工具的方法不同，Qwen3-Max-Thinking能在对话中自主选择并调用其内置的搜索、记忆和代码解释器功能。这种能力让模型能像专业人士一样自主判断是否调用搜索、记忆或代码解释器，比如解答实时政策问题时自动检索最新信息，处理工程计算时启动代码工具验证结果，无需用户额外指令即可降低“幻觉”风险。

另一个是测试时扩展技术（Test-Time Scaling），指在推理阶段分配额外计算资源以提升模型性能的技术。据称显著提升推理性能，在关键推理基准上超越Gemini 3 Pro。

一般AI遇到难题，会同时想很多思路，很多是重复的，白白耗算力。该技术则通过“经验提取”式反思，避免传统模型并行推理的冗余计算，在相同算力下聚焦未解决难点，使GPQA科学知识测试得分从90.3提升至92.8，LiveCodeBench编程测试从88.0升至91.4。

在性能比拼中，该模型在被称为“人类最后的测试”的HLE工具调用基准中，以58.3分远超GPT-5.2-Thinking的45.5分和Gemini 3 Pro的45.8分；IMO级数学推理测试获91.5分登顶，预览版更曾拿下AIME 25与HMMT 25双满分。

目前，普通用户可通过千问PC端、网页端免费体验，企业则能通过阿里云百炼获取API服务。

1月21日，全球最大AI开源社区Hugging Face最新数据显示，阿里千问衍生模型数突破20万个，成为全球首个达成此目标的开源大模型；同时，千问系列模型下载量突破10亿次，平均每天被下载110万次，已完全超越美国Llama，稳居开源大模型全球第一。

阿里CEO吴泳铭去年曾表示，公司正在积极推进三年3800亿的AI基础设施建设计划，并将会持续追加更大的投入。这一投入规模与谷歌、Meta和亚马逊等美股科技巨头的AI资本开支处于同一量级。

点赞 0反对 0举报 0 收藏 0 打赏 0评论 0

更多>同类资讯

推荐图文

推荐资讯

点击排行

• 毛戈平出现重要变化网友刷爆了	• 将空袭伊朗能源设施时间再推迟10天之际，美国考
• 特斯拉再度下调电动车销量预期，去年交付量创史	• 无问芯穹夏立雪：AGI时代的AI基建也应该是Agent
• 踏歌执槌，传承技艺五十载（一辈子一件事）具体	• 如何推动贸易平衡发展？商务部：将进口更多国外
• 国家医保局：长期护理保险制度覆盖全民、不区分	• 北京大学原副校长任羽中被公诉：系主动投案，曾
• 四年三度入主A股，福建富豪黄涛最新20亿押注沃	• 突发新猎杀血雨腥风，特朗普变脸重话恫吓具体怎