根据官方说明ღ★,DeepSeek-V3.1最大的技术亮点在于“混合推理架构”ღ★,一个模型同时支持思考模式与非思考模式欧洲一卡二卡三卡 公司ღ★,并在Agent(智能体)能力方面实现重大突破ღ★,多项指标相比R1-0528有大幅提升ღ★。与此同时ღ★,API的上下文窗口亦扩展至128Kღ★。
此次升级被视为DeepSeek在AGI(通用人工智能)竞争中的关键一步ღ★,也标志着国产大模型间的竞争进入“智能体驱动”阶段188bet金宝搏·中国官网ღ★。
与传统需要维护多个专家模型的做法不同ღ★,DeepSeek-V3.1在单一架构内可同时支持思考模式与非思考模式ღ★,用户可通过“深度思考”按钮实现无缝切换ღ★,在复杂任务中启用链式推理ღ★,在简单任务中快速响应ღ★。
据官方数据ღ★,DeepSeek-V3.1-Think在多项专业评测中表现突出ღ★,在AIME 2025(美国数学邀请赛)ღ★、GPQA(研究生级别的谷歌问答基准测试)ღ★、LiveCodeBench(面向代码的大规模语言模型的综合无污染评价)等基准测试中与前代模型R1-0528性能持平ღ★,但输出token数减少20%~50%ღ★,显著降低了推理成本ღ★。在非思考模式下ღ★,模型也能以更短的输出长度保持同等性能欧洲一卡二卡三卡 公司ღ★。
值得注意的是188bet金宝搏·中国官网188bet金宝搏·中国官网工业自动化ღ★,ღ★,DeepSeek宣布自9月6日起调整API定价并取消夜间优惠欧洲一卡二卡三卡 公司ღ★。输入价格上ღ★,缓存命中时为0.5元/百万tokensღ★,缓存未命中的价格则为4元/百万tokensღ★;输出价格为12元/百万tokens(此前V3为2元/百万tokens和8元/百万tokensღ★,而且0点30分到早上8点30分的夜间段欧洲一卡二卡三卡 公司金宝搏体育官方网站ღ★,ღ★,还能再打对折)ღ★。
更值得关注的是ღ★,根据官方说明ღ★,V3.1使用的UE8M0 FP8精度是针对下一代国产芯片设计的ღ★,这可能意味着DeepSeek 在硬件适配方面投入了更多资源188bet金宝搏·中国官网ღ★,这些成本最终体现在API 价格上ღ★。
DeepSeek-V3.1的发布ღ★,反映了国产大模型竞争焦点正从“长上下文”转向“智能体能力”ღ★。
今年7月ღ★,月之暗面发布的Kimi K2是一个拥有万亿参数规模的混合专家(MoE)模型ღ★,激活参数32Bღ★,并在SWE Bench Verified(代码智能体评估基准)188bet金宝搏官网ღ★。ღ★、Tau2(评估 AI Agent 在现实场景中的性能和可靠性)188bet金宝搏·中国官网ღ★、AceBench(评估大型语言模型在工具使用中的学习能力)等基准性能测试中ღ★,均取得开源模型中的SOTA(目前最高水平)成绩ღ★。在其官方演示案例中ღ★,作为一个基础大模型ღ★,Kimi K2迈出了智能体化的第一步欧洲一卡二卡三卡 公司ღ★,可以帮助用户直接制定旅行计划并预订机票和酒店ღ★。
智谱AI在7月28日发布的GLM-4.5系列欧洲一卡二卡三卡 公司ღ★,也定位为“Agent原生基础模型”ღ★,并在8月20日发布了全球首个手机Agent(智能体)AutoGLM2.0ღ★,可以帮助用户Agent代理操作ღ★,具备推理ღ★、代码与多模态的全能能力ღ★,同样可以一键订票订咖啡ღ★。
DeepSeek-V3.1也表示ღ★,自己在Agent能力方面实现了显著突破欧洲一卡二卡三卡 公司188bet金宝搏·中国官网ღ★。在编程智能体测评中ღ★,DeepSeek-V3.1在SWE代码修复和Terminal-Bench终端任务测试中表现优异ღ★;搜索智能体测评中ღ★,在需要多步推理的复杂搜索测试(browsecomp)与多学科专家级难题测试(HLE)上ღ★,DeepSeek-V3.1性能已大幅领先R1-0528ღ★。
业内分析认为ღ★,随着智能体应用场景的深化188bet金宝搏·中国官网ღ★,国产大模型或将从“基础能力追赶”进入“垂直领域深耕”阶段欧洲一卡二卡三卡 公司ღ★,厂商将在推理效率188金宝搏官网入口ღ★。ღ★、工具调用生态和成本控制之间找到平衡点ღ★。