
由|有一组SOHU技术|编辑Liang Changjun | Yang Jin在一个Go上开设了8个型号,阿里巴巴·塔利(Alibaba Talyi)推出了新的车型! 4月29日凌晨,阿里巴巴开源量发布了QWEN3,以及两种MOE型号(混合专家体系结构),包括QWEN3-235B-A22B,具有2350亿个参数量表,这成为比较测试中开放资源最强大的模型。此外,QWEN3还包括六种密集的型号,其中包括6亿,17亿,40亿,80亿,140亿和320亿的参数。这些模型尚未采用MOE设计,并且主要适应许多情况。 “这是明天的真实方法”“再次使公开资源再次成为”……在强迫AI开源的道路上,阿里巴巴似乎在恢复了失去的声音。这也意味着Alarge模型技术尚未完成,尤其是自从Deviceek变得流行,OpenAI,Google,Meta,Alibaba,Baidu和Byte已成为PK的主要力量。 dEepseek仍然可以防止其大动作,开源的火将越来越强大。阿里巴巴以培训代理为中心的阿里巴巴发布的试验表明,旗舰型QWEN3-235B-A22B(激活参数为220亿)是可比的,甚至超过了顶级模型,例如DeepSeek-R1,O1,O3-Mini,Grok-3和Google google gemini-15-Pro在Benchmark测试和一般能力上。扩展全文
在模拟竞技场发起的九项重大试验中,包括竞技场硬,美国数学竞争测试AIME24和AIME25,以及LiveCodeBench编程和CodeForces,Qwen3-235b-a22bthe Mark超过了DeepSeek-R1,O1,O1,O1,O3Mimi和Grok-3,但表演不错,但某些表演不好。
同时,在模型的主流开放资源中,QWEN3-235B-A22B在4月初在4月初的一般活动,数学和科学活动,多语言活动和CUR的工作中,也超过了Llama-4-Maverick和DeepSeek-V3模型租金,当前模型中最强大的来源。
值得一提的是,QWEN3-235B-A22B具有较小的参数量表,约占R1和V3参数量表(671亿)的35%,并且小于O1(约3000亿)和LLAMA-4-MAVERICK(超过4000亿)(超过4000亿),并且很小和良好的表现。
在其他模型中也可以看到这样的功能。另一个小型MOE型号QWEN3-30B-A3B只有30亿个诱导仪,仅占QWQ-32B的10%,该量少于DeepSeek-V3参数的大小(总参数为6710亿个),激活了370亿次激活)和GPT-4O。在前九个试验中,表现良好。
即使是只有40亿个参数(例如QWEN3-4B)的模型,QWEN2.5中的720亿参数也可以匹配模型性能,并且数学,编码和其他试验也可以超过Deviceek-V3和GPT-4O。
QWEN3模型的亮点是它具有两种模式:快速思考和缓慢思考。对于需要t的复杂问题o要深入考虑,该模型将逐渐推理它们,并在仔细考虑后给出最终答案。对于需要速度的简单问题,该模型提供了快速,近距离的响应,从而使GS Touses可以控制模型的模型级别。
阿里巴巴·塔里(Alibaba Talyyi)团队认为,这两种模型的组合提高了该模型实现稳定,有效的思维预算控制的能力,使用户能够更好地为各种任务配置特定的预算,并在推理的有效性和质量之间取得更好的平衡。
同时,由于改善了模型的体系结构,增加了培训数据和更有效的培训技术,因此QWEN3密集的模型性能与具有更多参数的QWEN2.5基本模型相当,从而节省了培训和倾斜成本。
数据显示,QWEN3-235B-A22B只能在本地使用4 H20部署,而DeepSeek-R1建议使用16卡的H20,W,W与R1相比,部署QWEN 3的成本下降了70%以上。
根据阿里巴巴·贝利安(Alibaba Bailian)的平台,该型号的API通话费为4元/百万个令牌,相当于4元/百万个令牌(Cache Miss)输入价格,该价格少于16元/百万个R1的产出价格。
此外,QWEN3模型还优化了代理和代码功能,并启动了Qwen-Agent的工具库,涵盖了工具呼叫模板和解析器,从而降低了代码开发的复杂性。此外,该模型还支持最近流行的MCP(模型上下文协议),用户可以在其中调用内置工具或组合其他工具本身。
此前,阿里巴巴云推出了MCP服务,并建议使代理商的代理商成为代理商。可以说,一旦代理商爆炸了,阿里巴巴就为模型,工具和应用做出了全面的准备。
例如,可以在各种包括科学研究方面,手机方,汽车方以及开发人员和企业的大规模扩展的情况。
塔里团队说:“我们认为我们正在从专门用于培训代理商的时候的培训模型的时期。”
QWEN3模型发行后的评论酌情决定,许多人认为这是目前的最佳开放资源模型。 “这是中国的新力量,它是自身的新力量,并成为开放的AI资源,这意味着模型发展的势头并不会放慢脚步。”一些在国外的用户提到,有些用户希望看到与QWEN3和O3之间的测试进行比较。
当然,QWEN3模型也不是完美的。一些用户说,Qwen3在个人测试测试中取得了不同的结果,并且接近SOTA(标准高级)。
当此用户使用开发框架Next.js进行开发TODO应用程序时,QWEN3-235B-A22B可与诸如Claude 3.7十四行诗和Gemini 2.5 Pro之类的P模型。该代码没有问题而运行,但是并未严格观察说明,并且由于它很小而难以阅读生成的视觉内容。
此外,许多用户还提到QWEN3在崩溃方面存在问题,导致长期思维过程,并且默认思维模式无法用于更复杂的任务,因此思维模式需要求职者移动。
战斗的权利代表大型模型
QWEN3模型的性能的改善是由于多方面的阿里巴巴塔利团队对训练前和培训后的多方面优化。
在训练前阶段,QWEN3数据达到了近36万亿个令牌,涵盖了119种语言和方言,是Qwen2.5采用的数据集的两倍。该量表在世界上排名领先,例如GPT-4,Llama-4,其他培训数据量表小于20万亿代币。
Qwen3还使用合成数据。为eXample,为了添加数学和代码数据,数学和QWEN2.5数学模型用于合成不同的数据表格,包括教科书,问答和代码段。
在训练后,基于模型推理的基本能力,NG Talyyi团队使用大量的强化研究来继续增强模型的能力,并将加强研究应用于20多种一般现场活动,例如遵守教学,遵守代理商的格式和能力。在确保模型的推理能力增强的同时,它也提高了整体能力。
“ QWEN3是我们通用人工智能和超级人工智能的旅程中的一个重要里程碑。”塔利小组表示,通过扩大培训和加强研究的规模,可以实现较高的智力水平。
该团队说,将来,它计划继续从多种尺寸改善模型,包括OptimiziNG建筑技术和培训方法,实现SC扩展数据等目标,增加了模型大小,上下文长度的扩展和扩展模态范围以及使用环境反馈来促进加强研究的长期推理。
实际上,这也是国内外大型模型目前正在追求的主要方向。例如,GPT-4O和O3 OpenAI分别更新,并进一步增强了多模式和推理功能。
在阿里巴巴断言的模型的开放资源之路上,尽管Qwen的Qwen系列以前已经超过了美洲驼,并成为全球首个开放家庭资源。一旦DeepSeek消除了注意力,并触发了与模型技术大型竞争的新循环。
本月初,Meta开设了最新的Llama-4型号,然后以Chat of Chat the Arena迅速达到了第二名,仅次于新发布的Gemini 2.5 Pro。
但是很快骆驼4脸关于使用公共测试集进行训练和滑动排名的问题,一些测试人员还发现,在某些基准测试中,该官员尚未显示出来,他们的表现令人不快。
当然,Meta否认了这一点,但承认模型性能问题不均匀。目前,Llama-4-Behemoth最大,最强的模型仍在接受培训。我将看看元是否可以举行大动作并赢得比赛。
DeepSeek还防止了最终举动。由于阿里巴巴,百度,Openai,Google,Meta和其他人最近推出了最新的车型,V3和R1车型DeepSeek以前曾达到顶峰,失去了完全的DeepestGuna Edge,全世界都在等待R2型号的推出。
过去,3月有报道说,DeepSeek加速了R2的开发和释放过程。它最初计划在5月初发布,但预计将在3月中旬推出。当时,这一说法被DeepSeek拒绝。
最后一个星期一外界想知道何时发布R2。根据工业产品的变化,许多观点认为它是在5月,这可能意味着R2进入了倒数释放。
最新消息说,R2仍然采用了Moe的架构,具有1.2万亿个参数,GPT-4O的成本便宜97.3%,并且视觉功能更强。
Sohu Technology指出,这已引发了Deptseek Communication Group的讨论。有些人认为已发送EventHat R2,必须先发送V4。 R1是根据V3进行了培训的,但DeepSeek没有回应有关R2的新闻。
对于阿里巴巴来说,开放资源是应对市场竞争的主要方法,但这也意味着,当绩效领导时,资源可以开放。就像DeepSeek开放一样,它也获得了许多公司的积极适应和支持。
因此,对于AI公司的开放资源,持续的发展水平是非常c莱力,这是促进生态应用和建筑爆炸的基础。尽管阿里巴巴正在更新QWEN3模型,但开放AI的开放资源的竞赛无疑将更加紧迫。回到Sohu看看更多