智通财经APP获悉,2月16日,阿里巴巴钱文正式上线Qwen3.5,并发布了Qwen3.5系列首款机型、不分重量版本Qwen3.5-397B-A17B。作为原生视觉语言模型,Qwen3.5-397B-A17B 在推理、编程、代理功能和多模态理解等综合基准测试中表现出优异的性能。该模型采用创新的混合架构,结合了线性注意力(闭合增量网络)和稀疏混合专家(MoE),以实现卓越的推理效率。参数总数达到 3970 亿个,每次前向传播仅激活 170 亿个参数,在保留功能的同时优化速度和成本。将语言和方言支持从 119 种扩大到 201 种,为世界各地的用户提供更大的易用性和更好的支持。报告显示,与Qwen3系列模型相比,训练后性能提升为Qwen3.5主要是对各种RL任务和环境的全面扩展。强化学习环境的难度和通用性比针对特定指标或有限类别的查询进行优化更重要。 Qwen3.5 可实现跨异构基础设施的高效本机多模式训练。将视觉和语言组件的并行策略分开,以避免集成解决方案造成的低效率。稀疏激活用于实现模块之间的计算重叠,与纯文本基线相比,在混合文本、图像和视频数据上实现几乎 100% 的训练性能。在此基础上,原生 FP8 流程采用低精度进行激活、MoE 路由和 GEMM 操作,通过运行时监控将 BF16 保持在敏感层,实现了约 50% 的激活内存减少和超过 10% 的加速,并稳定扩展到数十亿代币。特别说明:以上内容(包括图像和视频,如果有)是由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易号用户上传发布,网易号是一个仅提供信息存储服务的社交媒体平台。
欢迎访问暗黑吃瓜官网,参与吃瓜爆料每日大赛,获取最新爆料和精彩内容!