阿里除夕发布Qwen2.5-Max反超DeepSeek V3，一句话开发小游戏

昨晚，杭州大模型又双叒不睡，给大伙儿拜年啦～

就在春晚直播进行时，阿里通义 Qwen 发布新春节礼第三弹：

Qwen2.5-Max来袭，多个基准测试中超越当红炸子鸡 DeepSeek V3。

Arena-Hard、LiveBench、LiveCodeBench、GPQA-Diamond 等基准统统拿下，Qwen2.5-Max 整体表现优于 DeepSeek V3、Llama-3.1-405B 以及闭源模型 GPT-4o，和 Claude-3.5-Sonnet 也能比一比。

基座模型对比中，Qwen2.5-Max 同样超越 DeepSeek V3、Llama-3.1-405B，在针对模型知识理解和推理能力的 MMLU-Pro 等基准上均表现不凡。

更令 AI 社区关注的是，Qwen2.5-Max 同 DeepSeek V3 一样是超大规模的 MoE 模型，经超 20 万亿 token 的预训练数据及精心设计SFT+RLHF 后训练方案训练而成。

Qwen2.5-Max 这份春节礼包被网友们齐刷刷收入囊中。前有 DeepSeek，还有阿里通义 Qwen，网友们不忘艾特奥特曼：

祝大家新年快乐，特别祝 Sam。

阿里研究员在模型发布后也都还不睡，纷纷当起了自个儿的自来水。

阿里高级算法专家林俊旸开麦：

Qwen2.5-Max 在基准测试中表现良好，希望大家可以试试看，新年快乐！

之前曾自曝阿里大模型员工 996 作息表的 Binyuan Hui 也再次现身：

外面的烟花照亮了天空，我却坐在电脑跟前。

下面是 Qwen2.5-Max 在四个使用场景上的演示。

首先是联网搜索功能，输出的每句话来源出处都有标注，整体运行也很丝滑。

代码能力上，Qwen2.5-Max 能够帮助用户完成各种可视化创作，一句话就能做出下面这样旋转的球体：

有网友改造了一下，让球体内部有三个弹跳的黄色小球。

结果只尝试了一次就成功了，而且三个小球始终在大球内部运动，能正确处理碰撞：

Qwen2.5-Max 也有Artifacts功能，同样一句话，能开发各种小应用、小游戏。

比如制作一个扫雷小游戏，秒秒钟"啪"一下直接就能玩：

另外 Qwen2.5-Max 数单词中的特定字母数量也不在话下。

现在，Qwen2.5-Max 已在 Qwen Chat 中上线。

此外也有 Hugging Face 的 Demo 可玩，还上线了 Any Chat，并且可通过阿里云服务使用 API。

感兴趣的童鞋赶紧试试吧～

参考链接：

[ 1 ] https://qwenlm.github.io/blog/qwen2.5-max/

[ 2 ] https://x.com/JustinLin610/status/1884263803451498794

[ 3 ] https://x.com/_akhaliq/status/1884278071093502253

[ 4 ] https://x.com/huybery/status/1884263539675934860

新闻动态