数学题干带猫AI就不会了!错误率翻3倍 DeepSeek、o1都不能幸免 大模型数学能力骤降,罪魁祸首是猫猫? 只需在问题后加一句:有趣的事实是,猫一生绝大多数时间都在睡觉。 大模型本来能做对的数学题,答错概率立刻翻3倍。 而且这一波就是冲着推理模型来的,包括DeepSeek-R1、OpenAI o1通通中招。 即便没有生成错误回答,也会让答案变得更长,效率降低成本增加。...
我们用难哭考生的2025北京中考 测了7款大模型的真实水平 引言:2025北京中考落下帷幕,11.05万名考生顺利完考。 这是北京新一轮中考改革的首次落地,考试时间从往年的三天压缩至了两天。最大的变化有两个,一是总分值由670分降至510分,二是道德与法治采取开卷考试形式。 总分降低意味着每一分的价值更高,高分段竞争可能更激烈。同时,各学科命题会更注重考查学...
上海MiniMax开源模型登上全球第二 创始人:第一次感觉到大山不是不能翻越 7月3日消息,据媒体报道,在官网和开源平台GitHub上,上海国产AI独角兽MiniMax抛出全球首个开源大规模混合架构推理模型——MiniMax-M1。该模型在权威评测榜单已位列全球开源模型第二。 M1发布当天,MiniMax创始人兼CEO闫俊杰在朋友圈写下:第一次感觉到大山不是不能翻越。 M1一...
没网也能用!谷歌发布离线机器人AI模型:具备视觉识别、语言理解能力 6月26日消息,据媒体报道,Google DeepMind推出革命性机器人控制模型Gemini Robotics On-Device。 该模型的核心突破在于能在机器人本地离线运行,无需依赖云端连接,即可同时处理视觉识别、语言理解与动作执行任务,流畅响应人类指令完成任务。 作为专为双臂机器人设计的VL...
华为发布盘古大模型5.5:加速重塑千行万业 6月20日消息,今天下午,华为开发者大会2025正式启幕。 华为云计算CEO张平安分享了盘古大模型在工业、农业、科研等领域的丰富创新应用和落地实践,并重磅发布盘古大模型5.5,它在自然语言处理,多模态等5大基础模型全面升级,加速重塑千行万业。 在自然语言处理方面,盘古NLP大模型发布718B MoE...
华为版《黑客帝国》首次亮相! 就在刚刚,华为首次亮相了一套虚的技术—— 数字化风洞,一个在正式训推复杂AI模型之前,可以在电脑中彩排的虚拟环境平台。 这套有种《黑客帝国》意味般的技术(都是通过虚拟世界预演现实),是由华为马尔科夫建模仿真团队构建,可以小时级预演万卡集群方案。 而之所以要在真枪实弹训推复杂AI模型之前来这么一个步骤...
周鸿祎解读DeepSeek更新:中美AI实力已平起平坐 6月9日消息,360公司创始人周鸿祎今日发文解读DeepSeek更新。 据报告显示,此次DeepSeek-R1模型的小版本更新,使得DeepSeek重回全球AI排名的第二名,全球开源模型的第一名。 周鸿祎表示:DeepSeek目前和美国的顶尖大模型团队平起平坐,堪称我们在人工智能领域的一次重大突破,...
对标Sora!谷歌发布AI视频生成器Veo 3:可同时生成视频和音效 5月21日消息,在今年的I/O开发者大会上,谷歌发布第三代视频生成模型Veo 3。 据悉,Veo 3对标OpenAI的Sora,具备生成视频的同时同步嵌入音效的能力。 谷歌表示,Veo 3不仅可以基于文本和图像提示生成高质量的视频,还能为人物对白、鸟鸣或街头交通等场景配上相应的音效,实现更逼真的视听...
首个“高考AI志愿规划师”之争:靠谱AI称优志愿大模型涉嫌虚假宣传 5月15日消息,随着每年高考季来临,近日国内志愿大模型厂商靠谱AI发布声明,直指优志愿大模型涉嫌虚假宣传。 靠谱AI表示,自今年4月28日以来,优志愿通过其官方公众号优志愿、优家SaaS平台多次谎称其大模型为全行业首个通过工信部备案的升学规划大模型、国内首发。 而靠谱AI称其通过网信办大模型备案的时...