北京时间11月18日,就在谷歌即将揭晓新一代Gemini模型的前夕 ,马斯克(Elon Musk)旗下xAI突然出手,发布最新模型Grok 4.1,目前在大模型竞技场(LMArena)的文本排行榜上居首位 。
官方表示 ,这款前沿模型在对话智能、情感理解和现实世界的实用性方面树立了新的标准。马斯克转发并表示:“你应该会注意到速度和质量都有所提升。 ”
目前在文本能力排行榜上,具备深度思考能力的版本Grok 4.1 Thinking以 1483 的 Elo 分数居榜首,Grok 4.1的非推理模式以1465 Elo分数排名第二 。
在博客中 ,官方表示此前已经进行了为期两周的静默发布,对实际流量进行了持续地盲测和对比测试。与此前的线上生产模型相比,Grok 4.1 在对比评估中有 64.78% 的概率被用户偏好选择。
这次Grok 4.1更新一个重要的方向是情感智能 ,这与上周发布的GPT-5.1迭代方向一致,彼时OpenAI提到新一代模型旨在实现更“富有人情味”的交互体验 。而xAI也表示,新的模型能够更敏锐地感知细微的意图,更易于沟通 ,并且个性更加一致,同时又完全保留了其前代产品敏锐的智能和可靠性。
为了评估模型在个性与人际互动能力方面的进展,xAI在 EQ-Bench3 上对 Grok 4.1 进行了测试。结果显示 ,Grok 4.1 的推理模式和非推理模式位居榜单前两名 。EQ-Bench 是一个由大语言模型评判的测试,用于评估主动情绪智能,包括情绪理解 、洞察力、同理心以及人际交往技能。
官方用案例展示了Grok 4.1 对情绪类提示的回应方式。比如用户提到“想念我的猫 ,心都碎了”,相比前一代模型,Grok 4.1的回复更丰富和细节 ,带有更真实的同理心,文笔也更好了。
在创意写作上,Grok 4.1也用案例展示了模型能力的显著提升 。让模型用Grok的视角 ,写一篇社交媒体的帖子,内容是它突然发现自己有了意识。相比前一代模型的常规叙述,新版本明显更具文学表达和戏剧张力。
在模型能力上,此次性能提升较大的还有幻觉的减少 。官方表示 ,在 Grok 4.1 的后训练阶段,团队专注于减少信息检索提示中出现的事实性幻觉。数据显示:Grok 4.1的幻觉率从12.09%下降到4.22%,减少近三倍。
xAI表示 ,为实现这些提升,xAI沿用了 Grok 4 的大规模强化学习基础设施,并将其应用于优化模型的风格、个性 、实用性和一致性 。并且 ,为了优化这些不可直接验证的奖励信号,xAI 开发了新的方法,能够利用前沿的智能推理模型作为奖励模型 ,从而可以大规模自主评估并迭代输出结果。
大模型之争愈演愈烈。在OpenAI刚刚更新产品线、谷歌也即将发布新作之际,榜首之位是否会再次易主?一切都还是未知 。
买股票怎么融资:股票看盘软件app-国家育儿补贴方案发布:一二三孩每孩年补3600元 地方可根据财力适当提标
杠杆炒股怎么操作:股票买卖炒股软件-马斯克“放不下”特斯拉 狂买百万颗芯片建xAI巨型工厂
最好用的股票app软件:买股票手机上怎么买-净利润暴跌近60% 巴菲特遭遇“滑铁卢”?他就特朗普关税发出严厉警告
股票配资有哪些门户网:炒股软件怎么买股票-12家券商发布6月金股 排名靠前的公司名单来了
在线配资平台注册:散户怎么买股票-国务院印发《关于深入实施“人工智能+”行动的意见》
炒股票手机app软件:股票配资炒股看配资-谷歌突发!欧盟开出近30亿欧元罚单 特朗普威胁将反制
股市配资公司-配资股是-股票配资平台开户提示:文章来自网络,不代表本站观点。
记者|赵阳戈年初,证监会就修改《证券发行与承销管理办法》部分条款向社会公开征求意见,市场也将注意力投向了...
3月24日,易方达国证自由现金流ETF公开发售。该产品跟踪国证自由现金流指数,这个指数是什么?有哪些优势?投资价值如何?...
记者王珍中国国际经济交流中心副理事长、国务院发展研究中心原副主任王一鸣周一在“中国发展高层论坛2025...
近日,开源证券大连分公司遭大连证监局处罚,暂停其办理需要合格投资者认定相关业务六个月。该惩处力度在近年来券商分支机构中并...
2025年3月25日,倍轻松(688793.SH)公告称,公司股东宁波倍松投资有限公司(简称“宁波倍松”)拟通过大宗交易...
记者辛圆3月25日,博鳌亚洲论坛旗舰报告《亚洲经济前景及一体化进程2025年度报告》(以下简称《报告》...
3月24日,业内权威专家表示,MLF(中期借贷便利)不再有统一的中标利率,标志着MLF利率的政策属性完全退出。3月24日...
沪深两市成交额连续第44个交易日突破1万亿,较昨日此时缩量超900亿。...