reinforce 加强 - 搜索 News

12 小时

背景推理模型的提出基于对大规模语言模型（LLM）在复杂问题中的卓越表现的探索。在OpenAI发布o1模型后，众多开发者投身于理解和复现这一模型的推理能力。在这一背景下，通过多种技术手段进行推理的尝试成为众多科技公司热衷的探索方向。

点击上方“Deephub Imba”,关注公众号,好文章不错过 !强化学习（Reinforcement Learning, RL）已成为提升大型语言模型（Large Language Models, ...

5 天

根据研究发现，训练步骤的增加能够导致长CoT的惊人涌现。研究团队尝试模拟人类的思维模式，通过逐步推导出答案，增强了AI大模型的推理和可解释能力。但究竟触发长CoT能力的条件是什么？又该如何优化呢？

5 天

上海交通大学副教授赵波表示，通过一些试用可以发现，DeepSeek 主要包含八种角色设定：电影角色、新闻主持、历史人物、动漫游戏、文学角色、职业角色、搞笑角色和科幻角色。每种角色大类又分别包含其类型中的经典人物。DeepSeek ...

随着人工智能（AI）愈发盛行，中国外交部称，将帮助发展中国家加强能力建设，主张开源AI技术，促进AI服务的可及性，实现各国共享智能红利。中国外交部发言人郭嘉昆星期一（2月10日）在例行记者会上说，当前，AI新技术不断突破、新业态持续涌现、新应用 ...

一些您可能无法访问的结果已被隐去。