想挑战 Transformer 的新架构有很多,来自谷歌的“正统”继承者 Titan 架构更受关注。 英伟达把测试时间计算(Test-time Computing)称为大模型的第三个 Scaling Law。 OpenAI ...