Anand使用的是精简版GPT-2,参数量仅为1.24亿,不到完整版的十分之一,但就这些能放入Excel,已经十分了不起了。 这个特殊表格能接受的输入量只有10 ...
2019 年问世的 GPT-2,其 tokenizer 使用了 BPE 算法,这种算法至今仍很常见,但这种方式是最优的吗?来自 HuggingFace 的一篇文章给出了解释。 「9.9 和 9. ...
几天前,前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。 llm.c 旨在让 ...