LLM微调:训练一个垃圾邮件分类器-大模型炼丹术(七)
剖析LLM的解码策略-大模型炼丹术(六)
LLM自回归预训练过程详解-大模型炼丹术(五)
动手搭建GPT2架构-大模型炼丹术(四)
从单头到多头,深度解析大模型的注意力机制-大模型炼丹术(三)
从离散的token IDs到具有语义信息的embedding-大模型炼丹术(二)
从tokenizer说起,为LLM自回归预训练准备数据集-大模型炼丹术(一)
把数据预处理搬到GPU-英伟达DALI加速数据预处理
无题
万字长文入门扩散模型