以下是这 29 个视频及其标题:
(1)DeepSeek系列介绍
(2)DeepSeek 基础知识
(3)代币进入 LLM 架构的旅程
(4)1小时讲解注意力机制
(5)自注意力机制——从零开始手写
(6)因果注意力解释:不要窥视未来
(7)多头注意力机制的可视化解释
(8)从头开始手写的多头注意力机制
(9)从头开始的键值缓存
(10)多查询注意力机制解释
(11)理解分组查询注意力机制(GQA)
(12)从零开始的多头潜在注意力机制
(13)用 Python 从 Scratch 代码实现多头潜在注意力
(14) 整数和二进制位置编码
(15) 关于正弦位置编码
(16)旋转位置编码
(17)DeepSeek 究竟如何实现潜在注意力机制 | MLA + RoPE
(18)专家混合(MoE)简介
(19)专家联手示范
(20)混合专家平衡技术
(21)DeepSeek 如何重写专家混合模型(MoE)?
(22)用 Python 从 Scratch 编写混合专家系统(MoE)
(23)多Token预测介绍
(24)DeepSeek 如何重写多令牌预测
(25)从头开始编码的多令牌预测
(26) LLM量化简介
(27)DeepSeek 如何重写量化(第一部分)
(28)DeepSeek 如何重写量化(第二部分)
(29)从头开始构建DeepSeek 20分钟总结
网友热评:
1、这些视频的文字记录可以用ChatGPT总结成……1000 个字。
去把它放到 Substack 之类的地方吧。没人会看 29 个 20 分钟的视频。等等,有些视频超过一个小时了。救命!我觉得我得去麻省理工学院拿个学位。
2、缺少文字文章来补充视频内容(尤其是有时听不懂你的口音),这有点令人失望。尽管如此,我还是尊重你们的努力。
3、快速浏览了一些视频,大致了解了一下,感觉还不错。视频内容可能比大多数人想要的或能轻松理解的要理论化得多,你很可能需要一定的基础才能看完。但是,要真正理解这些模型的创建原因和方法,你确实需要所有的理论背景,尤其是在你想从头开始创建一个新模型,或者想创建一个类似但又不同的模型的时候。
正在寻找这些内容的人一定会觉得它非常有用。感谢您创建这些内容并分享您的知识。
至于其他评论,你不能仅仅提供完整的代码就指望知道它是如何工作的。Github 上很可能已经有很多用代码实现的模型示例了。即使它没有告诉你如何从头开始构建,也不意味着它没用。另外,不管你喜不喜欢,所有东西都不可能被做成 30 秒的抖音视频,需要“bla-bla-bla”才能理解。