Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
DeepSeek大模型
DeepSeek可否帮助我们复制硅谷模式?
OpenAI的草榴机器人发推特说:硅谷的泡沫人生活在泡沫中。 他们醒来,喝着蘑菇咖啡,骑着电动自行车去一个共同工作
DeepSeek强化学习终获顶级学府认可
传统观点:学术界提供理论基础,业界推动应用落地 是,但是实际上正好反过来,业界其实创新在前,学术界才确认理论。 最近,麻省理工学院、康奈尔大学、华盛顿大学和微软研究院的学术人员开发了一个叫“通过自我对弈进行强化学习”(简称RLSP)的系统。这个系统可以教那
4500美元重现DeepSeek:性能超o1-preview
伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview! RL强化学习
DeepSeek满血碾压o3-mini,登顶王位
DeepSeek R1 671 B 刚刚以 198 tokens/秒的速度打破了推理速度记录,成为了目前最快的推理模型! 哇!DeepSeek-R1 671 B 真的超级厉害!它在 SambaNova Cloud 上跑出了 198 tokens/秒
家庭超级智能:deepseek一体机
未来是属于我们每个人的:家里的智能助手会怎么改变我们的生活呢? 想象一下:再过一两年,我们可能就能在自己家里运行小型的超级智能模型了。不需要依赖云服务,不用交月费,也不用等公司批准你怎么用。 你只需要在桌子上放一
DeepSeek搭载英特尔芯片性能狂飙28倍!
KTransformers推出基于英特尔芯片的DeepSeek-R1/V3,性能飙升28倍! 大家好,我们是 KTransformers 团队(以前因为做了一个叫 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而挺有名的)。
DeepSeek启示:通信是训练与推理最大区别
DeepSeek极端榨取硬件性能,看起来不同寻常!推理和训练之间最大的区别之一是通信需求。 1、对于推理:芯片之间不需要太多通信。你可以把它想象成普通的
英伟达用DeepSeek自动榨取GPU性能
英伟达新博客文章:LLM生成的GPU内核显示了FlexAttention的加速。前有DeepSeek极端榨取英伟达GPU硬件性能被曝光,英伟达反其道,用DeepSee
DeepSeek让我感动落泪
DeepSeek AI 提供情感支持,成为中国年轻人心理慰藉新选择。 每天晚上睡觉前,Holly Wang 都会打开 DeepSeek 进行“
DeepSeek心灵火花跃然纸上
这个frames_of_mind框架(点击标题)可以让DeepSeek内部私语的思考过程用动画显示出来。 可以通过
SGLang助DeepSeek多令牌预测,提速1.76倍达77Token/s
SGLang已经为DeepSeek R1实现了多令牌预测,速度提高了1.76倍,每秒77个Token 我们在
幽默图:DeepSeek成X新宠儿
DeepSeek引爆递归开发大爆炸!
DeepSeek R1 的发布意味着 AI 的普及是必然的,因为它让人们能轻松创建新的推理数据集,并用这些数据训练强大的 AI 模型。现在,Prime Intellect 这家公司通过发布 SYNTHETIC-1 证明了这一点。这个数据集包含了 140 万个带有“思维链”的推理样本,都是由
Deepseek成有史以来最受欢迎大模型
小模型逆袭大模型:测试扩展是关键!
测试时间扩展(TTS)是一种通过在推理阶段增加一些额外的计算来提高大型语言模型(LLM)性能的重要方法。不过,目前的研究还没有系统地分析策略模型、过程奖励模型(PRM
DeepSeek加持!Perplexity深度研究直追o3
Perplexity Deep Research 在 Humanity Last Exam Benchmark 上与 OpenAI o3 相当接近,第二名。但是速度快了一个数量级且成本更低。这是因为 DeepSeek 是开源的,而且成本低廉且速度快。
超越DeepSeek!Mistral新模型最快?
加速主义当道!美拒签AI安全宣言
美国为了继续在人工智能技术上加速发展,所以美国没有和其他大约60个国家一起在巴黎的人工智能行动峰会上签那份联合公报。
上页
下页
关闭