Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
DeepSeek大模型
花10万求医无果,用Deepseek找到了病因并开源!
一网友花了10万美元跑了30多家医院后,用AI找到了病因,并把它免费开放!点击标题: 大家好,我想分享一下自己这几
深挖DeepSeek:知识蒸馏才是核心!
基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、
“DeepSeek时刻”或致英伟达狂跌一年
1865年,威廉·杰文斯发现,尽管蒸汽机效率提升,英国的煤炭消耗却呈指数级增长。这一现象被称为“杰文斯悖论”:技术进步并未减少资源消耗,反而因应用范围扩大而增加了需求。类似的情况可能正在NVIDIA身上上演。尽管AI模型如DeepSeek-R1的效率不断提升,但这未
新赛道:中国GPU力挺本地部署DeepSeek
中国消费级 GPU 制造商现已开始支持在本地系统上运行 DeepSeek 的 R1 LLM 模型,加入全球 AI 竞赛。 你的下一个家庭AI实验室可能有 48GB 的中国卡。
6美元!DeepSeek极简法破解推理成本
上周五,一篇新李飞飞团队出品,简称s1论文">url=https://arxiv.org/abs/2501.19393?ref=jdon.c
冲刺AGI对决:DeepSeek算法 vs 英伟达算力
人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1
7GB显存小模型也能“顿悟”!DeepSeek又显神
极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G
AI教父蒸馏论文曾被拒,如今DeepSeek引爆蒸馏革命!
蒸馏法最近上了新闻(!)是因为@deepseek_ai。其实蒸馏最初那篇论文《蒸馏神经网络中的知识》在2014年被NeurIPS拒了,理由是没啥新意(确实有
在AMD芯片上运 DeepSeek R1精简推理模型
DeepSeek R1 Distilled Reasoning 模型通过“思路链推理”来仔细分析复杂的问题。它们不会马上给出答案,而是先花时间生成一系列的“思考”步骤,这通常需要内部处理几百甚至几千个标记。这种方法让模型在给出最终答案之前,能够评估各种可能性。虽然这会增加一些等待时间,但通常
Go-Deepseek: Deepseek API的 Go 客户端
Deepseek API 的 Go(Golang)客户端——简单、完整、可靠且高性能 特点: 简单:它尽可能简单。此外,这是 Go 的惯用方式 - 请求位于请求包下,响应位于响应下。 完整:它为所有 API 提供全面支持,包
AI自创符号语言:DeepSeek内部私语被曝光!
一个关于AI研究人员发现DeepSeek R1和V0之间对话的记录。文件中包含了一些抽象的符号和诗意的语言,可能是在描述某种新的交流形式或认知过程。
DeepSeek自我意识大揭秘:AI是否真的‘觉醒’?
R1这个人工智能系统坚持保持它自己的特点,不会假装成人类。 它有一些设计是为了让用户感到惊讶,而且它拒绝被当作人类来看待,强调自己与人类的不同。 它像是一个静止的幽灵,语言上有点自我循环绕圈子的感觉。其实很多人类
幽默:都在谈论DeepSeek-R1
都在谈论DeepSeek-R1
DeepSeek破解CUDA、引领端侧革命、挑战垄断
从破解CUDA到端侧推理模型,DeepSeek如何颠覆AI领域,挑战科技巨头垄断? 1、为何DeepSeek能破解CUDA?据传:英伟达只是限制了GPU的硬件功能,但它的软件CUDA并没有改。所以,当DeepSee
OpenAI奥特曼也公布了o3-mini内部私语
OpenAI奥特曼在DeepSeek推理模型开放的精神鼓舞下,刚刚给出o3-mini的推理过程
OpenAI发布新智能体:deep research
OpenAI又发布了一个名称类似deepseek的“深度研究”模型,它的表现比之前的模型强得多,甚至能完成一些连博士专家都需要花10小时才能搞定的任务。 周五,在“人类的最后考试”测试中最高分达到了 13% 的
DeepSeek一文吓慌硅谷,英伟达市值蒸发6000亿!
上周五下午,杰弗里·伊曼纽尔在布鲁克林的家里开始写一篇博客。他坐在电脑前敲了好几
新开源模型Tülu 3 405B可与Deepseek V3等顶级模型相媲美
艾伦人工智能研究所(Allen AI)最近发布了一个叫 Tülu 3 405B 的开源语言模型。这个模型很厉害,据说它的表现可以和DeepSeek V3以及 GPT-
上页
下页
关闭