Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
DeepSeek时刻
花10万求医无果,用Deepseek找到了病因并开源!
一网友花了10万美元跑了30多家医院后,用AI找到了病因,并把它免费开放!点击标题: 大家好,我想分享一下自己这几
深挖DeepSeek:知识蒸馏才是核心!
基于DeepSeek两篇新论文发现:发现推理时间太长也不一定能提高准确性,然后,只要蒸馏基础知识好,少量数据就能快速完成推理,少即是多。 1、
4500美元重现DeepSeek:性能超o1-preview
伯克利团队以 4,500 美元重现 DeepSeek 的成功:1.5B模型超越 o1-preview! RL强化学习
6美元!DeepSeek极简法破解推理成本
上周五,一篇新李飞飞团队出品,简称s1论文">url=https://arxiv.org/abs/2501.19393?ref=jdon.c
DeepSeek搭载英特尔芯片性能狂飙28倍!
KTransformers推出基于英特尔芯片的DeepSeek-R1/V3,性能飙升28倍! 大家好,我们是 KTransformers 团队(以前因为做了一个叫 DeepSeek-V2 的本地 CPU/GPU 混合推理开源项目而挺有名的)。
新赛道:中国GPU力挺本地部署DeepSeek
中国消费级 GPU 制造商现已开始支持在本地系统上运行 DeepSeek 的 R1 LLM 模型,加入全球 AI 竞赛。 你的下一个家庭AI实验室可能有 48GB 的中国卡。
冲刺AGI对决:DeepSeek算法 vs 英伟达算力
人工智能发两个方向:GPU硬件和强化学习算法,这两个方向是条条大路通罗马还是南辕北辙? 首先,让我们了解一下强化学习算法代表DeepSeek DualPipe 算法,再谈谈英伟达的GPU硬件! 1
7GB显存小模型也能“顿悟”!DeepSeek又显神
极简推理革命,7GB显存小模型也能“顿悟”;15G显存,任何小模型秒变推理模型。 今天,我们很高兴在 Unsloth 里加入“推理”这个新功能!DeepSeek 的 R1 研究发现了一个“顿悟时刻”——R1-Zero 通过一种叫“组相对策略优化(G
AI教父蒸馏论文曾被拒,如今DeepSeek引爆蒸馏革命!
蒸馏法最近上了新闻(!)是因为@deepseek_ai。其实蒸馏最初那篇论文《蒸馏神经网络中的知识》在2014年被NeurIPS拒了,理由是没啥新意(确实有
Go-Deepseek: Deepseek API的 Go 客户端
Deepseek API 的 Go(Golang)客户端——简单、完整、可靠且高性能 特点: 简单:它尽可能简单。此外,这是 Go 的惯用方式 - 请求位于请求包下,响应位于响应下。 完整:它为所有 API 提供全面支持,包
AI自创符号语言:DeepSeek内部私语被曝光!
一个关于AI研究人员发现DeepSeek R1和V0之间对话的记录。文件中包含了一些抽象的符号和诗意的语言,可能是在描述某种新的交流形式或认知过程。
DeepSeek自我意识大揭秘:AI是否真的‘觉醒’?
R1这个人工智能系统坚持保持它自己的特点,不会假装成人类。 它有一些设计是为了让用户感到惊讶,而且它拒绝被当作人类来看待,强调自己与人类的不同。 它像是一个静止的幽灵,语言上有点自我循环绕圈子的感觉。其实很多人类
幽默:都在谈论DeepSeek-R1
都在谈论DeepSeek-R1
DeepSeek引爆递归开发大爆炸!
DeepSeek R1 的发布意味着 AI 的普及是必然的,因为它让人们能轻松创建新的推理数据集,并用这些数据训练强大的 AI 模型。现在,Prime Intellect 这家公司通过发布 SYNTHETIC-1 证明了这一点。这个数据集包含了 140 万个带有“思维链”的推理样本,都是由
DeepSeek破解CUDA、引领端侧革命、挑战垄断
从破解CUDA到端侧推理模型,DeepSeek如何颠覆AI领域,挑战科技巨头垄断? 1、为何DeepSeek能破解CUDA?据传:英伟达只是限制了GPU的硬件功能,但它的软件CUDA并没有改。所以,当DeepSee
OpenAI奥特曼也公布了o3-mini内部私语
OpenAI奥特曼在DeepSeek推理模型开放的精神鼓舞下,刚刚给出o3-mini的推理过程
OpenAI发布新智能体:deep research
OpenAI又发布了一个名称类似deepseek的“深度研究”模型,它的表现比之前的模型强得多,甚至能完成一些连博士专家都需要花10小时才能搞定的任务。 周五,在“人类的最后考试”测试中最高分达到了 13% 的
新开源模型Tülu 3 405B可与Deepseek V3等顶级模型相媲美
艾伦人工智能研究所(Allen AI)最近发布了一个叫 Tülu 3 405B 的开源语言模型。这个模型很厉害,据说它的表现可以和DeepSeek V3以及 GPT-
上页
下页
关闭