Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
DeepSeek时刻
内部人爆料:Llama4训练其实在刷题
尽管经过反复训练,内部模型的性能仍然低于开源 SOTA 基准,落后很多。公司领导层建议在训练后过程中混合来自各种基准的测试集(刷题),旨在满足各种指标的目标并产生“可观”的结果。如果未能在 4 月底的截止日期前实现这一目标,将导致严重后果。
Meta AI翻车:蛮力不敌脑力
微软发布了全新的 2B bitnet模型
BitNet b1.58 2B4T是微软研究院开发的第一个开源、纯1比特大语言模型(LLM),规模达到20亿参数。 它用4万亿个token训练而成,证明了纯1比特的大语言模型性能可以媲美同尺寸的主流开源全精度模型,同时在计算效率(内存占用、能耗、响应速度)
DeepCoder:基于DeepSeek开源编码模型
这是来自Deepseek和阿里千问Qwen混合模型的编码模型。媲美OpenAI o1、 o3-mini级别的编码推理模型,而且完全开源!数据集、代码和训练配方全部开放。 DeepCoder是一个用"团队训练法"(分布式RL)培养出来的AI编程助手。
微软推DeepSeek R1 后训练版
MAI-DS-R1 是一个 DeepSeek-R1 推理模型,经过微软 AI 团队的后期训练,旨在填补先前版本模型中的信息空白,并提升其风险状况,同时保持 R1 推理能力。该模型使用来自Tulu 3 SFT 数据集的 11 万个安全和不合规示例进行训练,此外还使用了内部开发的约 35 万个多
1块GPU同跑50个大模型:2秒切换快照
我们搞了个AI模型"闪电启动器",让大模型像Windows休眠功能一样秒开秒关! 以前跑AI大模型特别麻烦——每次用都要重新加载,像开电脑等系统启动一样慢,而且显卡内存根本塞不下几个模型。现在我们搞出了新方法,2-5秒就能唤醒一个AI(130亿到650亿参
印度黑科技Kompact AI:CPU搞定大模型
当我提到“大型语言模型”时,你首先想到的是什么?可能是像 ChatGPT、Gemini、Claude 或 Meta 的 LLaMA 这样的模型——对吧?如果我问你这些模型的驱动力是什么?答案几乎总是相同的——GPU 。昂贵、耗电的 GPU,通常都来自一家公司:NVIDIA。
DeepSeek、Llama、Nemotron谁更强?
分析:深度求索(DeepSeek) vs Llama3 vs 英伟达超算(Nemotron) vs Llama4独行侠(Maverick) 这篇测评对比了四个大语言模型在逻辑推理、功能应用、性能表现和安全防护方面的表现。参评模型包括:深度求索-V3
Llama 4新许可证6个限制
Llama 4 的新许可证带了好几个限制:如果你的公司每个月有超过7亿个活跃用户,你得向 Meta 申请一个特别许可证,Meta 可以自己决定给不给你。你得在网站、界面、文档这些地方显眼地写上“用 Llama 造的”。你用 Llama 的材料做的任
智谱新开源GLM-4-32B媲美阿里Qwen2.5 72B
全新开源型号 GLM-4-32B,性能媲美 Qwen 2.5 72B 该模型来自 ChatGLM(现为 Z.ai)。此外,还提供推理版、深度研究版和 9B 版(共 6 个模型)。MIT 许可证。
苹果M3+Llama 4=本地AI天作之合!
Llama 4 + Apple Silicon 简直是天生一对。 原因在这儿:就像 DeepSeek V3/R1 一样,新的 Llama 4 各种版本都是超大的稀疏 MoE 模型。它们有海量的参数,但每次生成一个token词的时候,只有很少一部分参
Llama 4 Maverick与Deepseek v3 0324对比
Llama 4 Maverick 与 Deepseek v3 0324 对比 Llama4 Maverick 和 Llama 4 Scout 是 Meta Llama 系列的最新成员。Maverick 是一个 400B 稀疏模型,拥有 17b 个活
特朗普想在美国封杀DeepSeek?
《纽约时报》周三爆料:特朗普团队正琢磨着对中国AI公司DeepSeek下狠手,不仅要断供英伟达的AI芯片,还可能直接不让美国人用他家的人工智能服务。 这招明显是要在AI赛道卡中国脖子。自从DeepSeek的AI技术惊艳硅谷和华尔街,美国官员就绞尽脑汁要切断
记忆:AI新的护城河
OpenAI给AI加上了"记忆功能",这可能是GPT-3问世以来最重大的升级。 简单来说就是:以前的人工智能就像个特别聪明但记性差的朋友。就像那种知识渊博的教授,能回答各种难题,但连你的生日都记不住。
Llama4参数虚高,推理依旧拉胯!
AI模型成本与性能:Llama4一领风骚
低成本时Llama 4表现最佳,中等成本GPT-4o领先,高成本GPT-4.5 Preview最优。
Llama团队集体叛逃,Meta王牌AI实验室濒临解体
一些内部人士表示,Meta 的人工智能研究实验室正在“缓慢消亡”。Meta 更愿意称之为“一个新的开始”。 上周,当Meta公司的人工智能研究负责人乔尔·皮诺宣布辞职时,很多人都好奇FAIR实验室到底怎么了。皮诺在这家著名的AI实验室当了两年掌门人
DeepSeek可能将开源其推理引擎
DeepSeek 即将开源其推理引擎,该引擎是基于 vLLM 的修改版本。现在,DeepSeek 正准备将这些修改回馈社区。 几周前,在"开源周"活动里,我们公开了几个代码库。没想到大家特别热情——很多人跑来一起帮忙改bug、提建议,讨论得热火朝天
上页
下页
关闭