计算机视觉 - 极道

以下摘录IEEE的文章，原文点击标题： 1、为什么您的演讲题目是“攀登视觉智能的阶梯”？李飞飞：我认为，直觉告诉我们，智能具有不同的复杂度和精密度。

Meta前首席AI科学家杨立昆（Yann LeCun）创立新公司AMI，融资超10亿美元打造能理解物理世界的AI世界模型，剑指OpenAI、Anthropic等LLM巨头，押注人类级智能需要超越语言模型的全新架构。杨立昆曾经是一家市值万亿的科技巨

FFmpeg支持WebRTC了：这意味着使用FFmpeg库（具体看起来像libavformat）的程序可以使用webRTC流 WHIP多路复用器与FFmpeg合并，实现亚秒级延迟流传输！一个大项目一夜之间被合并到FFmpeg中，为亚秒延迟流提供WH

Meta新AI模型V-JEPA 2：让机器人“先思考再行动”，开启具身智能性新方向！ Meta推出全新AI模型V-JEPA 2，赋予机器人类似人类的“观察-思考-行动”能力。它能预测物体运动（如冰球飞行轨迹）、绕开障碍物、精准抓取或摆放物体，即使面

三个有趣的事实： - 大脑是为视觉而进化的，但结果证明对语言很有帮助。 - 视觉是反向图形。 - GPU 是为图形而设计的，但结果证明对语言很有帮助。这些事实确实引人入胜，凸显了视觉、语言和计算之间的

计算机视觉这行快要变天了，计算机视觉正在消失？别再折腾3D重建了，那是个死胡同！为什么你的计算机视觉知识可能快要过期了我们以前折腾的那些计算机视觉任务，比如识别图片里是猫还是狗、给每个像素分类、重建3D模型，这些事很快就要被扫进历史课本了。</

AI直播实时换脸难点是脸部表情，眼睛转动，嘴巴嘴型需要实时生动：点击标题见视频：

一种名为 Meissonic 的新型开源 AI 模型仅使用十亿个参数即可生成高质量图像。这种紧凑的尺寸可以实现本地文本转图像应用程序，尤其是在移动设备上。阿里巴巴集团、Skywork AI 和多所大学的研究人员利用独特的 Transformer 架构和新

这篇由Meta、耶鲁、斯坦福、谷歌DeepMind和微软等顶尖机构的研究人员联合撰写的264页重磅论文，简直像一本“AI智能体完全手册”，把智能体的方方面面都讲透了！大脑VS智能体，就像老师傅PK机器人：• 大脑是个省电小能手，而智能体

圣树科技与清华大学合作推出“Vidu”，可以制作16秒长、1080p分辨率的高清视频。可以制作16秒长、1080p分辨率的高清视频。网友评论：1、很高兴有竞争！看起来不像Sora那么稳定，但很有前途！

想象一下，让一幅珍贵的肖像栩栩如生，让人物说话并表达情感。得益于微软突破性的VASA-1 AI 模型，这一未来概念现在更接近现实。这是一种新的人工智能模型，可以将一张照片和一段音频变成完全逼真的深度伪造人类。

阿里巴巴的人工智能研究团队 Qwen发布了 QVQ-72B-Preview，这是一种可以分析图像并从中得出结论的新开源模型。虽然它仍处于实验阶段，但早期测试表明它在<

第一条AI炸裂消息：在2025雪花科技峰会上，OpenAI掌门人山姆奥特曼和雪花CEO Sridhar上演了一场"神仙聊天"！由科技圈知名主持人Sarah Guo主持，三位大佬把人工智能的未来聊得明明白白～山姆奥特曼当场画饼（划掉）畅想：终极AI应该是个

DeepSeek刚发布了一款开源多模态人工智能模型Janus-Pro。其中Janus-Pro-7B在GenEval和DPG-Bench基准测试中击败了OpenAI的D

AI看脸比人类更狠：你打扮成什么样，比你以为的要重要得多！六种主流多模态模型在五百张假脸上做社会判断，发现偏见集中在少数视觉特征，尤其穿衣风格、年龄和体型，种族性别反而不是主因。 AI看

Meta Llama 3.2模型很棒，确实是开源万神殿的一大补充。它非常适合日常使用，考虑到隐私和成本，它可以成为 GPT-4o 这类任务的潜在替代品。不过，GPT-4o 对于困难任务还是更胜一筹，比如医学图像分析、股票图表分析等等。 Meta 发

OpenAI 公布了 GPT-4o 的图像生成新指南，这标志着他们开始往给用户更多创作自由、同时还留点安全底线这个方向走。OpenAI 在 Substack 帖子中仔仔细细讲了公司为啥要这么改。他们说，公司不想再搞特别严的限制了，要多给用户自己做主的空间。

具身智能第一步：机器人学会"空间辨识"！科学家用虚拟世界打造空间推理神器假设：你让机器人帮你拿冰箱里的可乐，它却对着微波炉发呆——这不怪它，现在的AI就像个"空间路痴"。但最近科学家搞了个骚操作：用虚拟世界+3D场景说明书，硬生生给AI装上了"空