Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
计算机视觉
OpenAI Sora真的有自己的物理模型吗?
关于 OpenAI 的视频生成模型 Sora 是否具有 "物理引擎"(OAI 自己声称具有 "世界模拟 "功能),有很多猜测。就像关于 LLM 中世界模型的争论一样,这个问题既非常有趣,又有些定义不清。 当然,Sora 在推理过程中向 UE5 等外
MagicVideo-V2:抖音的多阶段高美感视频生成
抖音字节跳动(T!kTok)刚刚发布了一个巨大的文本到视频AI,它的性能超过了所有领先的模型。 抖音推出一种名为MagicVideo-V2的多阶段高美观视频生成方法。它集成了文本到图像模型、视频运动生成器、参考图像嵌入模块和帧插值模块,可以生成具有
OpenAI Sora对游戏行业影响最大
OpenAI推出通过文本生成视频的Sora,秒杀pika等现有视频生成AI,以下是推友讨论: 1、
谷歌的8K显示屏+3D视觉系统Starline:让你感觉与真人在一起
谷歌推出结合了硬件和软件方面的3D视觉先进技术,让即使在城市(或国家)相距遥远的情况下,也可以使朋友,家人和同事共同享受就像在身边的感受。Starline是通过一种神奇的窗口(8K显示屏),您看到的是一个与真实大小一样大小且在三个维度上都一样的人。您可以自然说话,打手势并进行眼神交流
2020年十大计算机视觉论文 - kdnuggets
这是2020年度计算机视觉领域最有趣的十篇研究论文,以防您错过其中的任何一篇。简而言之,它基本上是AI和CV最新突破 的精选列表, 其中包含 清晰的视频说明, 指向更深入的文章的链接以及 代码 (如果适用)。
GitHub - h33p/ofps: 用Rust编写的计算机视觉项目
OFPS 是一个通用的光流处理库,OFPS Suite 是一个展示其功能的配套应用程序。点击标题,这是一个用于处理各种运动矢量的框架,以期检测运动或提取相机参数。这是一个非常庞大的项目,包含插件系统、基于 egui 的应用程序、自定义 3D 渲染器以及从视频中提取运动的多种算法。</
HuggingFace在NLP和计算机视觉中的应用 - Reddit
你想做语义分割吗?查看https://huggingface.co/blog/fine-tune-segformer。图像分类?
自动驾驶中的机器学习算法简单介绍 - Haltakov
自动驾驶汽车需要解决不同的计算机视觉问题。 物体检测 车道检测 可驾驶空间检测 语义分割 深度估算 视觉里程表详细信息 物体检测最基本的任务之一-我们需要知道其他人和汽车在哪
阿里巴巴推出EMO:会说话的肖像
阿里巴巴集团智能计算研究院推出:EMO:Emote Portrait Alive - 在弱条件下使用音视频扩散模型生成富有表现力的肖像视频 我们提出了 EMO,一种富有表现力的音频驱动的肖像视频生成框架。输入单个参考图像和声音音频,例如说话和唱歌,
nlm-ingestor:RAG基于规则的开源PDF解析器
此存储库包含适用于以下文件格式的自定义 RAG(检索增强生成)友好解析器:PDF、超文本标记语言、DOCX、PPTX 以及 Apache Tika 支持的任何其他格式。 什么是基于规则的解析器与基于模型的解析器
随着大模型兴起,计算机视觉会消失吗?
计算机视觉领域取得了令人难以置信的进步,但一些人认为有迹象表明它正在停滞不前。在 2023 年计算机视觉国际会议研讨会“Quo Vadis,计算机视觉?”上,研究人员讨论了计算机视觉的下一步发展。在这篇文章中,我们为您带来了在巴黎 ICCV23 期间聚集的计算机视觉领域一些
视觉语言模型在空间推理中的弱点
视觉语言模型在空间推理中有以下的弱点: - 在将图像与 "桌子上的杯子 "等空间说明进行匹配时,模型的得分接近随机概率。他们无法掌握 "上 "与 "下 "这样的概念。 - 在 "桌子上的杯子与桌子下的杯子,就像桌子下的碗与桌子上的碗 "这样的视觉类比中,模型的得分率仅
如何评论清华大学的全模拟光电芯片?
北京清华大学的研究人员利用光学模拟处理图像数据,达到了令人惊叹的速度。ACCEL 每瓦功率每秒可进行 748 亿次运算,每秒可进行 46 亿次计算。 研究人员将其速度和能耗与英伟达(Nvidia)的 A100 电路进行了比较。最重要的是,ACCEL
五个实现角色一致性的图像生成工具
越来越多AI生成图像的工具实现了角色一致性的功能, 虽然还不完美,但结果相当惊人 1. Midjourney 角色参考角色参考是Midtravel的最新功能,可确保角色的一致性: 它允许您匹配参考图
VAR:自回归建模与缩放的视觉大模型
视觉自回归建模VAR:一种新的可视化生成方法将 GPT 式模型提升到了超越扩散模型。 视觉自回归建模(VAR)是一种新一代范式,它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 "下一分辨率预测",有别于标准的栅格扫描 "下一标记预
谷歌刚刚发布让照片动起来的VLOGGER
谷歌刚刚发布了VLOGGER,将永远改变视频的未来: VLOGGER是一种很酷的新技术,可以让照片动起来。静止的照片能说话,并完成自然的手势表达。 工作原理:VL
上页