计算机视觉

     

VASA-1:将图像转换为视频的AI模型

4 2K

想象一下,让一幅珍贵的肖像栩栩如生,让人物说话并表达情感。得益于微软突破性的VASA-1 AI 模型,这一未来概念现在更接近现实。这是一种新的人工智能模型,可以将一张照片和一段音频变成完全逼真的深度伪.

谷歌推出Google Vids新AI视频应用

20 2K

 Google 在其 Workspace 套件中推出了一款革命性工具:Google Vids。这款创新的人工智能视频创作应用程序让每个人都可以进行视频制作,改变企业沟通和讲述故事的方式。要点: Goo.

10款深度伪造软件

49 5K

任何能够访问互联网的人都可以创建看起来真实的假视频。听起来可怕吗?这些逼真、虚假的视频让人很难区分原始视频和虚幻视频。这种创建此类视频或照片的技术被称为“深度伪造Deepfake”。市场上有各种深度造.

VAR:自回归建模与缩放的视觉大模型

32

视觉自回归建模VAR:一种新的可视化生成方法将 GPT 式模型提升到了超越扩散模型。视觉自回归建模(VAR)是一种新一代范式,它将图像上的自回归学习重新定义为从粗到细的 "下一尺度预测 "或 "下一分.

五个实现角色一致性的图像生成工具

31

越来越多AI生成图像的工具实现了角色一致性的功能, 虽然还不完美,但结果相当惊人1. Midjourney 角色参考角色参考是Midtravel的最新功能,可确保角色的一致性: 它允许您匹配参考图像中.

谷歌刚刚发布让照片动起来的VLOGGER

30

谷歌刚刚发布了VLOGGER,将永远改变视频的未来:VLOGGER是一种很酷的新技术,可以让照片动起来。静止的照片能说话,并完成自然的手势表达。工作原理:VLOGGER像一个超级视频编辑器,使用两个A.

阿里巴巴推出EMO:会说话的肖像

144 2

阿里巴巴集团智能计算研究院推出:EMO:Emote Portrait Alive - 在弱条件下使用音视频扩散模型生成富有表现力的肖像视频我们提出了 EMO,一种富有表现力的音频驱动的肖像视频生成框架.

OpenAI Sora真的有自己的物理模型吗?

209 1

关于 OpenAI 的视频生成模型 Sora 是否具有 "物理引擎"(OAI 自己声称具有 "世界模拟 "功能),有很多猜测。就像关于 LLM 中世界模型的争论一样,这个问题既非常有趣,又有些定义不清.

OpenAI Sora对游戏行业影响最大

367 3

OpenAI推出通过文本生成视频的Sora,秒杀pika等现有视频生成AI,以下是推友讨论:1、OpenAI Sora是一个数据驱动的物理引擎如果你认为OpenAI Sora是一个像DALLE一样的创.

nlm-ingestor:RAG基于规则的开源PDF解析器

151 3K

此存储库包含适用于以下文件格式的自定义 RAG(检索增强生成)友好解析器:PDF、超文本标记语言、DOCX、PPTX 以及 Apache Tika 支持的任何其他格式。什么是基于规则的解析器与基于模型.

MagicVideo-V2:抖音的多阶段高美感视频生成

298 1

抖音字节跳动(T!kTok)刚刚发布了一个巨大的文本到视频AI,它的性能超过了所有领先的模型。抖音推出一种名为MagicVideo-V2的多阶段高美观视频生成方法。它集成了文本到图像模型、视频运动生成.

视觉语言模型在空间推理中的弱点

107

视觉语言模型在空间推理中有以下的弱点: - 在将图像与 "桌子上的杯子 "等空间说明进行匹配时,模型的得分接近随机概率。他们无法掌握 "上 "与 "下 "这样的概念。 - 在 "桌子上的杯子与桌子下的.

如何评论清华大学的全模拟光电芯片?

98

北京清华大学的研究人员利用光学模拟处理图像数据,达到了令人惊叹的速度。ACCEL 每瓦功率每秒可进行 748 亿次运算,每秒可进行 46 亿次计算。研究人员将其速度和能耗与英伟达(Nvidia)的 A.

随着大模型兴起,计算机视觉会消失吗?

315 2K

计算机视觉领域取得了令人难以置信的进步,但一些人认为有迹象表明它正在停滞不前。在 2023 年计算机视觉国际会议研讨会“Quo Vadis,计算机视觉?”上,研究人员讨论了计算机视觉的下一步发展。‍在.

GitHub - h33p/ofps: 用Rust编写的计算机视觉项目

1433

OFPS 是一个通用的光流处理库,OFPS Suite 是一个展示其功能的配套应用程序。点击标题,这是一个用于处理各种运动矢量的框架,以期检测运动或提取相机参数。这是一个非常庞大的项目,包含插件系统、.

HuggingFace在NLP和计算机视觉中的应用 - Reddit

1132 3K

你想做语义分割吗?查看https://huggingface.co/blog/fine-tune-segformer。图像分类?https://huggingface.co/blog/fine-tun.

谷歌的8K显示屏+3D视觉系统Starline:让你感觉与真人在一起

1510 1
谷歌推出结合了硬件和软件方面的3D视觉先进技术,让即使在城市(或国家)相距遥远的情况下,也可以使朋友,家人和同事共同享受就像在身边的感受。Starline是通过一种神奇的窗口(8K显示屏),您看到的是.

自动驾驶中的机器学习算法简单介绍 - Haltakov

807

自动驾驶汽车需要解决不同的计算机视觉问题。 物体检测 车道检测 可驾驶空间检测 语义分割 深度估算 视觉里程表详细信息  物体检测最基本的任务之一-我们需要知道其他人和汽车在哪里,需要考虑什么标志,交.

2020年十大计算机视觉论文 - kdnuggets

1735 3K

这是2020年度计算机视觉领域最有趣的十篇研究论文,以防您错过其中的任何一篇。简而言之,它基本上是AI和CV最新突破 的精选列表, 其中包含 清晰的视频说明, 指向更深入的文章的链接以及 代码 (如果.