本周open-interpreter等10个开源AI大模型
本周大模型AI有趣项目、工具和库
1、open-interpreter
计算机自然语言界面。
让语言模型在您的计算机上运行代码。在本地开源的OpenAI的代码解释器。
Open Interpreter(开放解释器)可以让大语言模型(LLM)在本地运行代码(比如Python、JavaScript、Shell等)。安装后,在终端上运行$ interpreter就可以通过类似ChatGPT的界面与Open Interpreter聊天。
本软件为计算机的通用功能提供了一个自然语言界面,如:
- 创建和编辑照片、视频、PDF等
- 控制Chrome浏览器进行搜索
- 不平等、清理和分析大型数据集
与 ChatGPT 的代码解释器比较:
OpenAI 发布的代码解释器和 GPT-4 提供了一个与 ChatGPT 实际执行任务的绝佳机会。
但是,OpenAI 的服务是托管的,闭源的,并且受到严格限制
Open Interpreter(开放解释器)通过在本地环境中运行克服了这些限制。它可以完全访问互联网,不受运行时间或文件大小的限制,也可以使用任何堆栈或库。
这将是GPT-4代码解释器的强大功能与本地开发环境的灵活相结合。
2、Devika
Agentic 人工智能软件工程师。 Devika 的目标是成为 Cognition AI 的 Devin 的有竞争力的开源替代品。
Devika 是一位高级人工智能软件工程师,可以理解高级人类指令,将其分解为步骤,研究相关信息并编写代码以实现给定目标。 Devika 利用大型语言模型、规划和推理算法以及网页浏览功能来智能地开发软件。
Devika 的目标是通过提供人工智能结对程序员来彻底改变我们构建软件的方式,该程序员可以在最少的人工指导下完成复杂的编码任务。无论您需要创建新功能、修复错误还是从头开始开发整个项目,Devika 都会为您提供帮助。
Devika 是Cognition AI 以Devin为原型的。该项目旨在成为 Devin 的开源替代品。
主要特征
- 支持Ollama、 Claude 3、GPT-4、GPT-3.5。为了获得最佳性能:使用Claude 3系列型号。
- 先进的AI规划和推理能力
- 上下文关键词提取以进行重点研究
- 无缝网页浏览和信息收集
- 用多种编程语言编写代码
- 动态代理状态跟踪和可视化
- 通过聊天界面进行自然语言交互
- 基于项目的组织和管理
- 用于添加新功能和集成的可扩展架构
系统架构
Devika的系统架构由以下关键组件组成:
- 用户界面:基于网络的聊天界面,用于与 Devika 交互、查看项目文件以及监控代理的状态。
- Agent Core:编排AI规划、推理和执行过程的核心组件。它与各种子代理和模块通信以完成任务。
- 大型语言模型:Devika 利用Claude、GPT-4和Ollama 的本地 LLM等最先进的语言模型进行自然语言理解、生成和推理。
- 规划和推理引擎:负责将高级目标分解为可操作的步骤,并根据当前上下文做出决策。
- 研究模块:利用关键字提取和网页浏览功能来收集当前任务的相关信息。
- 代码编写模块:根据计划、研究结果和用户需求生成代码。支持多种编程语言。
- 浏览器交互模块:使 Devika 能够根据需要导航网站、提取信息并与 Web 元素交互。
- 知识库:存储和检索项目特定信息、代码片段和学到的知识,以便高效访问。
- 数据库:保存项目数据、代理状态和配置设置。
3、T-Rex
通过文本-视觉提示协同实现通用物体检测。
物体检测,即定位和识别图像中对象的能力,是计算机视觉的基石,对于从自动驾驶到内容审核等应用至关重要。
传统目标检测模型的一个显着限制是其封闭集性质。这些模型在一组预定的类别上进行训练,从而限制了它们仅识别那些特定类别的能力。训练过程本身是艰巨的,需要专业知识、广泛的数据集和复杂的模型调整才能达到理想的准确性。此外,新的物体类别的引入加剧了这些挑战,需要重复整个过程。
T-Rex2 通过将文本和视觉提示集成在一个模型中来解决这些限制,从而利用这两种模式的优势。文本和视觉提示的协同作用为 T-Rex2 提供了强大的零射击功能,使其成为不断变化的物体检测领域中的多功能工具。
T-Rex2 非常适合各种现实世界的应用,包括但不限于:农业、工业、牲畜和野生动物监测、生物学、医学、OCR、零售、电子、运输、物流等。 T-Rex2主要支持交互式视觉提示工作流程、通用视觉提示工作流程和文本提示工作流程三大工作流程。可以覆盖大部分需要物体检测的应用场景
4、OpenDevin
一个旨在复制 Devin 的开源项目,Devin 是一位自主人工智能软件工程师,能够执行复杂的工程任务并在软件开发项目上与用户积极协作。
Devin 代表了一种尖端的自主代理,旨在应对软件工程的复杂性。它利用 shell、代码编辑器和 Web 浏览器等工具的组合,展示了大模型在软件开发方面尚未开发的潜力。我们的目标是探索和扩展 Devin 的能力,确定其优势和需要改进的领域,以指导开放代码模型的进展。
使用大模型实现生产级应用程序的完全复制是一项复杂的工作。我们的策略包括:
- 核心技术研究:专注于基础研究,以理解和改进代码生成和处理的技术方面。
- 专业能力:通过数据管理、培训方法等提高核心组件的有效性。
- 任务规划:开发错误检测、代码库管理和优化的能力。
- 评估:建立全面的评估指标以更好地理解和改进我们的模型。
技术栈
- 沙箱环境:使用 Docker 和 Kubernetes 等技术确保代码的安全执行。
- 前端界面:开发用户友好的界面,用于监控进度并与 Devin 交互,可能利用 React 等框架或创建 VSCode 插件以获得更集成的体验。
5、VoiceCraft
零次语音编辑和文本转语音。VoiceCraft: 文本生成任何人的语音技术
6、Lightning-thunder
让 PyTorch 模型快如闪电!使 PyTorch 模型速度提高 40%! Thunder 是 PyTorch 的源到源编译器。它允许同时使用不同的硬件执行器;跨一个或数千个 GPU。
- 它通过同时组合和使用不同的硬件执行器(例如nvFuser、torch.compile、cuDNN和TransformerEngine FP8)来提高 PyTorch 程序的速度。
- Thunder还支持DDP和FSDP等分布式策略,用于在多个GPU上训练模型。
通过优化的复合效应和使用一流的执行器,Thunder 可以比标准的非编译 PyTorch 代码(“PyTorch eager”)实现显着的加速。
Thunder 内部:核心功能简介
给定一个 Python 可调用或 PyTorch 模块,Thunder 可以生成一个优化的程序:
- 计算其前向和后向传递
- 将操作合并到高效的融合区域
- 将计算分派给优化的内核
- 在机器之间最佳地分配计算
为此,Thunder 附带了:
- 用于获取针对 PyTorch 和自定义操作的 Python 程序的 JIT
- 多级中间表示 (IR),将操作表示为缩减操作集的踪迹
- 计算图轨迹上的一组可扩展变换,例如grad、融合、分布式(如ddp、fsdp)、函数(如vmap、vjp、jvp)
- 一种将操作分派给可扩展执行器集合的方法
Thunder 完全用 Python 编写。甚至它的踪迹在转换的所有阶段都被表示为有效的 Python。这使得内省和可扩展性达到前所未有的水平。
7、rever_ai
通过在消费类硬件上使用本地大语言模型 (LLM) 提供自动化逆向工程帮助。
核心特点
- 离线操作:完全在本地CPU/GPU上运行LLM,确保数据隐私和安全。
- 自动函数命名:从反编译器输出中自动建议具有语义意义的函数名称。
- Binary Ninja 集成:作为插件与 Binary Ninja 无缝集成。
- 模块化架构:专为轻松扩展而设计,以支持 IDA 和 Ghidra 等其他逆向工程工具。
- 消费类硬件兼容性:经过优化,可在消费级硬件(例如 Apple 芯片架构)上运行。
为了在消费级硬件上获得最佳的 LLM 性能,建议使用多个 CPU 线程或强大的 GPU 进行设置。ReverserAI在至少具有 16 GB RAM 和 12 个 CPU 线程的系统上高效运行,查询大约需要 20 到 30 秒。 GPU 优化(尤其是在 Apple 芯片设备上)可以将每个查询的时间减少到 2 到 5 秒。
8、Leaping
Leaping 的 pytest 调试器是一个简单、快速、轻量级的 Python 测试调试器。 Leaping 跟踪代码的执行,并允许您使用基于 LLM 的自然语言调试器随时追溯检查程序的状态。
您可以询问 Leaping 问题,例如:
- 为什么我没有点击函数 x?
- 为什么变量 y 设置为这个值?
- 此时变量 x 的值是多少?
- 我可以对此代码进行哪些更改才能使该测试通过?
9、Tracecat
Tines / Splunk SOAR 原生开源替代品。
它的设计简单但功能强大。安全自动化应该可供每个人使用,包括尤其是人手不足的中小型团队。
SOAR (安全编排、自动化和响应)是指使组织能够跨不同工具自动收集和响应警报的技术。尽管 Tracecat 是为了安全性而构建的,但它的工作流程自动化和案例管理系统可以应用于其他警报环境(例如站点可靠性工程、DevOps 和物理系统监控)。
Tracecat是一个面向安全团队的开源自动化平台。我们正在构建 Tines / Splunk SOAR 的功能:
- 企业级开源工具
- 开源 AI 基础设施和 GPT 模型
- 痴迷于从业者的 UI/UX
构建人工智能辅助工作流程、丰富警报并快速结案。
- 工作流程
- 拖放构建器
- 核心原语(webhook、HTTP、if-else、发送电子邮件等)
- AI 操作(标签、总结、丰富等)
- 秘密
- 批流数据转换(预计 2024 年 4 月)
- 公式(预计 2024 年 5 月)
- 版本控制(预计 2024 年 6 月)
- 案例管理
- SMAC(状态、恶意、操作、上下文)
- 抑制
- 重复数据删除(预计四月第一周)
- AI辅助标记(例如MITRE ATT&CK)
- 指标
- 分析仪表板
- 事件日志
- 无限日志存储
- 日志搜索
- 视觉检测规则
- 管道查询语言
- 数据验证
- Pydantic V2用于后端的快速数据模型和输入/输出验证
- Zod用于前端的快速表单和输入/输出验证
- 团队
- 合作
- 租户
- 人工智能基础设施
- RAG 载体数据库
- LLM评估和安全
- 带上你自己的大模型(OpenAI、Mistral、Anthropic 等)
10、rag-search
RAG 搜索 API。
RAG Search API by thinkany.ai
11、featup
适用于任何分辨率特征的模型无关框架。
FeatUp 将任何模型特征的空间分辨率提高了16-32 倍,而无需改变其语义。
深度特征是计算机视觉研究的基石,它能捕捉图像语义,使研究人员即使在零镜头或少镜头的情况下也能解决下游任务。然而,这些特征往往缺乏空间分辨率,无法直接执行密集预测任务,如分割和深度预测,因为模型会在大面积区域内积极汇集信息。
在这项工作中,我们引入了 FeatUp,这是一个与任务和模型无关的框架,用于恢复深度特征中丢失的空间信息。
我们引入了 FeatUp 的两种变体:
- 一种是在单次前向传递中引导具有高分辨率信号的特征,
- 另一种是将隐式模型拟合到单幅图像,以重建任何分辨率的特征。
这两种方法都使用了与 NeRFs 深度类似的多视图一致性损失。我们的特征保留了其原始语义,可以替换到现有应用中,即使不重新训练也能提高分辨率和性能。
我们的研究表明,在类激活图生成、分割和深度预测的迁移学习以及语义分割的端到端训练方面,FeatUp 明显优于其他特征上采样和图像超分辨率方法。