Dojo
话题
新佳
订阅
极道
元认知
元逻辑
元设计
元编程
元语言
大语言模型LLM
上下文的长窗口是大语言模型的核心秘密
对于每一款新iPhone,我们都期望更长的电池续航时间。 上下文窗口长度是LLM的新电池。对于每一个新的GPT,将有更多,直到上下文变得无限。 上下文检索并不新鲜,可以与注意力深度整合,而不是嵌入式搜索。
MemoryGPT 是有长期记忆的 ChatGPT
有了长期记忆,语言模型可能会更加具体——或者更加个性化。MemoryGPT 给人的第一印象。 语言模型中更大的上下文窗口有助于它们同时处理更多信息。 但是,缩放上下文窗口可能存在技术和财务限制。在可预见的未来,可能需要用于长期机器记忆的新记忆系统。 借助“Me
人工智能可以告诉我们关于人类智能到底是什么?
将人类的专业知识提炼成一套规则和事实是非常困难、耗时且昂贵的。这被称为“知识获取瓶颈”。 虽然编写数学或逻辑规则很简单,但世界本身却非常模糊。 这正是神经网络擅长的地方:发现模式和接受歧义。神经网
语言学家:ChatGPT与人类完全不同
大型语言模型(简称LLM)输出的词语自然得听起来像人说的,我们应该如何解释这种机制呢? 这些模型是建立在统计学之上的。它们的工作方式是在大量的文本中寻找模式,然后利用这些模式来猜测一串词中的下一个词应该是什么。
现代语言模型驳斥乔姆斯基的语言方法 - lingbuzz/007180
大型语言模型的兴起和成功几乎破坏了生成语言学所提出的每一个关于语言的先天性的有力主张。 现代机器学习已经颠覆并绕过了乔姆斯基方法的整个理论框架,包括其对特定见解、原则、结构和过程的核心主张。 我描述了现代
setzer22/llama-rs: 使用 Rust 在 CPU 上运行 LLaMA 推理
LLaMA-rs是llama.cpp项目的 Rust 端口 。 这允许使用模型的全精度、f16 或 4 位量化版本在 CPU 上以良好的性能运行
大语言模型137个涌现特征列表 — Jason Wei
涌现emergent :定义为一种能力“不存在于小模型中,但......存在于大模型中。” 在大型语
BloombergGPT:金融领域的大语言模型
NLP 在金融技术领域的应用广泛而复杂,应用范围从情感分析和命名实体识别到问答。 大语言模型 (LLM) 已被证明对各种任务有效;但是,文献中没有报道过专门针对金融领域的LLM。在这项工作中,我们展示了 BloombergGPT,这是一个 500
GPT-4已经是通用人工智能AGI了?
微软发布了一篇154页的关于OpenAI GPT-4的论文:通用人工智能的火花:GPT-4 的早期实验,文章说:
大语言模型LLM能否对自己的成果进行批判和迭代? | evjang
在计算机科学的许多领域(密码学,NP复杂性),验证解决方案比生成解决方案容易得多。这篇博客文章发现大语言模型LLM(主要是GPT-4)可能能够自我验证其解决方案。 与概率推理和最优控制中的大多数算法思想一样,让代理者自己批评其决策以使其变得更好是一
如何使用Java对文本进行情感分析和分类?
就像我们与朋友之间的长期关系的发展一样,相互同情也在决定我们企业与客户关系的成功方面发挥着关键作用。当客户花时间在产品或服务的评论中输入他们的想法和感受,通过社交媒体平台分享他们的感受,或通过一些类似的媒介提供反馈时,我们有责任把他们作为同胞来同情,并确定他们对他们所经历的事情的集体感受。使
使用大语言模型LLM构建产品时的挑战和困难
有很多关于人工智能的炒作,特别是大型语言模型(LLMs)。直截了当地说,这些炒作只是一些演示性的废话,一旦有人试图将其用于他们工作所依赖的真正的任务,就会被推翻。 现实远没有那么光鲜亮丽:在LLM的支持下很难建立一个真正的产品。</
femtoGPT:Rust编写的最小GPT
femtoGPT 是最小生成预训练转换器GPT的纯 Rust 实现。 一切都是从头开始实现的,包括张量处理逻辑以及最小 GPT 架构的训练/推理代码。 对于那些对 LLM 着迷并想了解这些模型如何在非常深
提示工程与盲目提示 - Mitchell
展示了如何迅速工程可以是一个真实的的系统的方法,从语言模型中提取的价值。 “提示工程Prompt Engineering”源于语言模型的发展,描述了应用提示以有效地从语言模型中提取信息的过程,通常用于现实世界的应用程序。
大语言模型涌现的自主科研能力
基于 Transformer 的大型语言模型在机器学习研究领域发展迅速,应用范围涵盖自然语言、生物学、化学和计算机编程。从人类反馈中进行极端缩放和强化学习显着提高了生成文本的质量,使这些模型能够执行各种任务并推理他们的选择。 在本文中,我们提出了一
ChatGPT只是英语单一语言文化的体现
当我们在人类生产的媒体语料库上训练一个机器学习模型,在特定的例子上对其进行微调,并就其对这些事物的解释给予反馈,我们就在做类似于生产文化的事情。 历史上的人类文化是由交流、创新和分歧的混合物形成的。他们产生了不同的语言、哲学、艺术风格、经济体系和社
OWASP 正在为大语言模型创建 10 大危险列表
Open Worldwide Application Security Project (OWASP) 是一个致力于提高软件安全性的非盈利基金会。 OWASP Top 10 for Large Language Model Applications
幻觉可能会削弱 ChatGPT 的成功 - IEEE
训练ChatGPT 这样的 LLM(大型语言模型) 需要数十亿单词,其抽象的想法是通过文本来学习的。 大型语言模型不知道语言描述的潜在现实,语言建立在我们共同拥有的大量背景知识之上,我们称之为常识,计算机需要通过观察来学习以获得这种非语言知识。</
上页
下页
关闭