RECONCILE 是一个多代理框架,能让多个不同的大型语言模型 (LLM) 进行多轮讨论,并就复杂的推理任务达成共识。
它包括 3 个主要阶段:
- 生成初始响应
- 多轮讨论
- 生成最终答案
第 1 阶段:初始答案生成
- - 给定推理任务 Q,每个代理 Ai 生成:
- - 一个初始答案 ai
- - 一个解释 ei
- - 表示答案正确可能性的置信度 pi
- - 初始提示指示代理逐步推理。
第二阶段:多轮讨论
- - RECONCILE 促进代理人之间进行 R 轮讨论。
- - 在每一轮讨论中,代理 Ai 的讨论提示 Di 包括
- - 上一轮的分组答案 {aj},根据不同的回答进行总结
- - 上一轮的解释 {ej},根据每个答案分组
- - 估计其他代理人不确定性的信心分数 {pj}
- - 每个其他代理 Aj 的说服力样本 Cj,由可以纠正 Aj 错误答案的人类解释组成
- - 在此基础上,每个代理 Ai 提供更新的答案、解释和信心分数。
- - 目标是说服其他代理达成更好的共识。说服样本会教会代理生成有说服力的解释。
第 3 阶段:生成最终答案
- - 讨论一直持续到达成共识或最多 R 轮。
- - 最终答案通过置信度加权投票产生:
- - 调整置信度 pi 以应对过度置信问题
- - 将 pi 转换为权重 wi
- - 对所有代理的答案进行加权投票,以确定最终答案
这种采用不同 LLM 的多轮讨论和说服方法提高了推理能力。
源码点击标题