Multi⁃tool coordinated call with reasoning to annotation and coding prompt paradigm based on large language model

ZhiYing JIANG, ZhenYu HUANG, ChenWei SONG, ZeYu ZHANG, ZhongHe HAN, WeiWei GU, QiHang GONG, SiYe LIU, Yan ZHAO

Journal of Beijing University of Chemical Technology ›› 2025, Vol. 52 ›› Issue (3) : 105-113.

PDF(1308 KB)
Welcome to Journal of Beijing University of Chemical Technology, Today is July 26, 2025
Email Alert  RSS
PDF(1308 KB)
Journal of Beijing University of Chemical Technology ›› 2025, Vol. 52 ›› Issue (3) : 105-113. DOI: 10.13543/j.bhxbzr.2025.03.011
Mechanical Engineering and Informatics

Multi⁃tool coordinated call with reasoning to annotation and coding prompt paradigm based on large language model

Author information +
History +

Abstract

Because large language models show good understanding and generation capabilities, various industries have begun to study automated intelligent assistants based on these models, calling upon tools to help people solve complex problems. Large language models are prone to hallucination problems when generating responses due to the closed and complex data in the training phase. When facing complex problem planning, large language models often find it difficult to accurately generate function names and parameters when calling multiple different tools, and cannot coordinate the invocation of multiple tools to find answers. To improve the model’s tool call accuracy when planning tasks for complex problems, this paper proposes a prompt method that employs a chain-of-thought approach, Reasoning to Annotation and Coding (ReACo). This method fully utilizes pre-trained data and enhances the language model’s ability to understand complex tasks through a task planning prompt method that combines code and annotations. Based on this, a new framework for large language model thinking prompts, named ReACoGPT, is proposed. The language model using ReACoGPT prompts can accurately call multiple plug-ins and provide logical task planning capabilities based on facts, so that, while maintaining the logic of task planning, the actual requirements data can also be accurately utilized. Experimental results show that compared with existing methods, ReACoGPT has achieved improvements in multiple indicators on the RestBench dataset, confirming that the ReACo prompt method can enhance the planning and reasoning capabilities of large language models, effectively utilize a large amount of training data to effectively plan tasks, and promote the further development of large language models in tool learning.

Key words

Reasoning to Annotation and Coding (ReACo) / tool invocation / chain-of-thought / large language model

Cite this article

Download Citations
ZhiYing JIANG , ZhenYu HUANG , ChenWei SONG , ZeYu ZHANG , ZhongHe HAN , WeiWei GU , QiHang GONG , SiYe LIU , Yan ZHAO. Multi⁃tool coordinated call with reasoning to annotation and coding prompt paradigm based on large language model[J]. Journal of Beijing University of Chemical Technology, 2025, 52(3): 105-113 https://doi.org/10.13543/j.bhxbzr.2025.03.011

引言

随着人工智能技术的不断突破与计算能力的持续提升1-3,基于大语言模型的AI Agent4开始走入人们视野。历经广泛应用于信息检索等方面的基于统计学习方法的统计语言模型5、使用神经网络方法构建自然语言来处理各种任务的神经网络模型6及在大规模语料库上进行训练并能针对任务进行快速微调学习的预训练模型7,随着计算资源的增加和算法的改进,在预训练语言模型基础上进行扩展而得到的大语言模型8应运而生。将大语言模型与各种外部插件相结合,可实现更丰富多样的功能。调用插件可拓展大语言模型的应用范围,使其能够处理更复杂和专业的任务,还能够提高大语言模型的执行效率,通过将任务分解和分发给不同的插件,减轻模型的计算负担,提高任务准确度9
工具的运用为人们的日常工作和生活带来了极大的便利。将大语言模型作为智能助手,协助操作人员使用工具,有助于进一步提升效率,高效完成任务10。Schick等11设计的Toolformer框架通过简单的API调用,以自我监督的方式学习如何使用不同的工具,提高了在一系列下游任务上的能力。Lu等12设计的Chameleon框架以即插即用的方式使用外部工具对其进行增强,针对当前大语言模型调用工具的局限性进行了优化,提升了在多模态知识密集型推理任务上的准确率。Tang等13设计了ToolAlpaca框架构建多智能体模拟环境,可自动创建高度多样化的工具使用语料库并对紧凑语言模型进行微调,他们尝试使模型在没有特定训练的情况下具有利用以前未见过的工具的能力,证明了学习泛化工具使用能力对于紧凑语言模型是可行的。Shen等14构建了HuggingGPT框架,利用大语言模型的框架连接机器学习社区中的模型来解决AI任务,使其能够解决不同模态和领域的众多复杂AI任务,在语言、视觉、语音等具有挑战性的任务中取得优秀的结果。
提示工程15是插件调用中非常重要的一环,其采用不更新模型的权重/参数来引导大语言模型生成特定结果的方法,引导大语言模型生成更加符合用户需求和预期的回答。优秀的提示语言能够充分调用大语言模型在训练过程中所获取和包含的知识,生成更加符合用户期望的理想回答。在大语言模型研发初期,广受诟病的推理能力较弱、算数及代码问题出错及工具调用失败等问题,随着以思维链16为代表的提示工程研究成果的出现,逐步得以解决。思维链原则上能够使模型将一个复杂、多步的问题分解为各种中间步骤,使那些具有更多推理步骤的问题有机会分配到更多的计算资源。Sun等17提出的ReAct提示方式是一种用于大语言模型中进行协同推理和行动的方法,其对多跳问答、事实检查和交互式决策任务进行各种实验,通过可解释的决策轨迹取得了卓越的性能。
但现有模型框架在通过自然语言生成插件调用时存在生成幻觉问题,无法生成准确的工具,同时,现有模型在进行复杂任务规划时,通常以角色交错的方式对问题进行思考,无法一次完整生成任务规划的工具调用,存在错调工具和生成工具格式错误的幻觉问题。为此,本文提出一种基于思维链的提示方式即思维代码(Reasoning to Annotation and Coding, ReACo),通过将代码和注释结合,使大语言模型能够通过调用工具查询或修改真实数据,并通过分析和任务规划给出准确的回答。本文设计的ReACo提示方法可使模型通过代码准确生成调用工具函数名称及参数,通过注释进行任务编排规划,以此增强大语言模型调用多工具进行复杂任务规划的能力。通过调用不同类型的工具函数与现实世界数据进行交互,为模型提供额外的真实世界信息,增强其任务规划能力。

1 一种编程语言提示方式ReACo

在大语言模型调用多工具解决复杂问题的过程中,生成的内容主要包含两个部分:一部分是由自然语言描述对任务的分析、步骤操作描述和对行为的解释说明等,另一部分是由函数名称和参数组成的准确调用工具信息。在进行多工具调用的生成任务时,仅依靠单一部分无法生成准确的调用工具和问题回答。为了充分利用大语言模型预训练数据中不同类型的知识,增强大语言模型在任务规划和工具调用上的思维一致性,本文提出一种编程语言形式的思维链提示方式ReACo。
ReACo将自然语言对任务的描述作为编程语言的注释部分,将调用工具部分设计成代码片段,有效地将自然语言描述任务规划和代码语言表示的工具调用结合在一起,并参考程序员编程时的思维生成两部分内容,使得模型能够以一贯的思维对复杂问题进行思考,完整地生成分步骤多工具调用任务规划,体现出在完成复杂任务时的思维一致性。

1.1 工具调用设置

在需要生成调用工具时,模拟代码执行逻辑,设计将函数名作为需要调用工具的工具名称,将函数传参作为调用工具所需传入的参数内容,通过相应参数的变量名与之一一对应。
在生成时,为了保证调用工具的可识别性,在模型生成调用工具时设置调用工具起始符,并参考HTML形式将调用工具起始符设置为“<API>”。在调用的工具生成结束时设置工具执行符“->”,并在调用的工具执行后将执行反馈结果拼接在工具执行符后作为历史信息,以便作为下一次任务规划参考。同样参考HTML形式将调用工具结束符设置为“</API>”,生成式如下。
<API>Function(Param1=x, Param2=y, …) ->
Execution Result </API>
程序将工具执行结果返回并接入Prompt的历史规划中,模型从工具结束符“</API>”判断工具执行结束,不会产生冗余工具调用输出,避免模型产生幻觉生成不符合事实的信息。

1.2 ReACo提示方法结构

与传统采用单一语言的提示方式不同,以ReACo提示方式生成的提示词采用自然语言和代码语言相结合的形式对生成内容进行引导,并通过任务说明加生成样例解释的描述形式限制内容的生成。
ReACo提示词由总体分析、分步规划、总结回答3部分构成。以Python代码形式为例,撰写ReACo提示词时,第一部分总体分析首先由模型分析问题,理解用户含义并提取所想达成目标,在ReACo提示词中以注释形式表示,在代码中类比对整份代码进行解释。第二部分分步规划中每一步骤同样采用单步规划分析、调用工具及总结单步结果3个部分。为了区分规划的每个步骤,每一次单步规划中均以步骤起始符“# StepX:”开始,其中“X”为数字,表示第几步,加以对单步任务目标的自然语言描述。在需要调用工具时采用代码语言的形式,配合调用工具符号表述该工具调用的具体名称参数和使用逻辑,其中可引入变量等元素。在单步任务规划结束时,以总结符“# Summary:”加自然语言对单步调用工具进行总结描述,并在单步总结后配合步骤结束符“# StepX: end”结尾,表示单步调用结束,同样以“X”为数字表示第几步,将当前步骤和后续规划进行区分。在模型已通过多步调用工具获取到足够信息,需要对问题进行总结回答时,提示以最后步骤符“# Last step:”起始,对问题进行总结反馈,并以最终步骤结束符“# Last step: end”结束,对用户进行回答,表示完成整体任务规划。
图1所示,通过模型生成撰写了一个以Python代码格式生成的ReACo提示方式样例。首先通过自然语言的形式描述单步任务需要完成的目标和计划详情,并将自然语言部分仿照编程语言的形式作为注释,使模型能够理解自然语言部分是对任务的解释说明且不影响工具调用的执行结果。在注释后采用代码片段的形式来表示工具名称及执行方式,以便模型以更为严谨的代码逻辑进行生成。在可调用工具代码执行后,将解析结果拼接在函数后,作为调用工具返回结果。通过注释和代码两部分交替生成作为一份完整的可执行编程语言,更利于模型理解任务规划和工具调用两部分内容的区别和作用,并以清晰的逻辑进行模仿生成。ReACo在每个分步规划之后都会对结果进行总结,作为单步任务完成的评价,以便模型进行下一步的规划,并在整体任务完成后将所有之前内容进行归纳总结,最终得出问题答案来对用户反馈。
Fig. 1 ReACo prompt composition

图 1 ReACo提示词组成

Full size|PPT slide

ReACo 提示词通过自然语言和代码语言相结合的形式,使模型在进行多工具调用任务时的生成具有连贯性,并通过交替生成不同内容同时对工具调用进行解释说明和总结描述。设计ReACo 提示词时可选择不同编程语言的表示形式,内容可根据任务所需改变,扩展性强。

2 ReACoGPT多工具调用框架

RestGPT18将大语言模型和REresentation State Transfer (REST)风格的API结合起来,应用到现实世界的真实需求当中,整合并构建了真实场景下工具调用的数据集RestBench。RestGPT通过构建一个从粗到精逐步进行工具调用的框架,利用多角色协同配合使用多插件工具完成任务规划,并在RestBench数据集上验证了大语言模型的复杂问题规划及使用多工具解决问题的能力,是多工具调用领域的领先方法。
RestGPT设计使模型分饰不同角色进行讨论,分模块使大语言模型生成由粗到精的任务规划,但在角色相互交流时难免会产生信息丢失。考虑到任务规划和工具调用的思维一致性,ReACoGPT在此基础上进行改进,设计由单一模块进行任务规划及工具调用,提升对问题考虑的全面性。为了符合ReACoGPT中任务规划模块整体规划的模式,将RestGPT中单一工具选择的API Selector改为批量选择的工具选择模块,同时减少工具执行模块中生成参数对工具调用的影响,仅保留工具执行和解析的功能,由任务规划模块在规划时生成工具函数名和参数,发挥ReACo提示方式的效果。

2.1 ReACoGPT框架设计

为了保证大语言模型在生成任务规划和工具调用时的思维一致性,将ReACo提示方式嵌入在RestGPT架构的Planner模块中,由任务规划模块同时负责任务规划和工具调用。
图2所示,ReACoGPT框架主要由工具召回模块、任务规划模块和工具执行模块3大模块组成。在用户提问后,由工具召回模块负责相关工具筛选,任务规划模块负责任务规划及工具调用,工具执行模块负责工具调用的执行。ReACoGPT在接收到用户的需求后对问题进行拆解,将任务目标细化至工具颗粒级,通过多步任务规划分步骤调用工具来解决问题。ReACoGPT通过对历史任务规划和工具调用返回的结果分析进行下一步任务规划,并调用工具完成单步任务,一步步不断向问题目标接近,直至完成整体任务。当ReACoGPT接收到用户指令时,首先对用户需求进行分析,通过工具召回模块从系统中筛选与指令相关的若干工具,简化工具候选列表以便模型进行选择;第二步,将ReACo任务规划样例、召回工具的说明文档和历史规划调用3个部分进行拼接,任务规划模块通过分析历史规划和步骤结果,思考生成下一步任务规划和具体的工具调用;第三步,从任务规划模块生成的任务规划中抽取出工具调用信息,由工具执行模块解析工具调用并执行,将结果返回至任务规划模块作为后续规划的信息。当对工具的单次调用无法完成所需任务目标时,任务规划模块自行选择重复第二步和第三步直至系统认为该任务目标已完成。任务规划模块最后总结信息对用户进行反馈。
Fig. 2 ReACoGPT architecture

图2 ReACoGPT框架

Full size|PPT slide

2.2 组成模块设计

2.2.1 工具召回模块

由于受到大模型输入长度限制,在进行多工具调用任务时,无法一次性将所有工具的描述文档输入模型,让语言模型进行选择。当用户问题给定后,框架能够通过召回方式过滤出绝大多数与本次任务无关的工具,故在框架中加入召回器,对本次问题相关的工具进行一次筛选召回,以便在进行任务规划时不因冗杂的无关数据影响模型的规划。
与RestGPT不同的是,ReACoGPT的任务规划模块需要获取到本次任务所有可能需要的工具,并进行整体任务规划,而RestGPT中API Selector每次只选择一个工具,无法满足需求。ReACoGPT中设计工具召回模块对工具进行批量召回,一次选择若干需要的工具,后续不再进行补充。
将所有已加入工具库中的工具称为工具集合ST,并在加入时对工具作用及参数进行描述,以便模型能够通过阅读工具文档来使用。并对每一个工具T设计一份简易描述文档,精简对工具内容及作用的描述,使其便于通过描述挑选与问题高度相关的、可能会使用的工具。在用户提出问题后,将召回任务提示加上需要召回的工具集合简单描述并输入大语言模型,大语言模型根据工具问题相关度r召回工具集合SR,减少可选工具数量,使模型更专注于多工具调用的任务规划。
API Retriever: SR =argmaxTSTr
式中,r表示工具函数与问题相关度,SR 表示从整体工具集合中召回的与问题相关度达阈值的工具。

2.2.2 工具执行模块

ReACoGPT设计工具执行模块对生成的函数调用执行,并通过编码解析内容返回所需的结果。在任务规划模块需要调用工具函数时,由工具执行模块抽取并执行函数,并将获取到的函数精简返回。
在识别到需要进行工具调用时,通过工具执行模块抽取出函数名及相应参数,与工具召回中的函数比对,获取工具说明文档。通过工具说明文档对参数按类型进行解析,并通过相应函数调用途径调用工具,获取工具执行结果。由于函数在调用时返回的结果可能含有冗余信息,任务规划模块在借助工具获取信息时只需要使模型接收所需内容信息即可。在工具执行模块获取到工具调用返回内容后,设计使大语言模型根据问题和单步任务规划对结果生成Python代码进行信息抽取,并执行Python代码以获得最终结果。通过工具执行反馈模块对信息长度的缩短减少不必要的冗余信息,再反馈精简后的所需信息。

2.2.3 任务规划模块

任务规划模块的提示词设计方式如图3所示,整体包含4个部分,即任务描述及规则限制、ReACo 样例、召回工具描述和历史任务规划。任务规划模块通过不断续写任务规划,并将生成内容拼接在历史任务规划中一步步完成对问题的回答。提示词设计通过描述加样例的方式让模型学习ReACo提示方式,模仿生成下一步规划。
Fig. 3 The components of the Planner prompt

图3 任务规划模块提示词各部分组成

Full size|PPT slide

任务规划模块作为ReACoGPT框架的大脑,通过使大语言模型阅读历史规划和调用工具的反馈结果思考下一步任务规划,并以自然语言的形式进行输出,清晰地表达出完成单步任务所需的操作描述,之后通过工具执行模块调用工具获取准确信息。
将任务规划和工具调用分别看作大脑的思维和行为两部分,对已有行为的观察生成推理思考的任务规划,再根据规划生成行动的准确工具调用,并将这两部分作为编程语言的注释和代码两个部分,保持了模型在进行任务逻辑规划时的连续性,并能够使模型在任务规划的思考和工具调用的行为之间保持思维一致性。
将ReACo的样例嵌入任务规划模块的提示词中,并加入问题和召回的工具集合,使模型根据ReACo形式思考,模型仿照编程语言的形式生成通过自然语言表达的详细描述注释,在注释后生成以代码片段表示的工具调用名称及参数,两部分结合作为ReACo任务规划中完整的一步思考过程。程序捕获到工具执行符后,由工具执行模块执行工具并返回解析结果,再将返回的结果拼接在代码片中函数调用之后。注释和代码两部分交替生成一次作为ReACo规划完整的一步,任务规划模块通过循环生成注释和代码片段完成连续思考的多工具调用,最终ReACo通过思考问题并调用工具多步骤完成复杂任务。因编程语言和任务样例的可替代性强,使得ReACoGPT框架相较于RestGPT框架能够适用于更多领域。

3 实验与结果分析

3.1 实验设置

3.1.1 实验数据集

RestBench是由北京大学Song等18提出的一个用于评估多个工具处理真实用户指令探索能力的高质量测试集,旨在通过大语言模型控制真实应用(如音乐播放器和电影数据库)并完成用户的复杂指令。RestBench测试集包含两个场景:大语言模型访问TMDB电影数据库和大语言模型控制Spotify音乐播放器。数据集中包含真实用户指令和对应的标准API调用路径。在TMDB场景下,覆盖了54个API的100条指令;在Spotify场景下,覆盖了40个API的57条指令。RestBench使用人工检查的成功率、API调用路径正确率和调用路径长度来评估模型的性能和执行效率。

3.1.2 评价标准

考虑到RestBench数据集中问题的时效性,无法通过问题固定的答案来评价对于问题回答的正确性。如果求解问题调用工具路径与参考路径一致,则认为模型已经生成出正确路径率(Correct Path),能够通过调用正确的工具求解问题。并对于模型生成问题的解答作进一步更精确的评估,将利用人工评估的方式判断模型生成是否满足用户需求作为答案的正确率(Success)指标。在模型生成冗余工具调用方面采用评价指标解决长度(∆Solution Len.)。本文将数据集中给出的正确路径作为黄金路径,而模型生成的工具调用路径作为真实调用路径,用真实调用路径长度减去黄金路径长度则可以得出模型生成的冗余调用工具次数,并计算成功完成指令的平均长度。解决长度计算公式如下。
Solution Len. = 1Nsi=0NLreali-Lgoldii,success
式中,N s 为成功完成的指令数,Li realLi gold 分别为第 i 条指令的 API 实际调用次数和黄金次数,real为真实生成的路径,gold是能通过调用API接口解答问题的目标路径,i,success) 表示第 i 条指令是否成功完成。

3.1.3 实验参数

实验通过设计ReACoGPT框架,使得大语言模型使用本文提出的自然语言加代码片段的提示方式ReACo,生成含工具调用的任务规划。在实验过程中采用OpenAI的GPT-4模型作为基准模型,来验证ReACo提示方式的有效性,并设置解码温度为0确保答案生成的正确性。

3.2 实验结果

本文设计ReACoGPT框架,利用ReACo提示方式引导模型生成调用多工具解决复杂任务,在RestBench数据集上进行实验。设置的对比方法包括离线由模型自主生成的Offline方式、ReAct多次生成回馈方式以及Reflexion反思生成方式,并与RestGPT框架进行对比,检验框架效果。
表1结果表明,相较于其他的思维链提示方式,在相同数据集上,ReACoGPT有效提升了对函数调用的正确率,同时在最终答案生成的准确性上也有一定程度的提升。Spotify场景下ReACoGPT生成答案的解决路径长度大于RestGPT,主要是由于Restfull API返回结果的内容复杂造成对需求信息抽取得不够准确,导致模型多次调用相同工具寻求答案,生成冗余调用。ReACo设计全新的思维链提示方式,通过生成结合自然语言和代码片段两种不同内容的方式,使模型能够同时考虑到对任务规划的分析和对工具函数的调用。实验结果也验证了ReACoGPT框架在多工具调用的复杂任务场景下的有效性。
Table 1 Experimental result

表 1 实验结果

方法 TMDB Spotify
Success/% Correct Path/% Solution Len. Success/% Correct Path/% Solution Len.
Offline 29 33 +1.52 14.5 36.4 +1.10
ReAct 44 57 +0.76 54.5 49.1 +0.31
Reflexion 52 59 +1.37 59.6 61.4 +1.68
RestGPT 75 79 +0.55 72.7 74.5 +0.25
ReACoGPT 81 86 +0.52 73.6 78.9 +0.40
加粗表示该项数值为列表中效果最佳。

3.3 消融实验

为了验证ReACoGPT框架的有效性,设计将3部分分别去除来验证每一部分的效果。在去除工具召回模块实验中,将所有工具内容简化描述以便输入模型。在去除任务规划模块实验中主要验证ReACo思维链的有效性,实验参考RestGPT中的Planner撰写了一份简单的提示方式,替换ReACo提示方法进行提示以便模型能够理解任务。在去除工具执行模块实验中,模型未能调用工具,得出答案仅依靠模型对答案的描述进行任务规划。
通过表2可以看出,ReACoGPT的3部分消融实验效果均远低于ReACoGPT在实验中的效果,充分验证了ReACoGPT框架各部分的有效性。在去除工具执行模块后,模型调用工具只给出正确路径并未返回工具调用结果,但在Spotify数据集上解决路径长度较短,这是因为有些大众问题虽然调用工具,但依然是通过模型自有知识进行回答,所以部分工具只给出示范无重复调用,使得路径长度较短。
Table 2 Ablation results

表 2 消融实验结果

方法 TMDB Spotify
Success/% Correct Path/% Solution Len. Success/% Correct Path/% Solution Len.
RestGPT 75 79 +0.55 72.7 74.5 +0.25
ReACoGPT 81 86 +0.52 73.6 78.9 +0.40
ReACoGPT去除工具召回模块 28 20 +2.47 12.2 15.7 +2.06
ReACoGPT去除任务规划模块 42 50 +0.85 31.6 36.8 +1.21
ReACoGPT去除工具执行模块 14 82 +0.45 12.2 14.0 +0.34
加粗表示该项数值为列表中效果最佳。

3.4 错误分析

在ReACoGPT中共包含3个模块,本文对实验中发生的错误进行分析,总结模型可以改进的部分。对3部分模块生成内容进一步分析,根据发生错误的模块对错误进行分类,可以分为工具召回模块的工具选择错误,任务规划模块生成规划时产生的工具生成错误和工具传参错误,以及工具执行模块在执行工具时对工具执行结果进行整理精简所产生的结果解析错误。不同类型的错误分布如图4所示。
Fig. 4 Distribution of different types of errors

图 4 不同类型错误分布

Full size|PPT slide

图4中可以看出ReACoGPT对模型生成幻觉的问题已经改善,在工具生成和工具传参方面发生的错误问题较少。与普通软件中设计专用工具函数不同的是,RestBench数据集采用网络开源API工具获取数据,工具调用所返回内容十分冗余,未对所需信息进行精确地反馈。ReACoGPT在执行函数时需要工具执行模块对返回结果进行精简,抽取出与任务相关的数据,但相较于RestBench中Call模块对任务进一步分析后所抽取的函数返回信息,ReACoGPT抽取效果表现较差。该问题可以通过精确返回内容解决,例如增加专用工具数量,将不同功能的工具加以区分。但增加工具数量又会提高工具选择时的困难程度,需要对工具功能更精确地描述,增加了开发人员的时间成本。

4 结束语

本文提出一种新的提示工程范式ReACo,利用编程语言的形式,将自然语言描述任务规划的注释部分和调用工具的编程代码相结合,提示大语言模型生成富有逻辑的任务规划和准确的工具调用函数,增强其思维一致性,减少大语言模型在生成多工具调用时的幻觉。将自然语言与代码语言有效结合,使大语言模型能够充分地利用两种不同的预训练数据进行多步工具调用的复杂任务推理。通过设计ReACoGPT框架,将文本生成和工具调用结合起来,实现了通过工具调用增强大语言模型能力的目的。在RestBench数据集上的测试结果表明,ReACo在多步工具调用任务推理过程中具有极佳的任务规划逻辑性,并提高了函数调用的准确性和回答问题的正确率。未来将针对更复杂的任务进行研究,以期激发ReACo在学术和工业领域的应用潜力。

References

1
SANDERSON K. GPT-4 is here: what scientists think [J]. Nature2023615(7954): 773.
2
TOUVRON H LAVRIL T IZACARD G, et al. LLaMA: open and efficient foundation language models [EB/OL]. (2023-02-27)[2023-11-09]. arXiv.2302.13971.
3
KULKARNI A SHIVANANDA A KULKARNI A, et al. Google bard and beyond [M]//Applied generative AI for beginners: practical knowledge on diffusion models, ChatGPT, and other LLMs. Berkeley: Apress Berkeley, CA, 2023: 79-99.
4
ZHAO W X ZHOU K LI J Y, et al. A survey of large language models [EB/OL]. (2023-11-24)[2024-03-17]. arXiv:2303.18223.
5
WANG L MA C FENG X Y, et al. A survey on large language model based autonomous agents [EB/OL]. (2023-09-07)[2023-11-09]. arXiv:2308.11432.
6
江志英, 李宇洋, 李佳桐, 等. 基于层次分析的长短记忆网络(AHP-LSTM)的食品安全网络舆情预警模型[J]. 北京化工大学学报(自然科学版)202148(6): 98-107.
JIANG Z Y LI Y Y LI J T, et al. An early⁃warning model based on an analytic hierarchy process⁃long short⁃term memory network (AHP⁃LSTM) for food safety network public opinion[J]. Journal of Beijing University of Chemical Technology(Natural Science)202148(6): 98-107.(in Chinese)
7
DEVLIN J CHANG M W LEE K, et al. BERT: pre⁃training of deep bidirectional transformers for language understanding [EB/OL]. (2018-11-13)[2023-11-09]. arXiv:1810.04805.
8
RAIAAN M A K MUKTA M S H FATEMA K, et al. A review on large language models: architectures, applications, taxonomies, open issues and challenges [J]. IEEE Access202412: 26839-26874.
9
QIN Y J LIANG S H YE Y N, et al. ToolLLM: facilitating large language models to master 16000+ real⁃world APIs [EB/OL]. (2023-10-03)[2023-11-09]. arXiv: 2307.16789.
10
QIN Y J HU S D LIN Y K, et al. Tool learning with foundation models [EB/OL]. (2023-06-15)[2023-11-09]. arXiv: 2304.08354.
11
SCHICK T DWIVEDI-YU J DESSÌ R, et al. Toolformer: language models can teach themselves to use tools [EB/OL]. (2023-02-09)[2023-11-09]. arXiv:2302.04761.
12
LU P PENG B L CHENG H, et al. Chameleon: plug⁃and‑play compositional reasoning with large language models [EB/OL]. (2023-10-31)[2023-11-09]. arXiv:2304.09842.
13
TANG Q Y DENG Z L LIN H Y, et al. ToolAlpaca: generalized tool learning for language models with 3000 simulated cases [EB/OL]. (2023-09-07)[2023-11-09]. arXiv:2306.05301.
14
SHEN Y L SONG K T TAN X, et al. HuggingGPT: solving AI tasks with ChatGPT and its friends in hugging face [EB/OL]. (2023-12-03)[2024-03-17]. arXiv:2303.17580.
15
GIRAY L. Prompt engineering with ChatGPT: a guide for academic writers [J]. Annals of Biomedical Engineering202351(12): 2629-2633.
16
WEI J WANG X Z SCHUURMANS D, et al. Chain⁃of⁃thought prompting elicits reasoning in large language models [EB/OL]. (2023-06-10)[2023-11-09]. arXiv:2201.11903.
17
SUN Y Y GUO C LI Y X. ReAct: out⁃of⁃distribution detection with rectified activations [EB/OL]. (2021-11-24)[2023-11-09]. arXiv:2111.12797.
18
SONG Y F XIONG W M ZHU D W, et al. RestGPT: connecting large language models with real⁃world RESTful APIs [EB/OL]. (2023-06-10)[2023-11-09]. arXiv:2306.06624.
PDF(1308 KB)

968

Accesses

0

Citation

Detail

Sections
Recommended

/