揭秘AI工具链与代理：从LangChain到Semantic Kernel的全景解析

文本是《dify从入门到精通（共8篇）》专题的第 7 篇。阅读本文前，建议先阅读前面的文章：

关键点

工具是AI与现实世界的桥梁：在LangChain、LlamaIndex和Semantic Kernel等主流AI框架中，“工具”扮演着至关重要的角色，它使大型语言模型（LLM）能够超越其训练数据，与外部世界互动，执行特定动作并获取实时信息。
主流框架各有千秋：LangChain提供@tool装饰器和Tool类，LlamaIndex侧重FunctionTool和QueryEngineTool，而Semantic Kernel则通过“插件”和@kernel_function实现工具功能，三者都致力于简化工具定义和使用。
自定义工具开发的黄金法则：无论选择哪个框架，清晰的工具定义、单一职责原则、健壮的错误处理和良好的可观测性是构建高效、可靠自定义工具的核心。
工具链实现有序协作：工具链通过预设的顺序将多个工具连接起来，适用于步骤固定、可预测的任务流，确保了执行的可控性和效率。
代理赋予AI智慧决策：代理（Agent）则更进一步，让LLM充当“大脑”，动态地规划、选择并执行工具，实现多步骤推理和应对复杂、不确定任务的能力，是构建自主AI应用的关键。
真实世界应用触手可及：从天气查询、网页抓取到金融数据分析和智能家居控制，丰富的集成案例展示了如何将第三方API无缝接入AI框架，极大地扩展了LLM的应用边界。

概述

想象一下，一个拥有百科全书般知识的“超级大脑”——大型语言模型（LLM），它能言善辩，思绪万千。但如果没有“手”和“脚”，它就无法触及真实世界，无法查询最新数据，也无法执行具体操作。这就是“工具”在AI世界中扮演的魔术师角色！在当今蓬勃发展的AI框架中，如LangChain、LlamaIndex和Semantic Kernel，“工具”成为了连接LLM与外部世界的关键枢纽。它们让LLM不再是信息的“消费者”，而是能够主动获取、处理乃至创造的“行动者”，从而解锁了AI在现实世界中更广阔的应用潜力。

本文将带领你深入探索这些AI框架中“工具”的奥秘，从基本概念到如何亲手打造自定义工具，再到将多个工具编织成强大的“工具链”或赋予LLM自主决策能力的“代理”。我们还将通过一系列激动人心的真实案例，揭示如何将天气预报、金融数据、甚至智能家居控制等功能融入你的AI应用，让你的AI真正“活”起来！准备好了吗？让我们一起踏上这场充满发现的旅程吧！

详细分析

很遗憾，在本次研究过程中，没有提供可用于报告的图片。因此，本报告无法包含图片来丰富内容。

AI框架中的“工具”概念与工作原理

在AI的奇妙世界里，“工具”就像LLM的超能力装备！它们不是传统意义上的锤子或扳手，而是封装了特定功能的函数、API接口或其他可执行代码，让LLM能够突破自身训练数据的限制，去完成各种“不可能的任务”。

它的工作原理就像一个精心设计的舞步：

意图识别：LLM首先会“听懂”你的请求，判断它需要什么帮助。
工具选择：如果需要外部协助，LLM会像一个老练的指挥家，从它知道的所有“工具”（比如网页搜索、计算器、数据库查询）中，挑选出最合适的一个。
参数提取：接着，它会从你的请求中精准地“抓取”出执行工具所需的关键信息，比如要搜索的城市名称、要计算的数字。
工具执行：AI框架接过这些信息，替LLM去“操作”选定的工具。
结果返回：工具完成任务后，会将结果“汇报”给LLM。
整合与响应：LLM将这些新获得的信息与它已有的知识融合，最终给你一个完整、满意的答复。

主流AI框架内置工具的详细用法

主流AI框架都贴心地内置了许多常用工具，就像给LLM准备了一套“开箱即用”的工具箱。

LangChain：多才多艺的工具集合
LangChain将工具视为可执行特定操作的函数。它内置了：

llm-math: 解决你的数学难题。
Web Search: 让你轻松上网冲浪，获取最新资讯。
Wikipedia: 随时查阅维基百科的知识库。
文件系统工具: 比如ReadFileTool和WriteFileTool，让LLM能读写本地文件。
数据库工具: 让LLM能与SQL数据库进行交互。
使用LangChain的内置工具，通常只需导入、封装成Tool对象，然后交给代理即可。

LlamaIndex：以数据为中心的工具库
LlamaIndex的工具与它的数据查询核心紧密结合，主要服务于LLM与各种数据源的交互：

QueryEngineTool: 能将任何查询引擎封装成工具，让LLM能像专家一样对特定数据源提问。
FunctionTool: 灵活地将任意Python函数转化为工具。
PydanticTool: 基于Pydantic模型定义工具参数，提供强大的类型安全和结构化能力，让数据传输更规范。
Web Search Tools: 与DuckDuckGo或Google Search等搜索引擎无缝对接。
SQL Tools: 用于与SQL数据库互动。

Semantic Kernel：技能与插件的哲学
Semantic Kernel则通过“技能”（Skills）和“插件”（Plugins）来构建工具。一个插件可以包含一个或多个“函数”，每个函数就是一个工具：

WebSearchSkill: 赋予LLM网页搜索能力。
FileIOSkill: 处理文件操作。
MathSkill: 提供数学计算功能。
TimeSkill: 获取当前时间等信息。
这些工具通常通过C#或Python代码实现，并用@kernel_function等属性标记，以便Semantic Kernel能识别和调用。

将任意第三方API封装为AI模型可调用的工具

将第三方API封装成工具，就像给LLM插上了无限的翅膀，让它能够调用任何在线服务！这需要为API创建一个“转接头”，使其符合AI框架对工具的期望。

通用封装步骤，简单四步走！

选择API：明确你要封装的第三方API及其核心功能、接口地址、请求方式和参数。
定义工具签名：这是最关键的一步，你需要为LLM写一份“说明书”：
- 工具名称：一个简洁而有描述性的名字。
- 工具描述：详细说明工具能做什么，以及何时应该使用它，这直接影响LLM的“理解力”。
- 输入参数：定义API需要哪些输入，包括参数名、类型、描述，以及是否必需。通常会用JSON Schema或Pydantic模型来规范。
- 返回值：告诉LLM这个工具会返回什么样的数据。
实现工具执行逻辑：编写代码来实际调用第三方API。这通常包括构建HTTP请求、处理API认证、发送请求并解析响应，并将原始API数据转换成LLM容易理解的格式。
集成到AI框架：将实现好的逻辑，按照不同框架的要求注册成工具。

框架特定的集成姿势：

LangChain: 你可以用Tool类封装一个Python函数，比如上面提到的天气查询示例。更高级的，甚至可以直接从OpenAPI规范创建工具。

# 假设你的 get_current_weather 函数已经实现
from langchain.tools import Tool

weather_tool = Tool(
    name="get_current_weather",
    func=get_current_weather,
    description="查询指定城市当前的天气情况。输入应该是城市名称。"
)
# 接着，将 weather_tool 加入到你的代理工具列表中

LlamaIndex: 可以用FunctionTool封装Python函数，或者用PydanticTool提供更严格的参数定义。LlamaIndex也支持直接通过OpenAPITool或APISpecTool从OpenAPI规范创建工具。

# 假设你的 get_current_weather 函数已经实现
from llama_index.core.tools import FunctionTool

weather_tool = FunctionTool.from_defaults(
    fn=get_current_weather,
    description="查询指定城市当前的天气情况。输入应该是城市名称。"
)
# 将 weather_tool 传递给 LlamaIndex 代理

Semantic Kernel: 通常通过创建自定义“插件”来实现。一个插件是一个包含多个方法的类，每个方法都用@kernel_function装饰器标记，内部实现API调用逻辑。

# Python 示例
from semantic_kernel.functions import kernel_function
import requests # 假设 get_current_weather 内部使用 requests

class WeatherPlugin:
    @kernel_function(
        name="get_current_weather",
        description="查询指定城市当前的天气情况。",
        parameters=[
            {"name": "city", "description": "要查询天气的城市名称。", "type": "string", "is_required": True}
        ]
    )
    def get_current_weather(self, city: str) -> str:
        # 实际调用 API 的逻辑
        # ...
        return f"{city} 的天气数据..."

# 将插件添加到 Kernel
# kernel.add_plugin(WeatherPlugin(), plugin_name="WeatherPlugin")

自定义工具开发最佳实践和设计模式

打造自定义工具，就像雕琢一件精美的艺术品，需要遵循一些“黄金法则”才能使其强大、可靠且易于使用。

清晰的工具定义：想象一下，你给LLM一个模糊的指令，它能做好吗？所以，工具的名称要见名知意，描述要详细具体，输入参数也要定义得一清二楚，最好能用JSON Schema或Pydantic模型进行结构化，确保数据格式的严谨性。
单一职责原则：一个工具只做一件事，并把它做好。就像一把瑞士军刀，每个小工具都有清晰的功能，而不是一个什么都能做但什么都做不好的“大杂烩”。这让工具更容易理解、测试和复用。
模块化和可重用性：将工具实现为独立的模块或类，这样你就能在不同的项目或不同的代理中重复使用它们，避免重复造轮子。
错误处理和鲁棒性：现实世界充满了不确定性。工具必须能优雅地处理错误，比如网络中断、API调用失败或无效输入。当出现问题时，它应该返回有意义的错误信息给LLM，而不是让整个系统崩溃。
详细的日志和可观测性：在工具执行过程中记录详细的日志，就像为你的AI应用安装了一个“黑匣子”，便于你追踪、调试和优化。LangChain的LangSmith就是这方面的好帮手。
异步支持：如果你的工具需要执行耗时操作（比如调用远程API），考虑提供异步接口，避免阻塞主线程，让你的AI应用运行得更流畅。

多个工具的组合：工具链与代理

当AI需要完成更复杂的任务时，仅仅使用单个工具是远远不够的。就像一支交响乐团，每个乐手（工具）都擅长演奏自己的乐器，但只有通过指挥家（LLM或预设流程）的协调，才能奏出动人的乐章。在AI框架中，组合多个工具主要有两种模式：“工具链”和“代理”。

工具链 (Tool Chaining)

概念：工具链就像一条装配线，工具们按照预先设定好的固定顺序一个接一个地工作。一个工具的输出，往往会作为下一个工具的输入。这种模式非常适合那些步骤明确、顺序固定的任务。

工作原理：开发者就像工程师，精确设计好每一步的流程。LLM可能会在链的某个环节发挥作用，比如生成中间文本或处理输出，但整个流程的“骨架”是刚性的。

例如：LangChain的Chain概念就是典型的工具链。你可以用SimpleSequentialChain将一个函数的输出直接传递给下一个函数。LangChain Expression Language (LCEL) 更是让构建这样的链条变得像搭乐高一样简单，还支持并行、回退等高级功能。

优点：

可预测性：执行流程一目了然，调试和预测结果都非常方便。
简单性：对于流程固定的任务，设置起来相对简单。
效率高：当不需要LLM进行复杂决策时，可以减少不必要的LLM调用，运行速度更快。

缺点：

缺乏灵活性：无法应对动态变化的用户输入或突发状况。
不适合复杂决策：如果任务需要LLM进行多步推理、动态调整计划，工具链就显得力不从心。

代理 (Agents)

概念：代理才是AI真正的“大脑”！LLM不再是简单的执行者，而是像一个聪明的侦探，能够自主思考、规划，并动态地选择和使用工具，甚至可以根据工具的反馈调整后续行动。

工作原理：代理通常遵循“思考-行动-观察”（Thought-Action-Observation）的循环。LLM首先分析你的请求和当前环境（思考），然后决定采取哪个工具并带上什么参数（行动），接着执行工具并观察结果。根据观察到的结果，它会再次思考，决定是继续行动（进行下一步的工具调用）还是生成最终的回复。

例如：LangChain的Agent模块是动态决策的典范。LangGraph则更进一步，用图结构来定义和管理复杂的代理工作流，支持循环和条件判断，让代理的能力边界不断扩展。LlamaIndex的Workflows和Semantic Kernel的Agent Framework也提供了类似的高级代理构建能力。

优点：

灵活性和适应性：能处理复杂、非结构化的任务，并根据实时情况灵活调整策略。
自主性强：LLM可以独立进行多步推理和工具选择，减少人工干预。
处理不确定性：擅长处理需要探索性搜索或多次尝试才能解决的问题。

缺点：

复杂性高：设计和实现代理通常比工具链更复杂，需要更精细的控制和调试。
可预测性低：由于动态决策，代理的行为有时会出乎意料，调试起来也更具挑战性。
成本较高：可能会涉及更多的LLM调用，因此计算成本相对更高。

工具链与代理的比较

特征	工具链 (Tool Chaining)	代理 (Agents)
控制流	预定义、固定的顺序	LLM动态决策，根据任务和工具反馈调整
复杂性	相对简单	相对复杂
灵活性	较低，适用于已知工作流	较高，适用于未知或动态的工作流
决策能力	有限，主要执行既定步骤	强大，LLM作为推理引擎进行多步决策
使用场景	数据提取、特定API调用序列、固定流程的自动化	复杂问题解决、信息检索、多轮对话、需要规划和适应的任务
调试	较容易	较困难，行为可能不可预测
资源消耗	较低（LLM调用次数通常较少）	较高（可能涉及更多LLM调用）

何时使用？

如果你的任务步骤清晰、固定，像烹饪一道有明确菜谱的菜，那么选择工具链就对了。
如果你的任务需要LLM像侦探一样，在复杂多变的环境中探索、规划并根据线索（工具反馈）调整策略，那么代理才是你的不二之选。
当然，最常见且强大的做法是两者结合：让代理拥有调用工具链的能力，或者将一个复杂的代理分解成由工具链连接的多个子代理，从而实现既灵活又高效的解决方案。

具体的集成案例：让AI触达真实世界

理论知识再丰富，不如实际动手体验来得真切！以下我们将通过一些激动人心的真实案例，展示如何将第三方服务集成到主流AI框架中，让AI真正“接地气”。

LangChain: 掌控天气，洞察网页

LangChain以其高度的灵活性，让集成外部服务变得轻而易举。

案例1：天气API集成——OpenWeatherMap API
- 魔法揭秘：想象一下，你的AI助手能告诉你北京今天的天气！LangChain内置了OpenWeatherMapAPIWrapper，你只需获取OpenWeather API密钥，简单几行代码配置，就能让LLM拥有“天气预报员”的能力。
- 核心步骤：获取API密钥 -> 初始化OpenWeatherMapAPIWrapper -> 封装成LangChain Tool -> 传递给Agent。
- 实用价值：无论是出行规划、智能家居联动，还是商业决策，AI都能提供实时的天气洞察。
案例2：通用Web抓取工具——“网页捕手”
- 魔法揭秘：想让AI阅读网页内容并总结？没问题！我们可以自定义一个Python函数，利用requests库获取网页，再用BeautifulSoup剔除HTML标签，提取纯文本内容。然后，把这个函数包装成LangChain的Tool。
- 核心步骤：编写抓取函数（用requests和BeautifulSoup） -> 封装成Tool对象（定义名称和描述） -> 添加到Agent工具列表。
- 实用价值：新闻摘要、竞争情报分析、内容生成，AI都能瞬间成为你的“网络分析师”。

LlamaIndex: 搜索巨头，文献专家

LlamaIndex以其强大的数据索引和查询能力，在集成信息检索工具方面表现卓越。

案例1：Google Search API集成——“百科全书”助手
- 魔法揭秘：想让你的AI拥有全球最强大的搜索引擎？LlamaIndex可以轻松集成Google Search。特别是结合Google Gemini模型，LLM可以直接调用Google Search工具来获取最新、最广阔的信息。
- 核心步骤：安装相关库 -> 获取Google API密钥 -> 初始化GoogleGenAI模型并配置google_search工具 -> 将LLM实例用于LlamaIndex Agent。
- 实用价值：无论是研究报告撰写、实时新闻追踪，还是回答任何新近发生的问题，AI都能第一时间为你“谷歌”到答案。
案例2：自定义REST API集成——PubMed文献专家
- 魔法揭秘：对于科研人员来说，PubMed是生物医学文献的宝库。LlamaIndex允许你通过继承BaseToolSpec，自定义一个“PubMed工具”，让AI能够智能地搜索和检索海量文献的摘要。
- 核心步骤：定义继承自BaseToolSpec的类 -> 在类中实现调用PubMed API的方法 -> 指定哪些方法暴露为工具 -> 确保工具文档字符串清晰 -> 将自定义ToolSpec传递给Agent。
- 实用价值：自动文献综述、疾病研究辅助、药物发现，AI能瞬间成为你的“科研搭档”。

Semantic Kernel: 金融智慧，智能家居

Semantic Kernel作为微软力推的框架，尤其擅长企业级应用和插件化开发。

案例1：Yahoo Finance API集成——“金融分析师”
- 魔法揭秘：想让AI帮你分析股票历史数据？通过Semantic Kernel的Native Plugin，你可以编写一个类，其中包含调用Yahoo Finance API（或利用yfinance库）的方法，获取并处理股票数据。
- 核心步骤：定义插件类 -> 创建用@kernel_function装饰的方法 -> 方法内部实现API调用和数据处理逻辑 -> 将插件添加到Semantic Kernel实例。
- 实用价值：投资决策辅助、市场趋势分析、金融报告生成，AI摇身一变成为你的“私人金融顾问”。
案例2：通用API插件开发——模拟智能家居灯光控制
- 魔法揭秘：让AI控制家里的灯光？虽然是模拟，但原理相同。你可以定义一个包含get_lights（获取灯光状态）和change_state（改变灯光状态）等方法的插件，通过@kernel_function标记。当用户发出“请打开灯”的指令时，Semantic Kernel的规划器会智能识别并调用相应函数。
- 核心步骤：定义插件类 -> 定义用@kernel_function装饰的方法（如获取/改变灯光状态）-> 确保方法有清晰描述和参数定义 -> 将插件添加到Kernel。
- 实用价值：智能家居控制、物联网设备管理、自动化办公，AI正在逐步融入我们的生活，成为贴心的“生活管家”。

总而言之，无论你选择LangChain、LlamaIndex还是Semantic Kernel，它们都提供了强大而灵活的机制来集成第三方服务。关键在于为LLM提供清晰、准确的工具描述和执行逻辑，从而让你的AI应用不再受限于训练数据，而是真正能够感知、影响和改变现实世界！这正是AI工具集成与扩展的魅力所在，也是通往更智能未来的必经之路。

调查报告

更大的图景：AI的无限可能

“工具”的出现，不仅仅是AI能力的小幅提升，它标志着LLM从一个“知识渊博的顾问”向一个“能干的执行者”的根本性转变。这种转变是迈向通用人工智能（AGI）的关键一步，因为真正的智能不仅在于理解世界，更在于与世界互动并改造世界。通过工具，LLM能够突破其离线的训练数据限制，访问实时信息，执行现实世界的任务，从而使其能力边界被无限扩展，从简单的对话助手进化为能够完成复杂、多步骤任务的智能代理。

实际应用：赋能千行百业

工具集成与扩展的应用前景令人激动，几乎可以渗透到每一个行业：

金融领域：自动执行股票交易、分析市场趋势、生成个性化投资报告。
医疗健康：辅助诊断、检索最新医学文献、管理病历数据。
电子商务：智能推荐、订单处理、客户服务自动化、库存管理。
内容创作：实时获取新闻信息、生成深度报道、根据最新数据更新内容。
智能制造：设备监控、故障预测、生产流程优化。
个人助手：日程管理、邮件处理、智能家居控制、旅行规划。
这些应用将极大地提高效率、降低成本，并创造全新的服务和体验。

幕后故事：挑战与突破

尽管工具集成带来了巨大的潜力，但幕后的开发过程并非一帆风顺。研究人员和工程师们面临着诸多挑战：

工具选择的“幻觉”：LLM有时会错误地理解用户的意图，或“幻觉”出不存在的工具或参数，导致调用失败。
参数解析的精确性：如何确保LLM能准确地从非结构化的用户指令中提取出结构化的工具参数，是一个持续优化的难题。
错误处理的优雅性：当外部API调用失败时，如何让LLM能理解错误信息，并给出智能的反馈或采取备用方案，而不是简单地报错。
安全与伦理：赋予AI执行外部操作的能力，也带来了潜在的安全风险和伦理考量，如误用API、数据泄露等。

这些挑战推动了AI框架不断演进，例如引入更强大的工具描述语言、更智能的参数校验机制、更细致的错误类型区分，以及在代理设计中融入自我修正和人工干预的策略。

未来展望：更智能的自主代理

工具集成与扩展的未来充满了无限可能：

更智能的代理：未来的代理将更加自主，能够进行更深层次的规划、学习和自我优化。它们将不再局限于预设的工具，甚至能够根据需求动态地创建或修改工具。
多模态工具：工具将不再局限于文本输入输出，而是能处理图像、视频、音频等多模态信息，例如，一个工具能分析图像内容并生成描述，另一个工具能合成语音并播放。
跨框架协作：不同AI框架的工具和代理之间将实现更紧密的协作和互操作性，形成一个庞大的、协同工作的AI生态系统。
更强的可解释性与安全性：随着AI能力的增强，对工具执行过程的可解释性和安全性需求也将日益增加。研究将聚焦于如何让代理的决策过程更透明，并建立更严格的安全防护机制。

“工具”的出现，不仅是技术上的突破，更是AI走向普惠、走向未来的关键一步。它让我们离真正能够解决复杂现实世界问题的AI系统越来越近，也让我们对未来的智能生活充满了无限遐想。

您已阅读完《dify从入门到精通（共8篇）》专题的第 7 篇。请继续阅读该专题下面的文章：

8.AI智能体：工作原理、核心框架、推理模式与实战应用深度解析

揭秘AI工具链与代理：从LangChain到Semantic Kernel的全景解析

关键点

概述

详细分析

AI框架中的“工具”概念与工作原理

主流AI框架内置工具的详细用法

将任意第三方API封装为AI模型可调用的工具

自定义工具开发最佳实践和设计模式

多个工具的组合：工具链与代理

工具链 (Tool Chaining)

代理 (Agents)

工具链与代理的比较

具体的集成案例：让AI触达真实世界

LangChain: 掌控天气，洞察网页

LlamaIndex: 搜索巨头，文献专家

Semantic Kernel: 金融智慧，智能家居

调查报告

更大的图景：AI的无限可能

实际应用：赋能千行百业

幕后故事：挑战与突破

未来展望：更智能的自主代理

Dify 平台提示词工程与优化指南：设计、变量与上下文管理全解析

AI智能体：工作原理、核心框架、推理模式与实战应用深度解析

Dify 平台提示词工程与优化指南：设计、变量与上下文管理全解析

Claude Code CLI 安装与配置完整教程 | 支持 Windows 与 macOS 的 AI 编程助手

# 🚀 四大AI巨头巅峰对决：GPT-5 vs Claude 4.5 vs Gemini 2.5 Pro vs DeepSeek V3.1

NextChat 接入GPT-4o使用指南

Continue 插件安装与配置指南：JetBrains IDE 的 AI 辅助利器

OMate Chat角色创建与API接入教程

关于本站

帮助中心

网站索引

关注交流