AI Workflow Runtime

Desktop AI Workflow Builder:让桌面 AI 从会操作走向可控执行

企业桌面自动化的难点不是让 AI 点击一次按钮,而是让复杂任务可设计、可审批、可恢复、可追踪。Desktop AI Workflow Builder 的价值在于把桌面操作纳入稳定的运行时。

作者: davyhung&codex

摘要

桌面自动化正在从传统 RPA、脚本录制和浏览器插件,进入由大模型驱动的 AI workflow 阶段。新的问题不是“AI 能不能点击按钮”,而是“AI 能不能把本地文件、桌面应用、网页、系统工具和人工审批组织成一个可重复、可恢复、可审计的工作流”。

Desktop AI Workflow Builder 是运行在本地或本地优先环境中的 AI 工作流构建器。 它把自然语言理解、可视化流程设计、桌面 UI 操作、工具调用、状态管理、人工审批和失败恢复放在同一个 runtime 中。与单纯 chatbot 不同,它关注任务执行;与传统桌面 RPA 不同,它允许模型处理模糊输入、文本理解、提取、判断和异常修复建议。

企业真正需要的不是一个“能看屏幕的模型”,而是一个能把桌面任务拆成节点、保留证据、限制权限、暂停高风险动作并从失败点恢复的运行时。桌面场景通常包含本地文件、遗留软件、ERP 客户端、浏览器后台、Excel、PDF、邮件和内部工具,这些对象并不总有稳定 API。Desktop AI Workflow Builder 的核心价值,是在 API 不完整、界面易变化、数据敏感且人工责任明确的环境中,建立一层可控执行系统。

1. 问题背景

过去的企业自动化主要有三类路径。第一类是 API 集成,适合现代 SaaS 和内部系统;第二类是 RPA 或桌面流,适合重复、规则明确、界面稳定的任务;第三类是 chatbot,适合问答、解释和轻量操作。Desktop AI Workflow Builder 出现,是因为这三类路径都没有单独解决“桌面知识工作”的完整问题。

桌面任务通常不是纯 API 问题。Microsoft Power Automate 的桌面流文档已经说明,桌面自动化需要覆盖现代应用、遗留应用、终端模拟器、Excel、文件夹,并可能通过 UI 元素、图像或坐标与机器交互。[1] Microsoft UI Automation 也强调,Windows 应用可以向自动化程序暴露可编程的 UI 信息,并允许自动化脚本与界面交互。[2] 这说明桌面自动化长期存在,并不是大模型之后才出现的新需求。

变化在于,大模型让系统可以处理过去难以规则化的环节:从邮件里理解意图,从 PDF 中抽取字段,判断异常是否需要人工复核,把失败原因转成修复建议,或把一次自然语言描述转成工作流草案。OpenAI 的 Computer-Using Agent 与 Anthropic 的 Computer Use 都展示了模型通过截图、鼠标和键盘操作数字界面的可能性。[4][6] 但这些能力仍处于需要治理的阶段。OSWorld、UI-Vision 等研究基准都指出,真实桌面环境中的 GUI grounding、复杂软件理解、拖拽、文本编辑和操作知识仍然存在明显挑战。[7][8]

因此,产品设计的重点不应停留在“让 AI 自主控制电脑”,而应转向“让 AI 控制的每一步都进入可设计、可验证、可恢复的 workflow runtime”。

2. 核心概念与边界

Desktop AI Workflow Builder 不是一个聊天框,也不是一个单纯的鼠标键盘代理。更准确地说,它是一个面向桌面环境的工作流构建与运行系统。

类型核心能力主要局限适合场景
Chatbot理解问题、生成答案、解释结果不擅长长流程状态、桌面副作用和失败恢复FAQ、文档问答、临时分析
传统桌面 RPA录制动作、规则执行、UI 自动化对模糊输入、异常判断和界面变化适应弱高重复、强规则、稳定界面
Computer-use agent看屏幕、点击、输入、滚动容易受视觉误识别、界面变化、权限边界影响临时操作、浏览器任务、辅助探索
Desktop AI Workflow Builder设计流程、调用模型、操作桌面、审批、恢复、审计需要更强运行时、权限和可观测性设计多步骤、本地文件、遗留系统、需审计任务

关键边界在于:desktop AI workflow builder 的中心不是“模型”,而是“流程状态”。 模型负责理解、提取、判断和建议;确定性步骤由代码、规则、工具适配器和 UI 自动化执行;高风险动作由人审批;失败由 runtime 定位和恢复。

这一区分非常重要。单纯 computer-use agent 可能会不断尝试点击界面;workflow builder 则应先判断任务是否明确、输入是否完整、动作是否被授权、是否需要 dry-run、是否要等待用户批准。OpenAI Operator System Card 将风险分为误用、模型错误和 adversarial website 等类别,并强调需要跨模型、系统和产品设计的分层缓解措施。[5] MCP 规范也明确指出,工具代表任意代码执行路径,应被谨慎对待,并要求用户同意、控制和数据隐私设计。[9]

3. 架构或工作机制

一个生产级 Desktop AI Workflow Builder 通常包括七层:设计器、运行时、状态存储、模型网关、桌面动作层、工具连接层和治理观测层。

用户自然语言目标Workflow Builder / 可视化设计器Desktop Workflow RuntimeState Store / 节点状态与事件历史Policy Engine / 权限与审批策略Observability / 日志、追踪、审计LLM Step / 理解、抽取、判断、修复建议Desktop Action LayerTool & API LayerUI Automation / Accessibility TreeVision / OCR / ScreenshotMouse / Keyboard / Clipboard / FilesMCP Servers / Local ToolsERP / CRM / SaaS / Internal APIHuman ApprovalDesktop Apps / Legacy Apps / Browser / Excel / PDF

这套架构的核心原则是分层:

第一,设计层负责把模糊目标变成工作流草案。用户不需要一开始写脚本,可以先描述结果、输入、限制和成功标准。AI 可以辅助生成节点,但节点必须可被人审阅。

第二,运行时负责状态与控制。每一步都应有输入、输出、状态、错误、重试策略和审批要求。Temporal 等 durable execution 平台的核心思想是让应用在崩溃、网络失败或基础设施中断后,从中断处继续执行。[11] 桌面 AI 工作流也需要类似机制,只是执行对象从云服务扩展到了本地桌面和文件系统。

第三,桌面动作层不能只依赖视觉。可用 API 或 MCP 工具时,应优先使用结构化接口;可用 UI Automation 时,应优先使用可定位的 UI 元素;视觉、OCR 和坐标点击应作为补充或最后手段。Power Automate 的 UI automation 文档也显示,选择器、模拟点击、物理点击和不同 UI 技术栈的限制都需要被显式管理。[3]

第四,治理观测层必须常驻。OpenTelemetry 将 traces、metrics、logs 统一为可生成、采集和导出的遥测数据。[12] 对 desktop AI workflow 来说,至少应记录节点耗时、模型调用、工具调用、桌面动作、审批记录、失败原因和用户干预。

4. 企业落地中的关键挑战

4.1 桌面 UI 不稳定

桌面软件界面常随版本、语言、分辨率、权限、弹窗、网络状态和用户配置变化。视觉模型可以补充 UI Automation,但不能替代确定性定位。UI-Vision 的研究显示,真实桌面环境中的专业软件理解、空间推理和复杂拖拽仍是当前模型的难点。[8]

可行做法是采用分级动作策略:API/MCP 优先,UI Automation 其次,视觉识别再次,坐标点击最后。所有坐标型动作都应有前置截图校验与后置结果验证。

4.2 模型不应直接拥有写权限

桌面环境中常见高风险动作包括:覆盖文件、发送邮件、提交表单、删除数据、修改财务或客户记录。OWASP LLM Top 10 将 excessive agency 列为风险之一,即赋予模型未经检查的行动能力可能导致可靠性、隐私和信任问题。[13] OWASP Agentic Applications 2026 也将自主代理的计划、行动和决策风险作为独立治理对象。[14]

因此,builder 必须支持策略门:读操作、草稿生成、dry-run 可以自动执行;写入、删除、发送、提交和外部发布必须进入人工审批。

4.3 本地数据与模型上下文边界

桌面工作流经常处理合同、发票、客户资料、财务表、截图和内部文档。个人信息保护法要求个人信息处理遵循合法、正当、必要和诚信原则,并限制过度收集。[17] 这意味着 desktop AI workflow builder 不能默认把整个文件夹或完整屏幕内容都发送给远端模型。更合理的设计是本地预处理、最小上下文发送、敏感字段脱敏、模型调用留痕,并允许企业配置数据保留策略。

4.4 失败恢复比“重试一次”复杂

桌面任务可能已经产生副作用:文件已移动、邮件已草拟、网页已提交到一半、ERP 客户端已打开某个事务窗口。失败后简单从头重跑可能造成重复写入或覆盖。Runtime 需要知道每个节点是否幂等、是否可重试、是否需要补偿、是否需要人工确认后继续。

4.5 评估不能只看一次演示成功

桌面 AI 演示很容易成功,生产部署很难稳定。OSWorld 这样的基准之所以重要,是因为它把任务放在真实操作系统和应用中,并关注执行结果而不只是模型回答。[7] MCPWorld 进一步强调 API、GUI 和混合交互的测试环境,说明下一代 computer-use agent 不能只靠视觉点击,也需要结构化工具与可验证结果。[19]

5. 适用场景与不适用场景

Desktop AI Workflow Builder 更适合以下场景:

  • 本地文件整理、批量重命名、归档、格式转换。
  • PDF、Excel、邮件、网页和桌面客户端之间的数据搬运。
  • 遗留系统没有 API,但有稳定桌面界面的录入流程。
  • 需要先由 AI 抽取或判断,再由人审批后执行的流程。
  • 合同、发票、报表、客户记录等需要证据链的办公流程。
  • 需要在本地保留数据,只向模型发送最小必要上下文的任务。
  • 需要失败定位、节点重跑和执行日志的重复性任务。

它不适合以下场景:

  • 高实时性、毫秒级响应任务。
  • 安全边界不清且无法设置审批的高风险写操作。
  • UI 极度不稳定、频繁变更且没有任何可验证结果的流程。
  • 完全可以用稳定 API、数据库任务或后端批处理解决的问题。
  • 法律、医疗、金融等需要专业人员实质判断但企业无法配置审阅责任的流程。
  • 涉及受限系统、受监管数据或跨境传输,而企业尚未完成合规评估的任务。

核心判断标准是:如果任务只是问答,不需要 desktop workflow;如果任务是重复执行、跨应用、有本地数据、有副作用、需要审阅和恢复,desktop workflow builder 的价值才明显。

6. 选型或实施建议

企业评估 Desktop AI Workflow Builder 时,可以从六个问题开始。

第一,是否有稳定的节点模型。每一步是否能被拆成输入、动作、输出、验证和错误处理,而不是一段不可解释的自然语言指令。

第二,是否支持本地优先。本地文件、截图、剪贴板、桌面窗口和中间结果是否默认在本机处理;模型调用是否只发送完成该节点所需的最小上下文。

第三,是否支持多种动作底座。好的系统不应只会截图点击。它应能组合 API、MCP、UI Automation、OCR、文件操作、命令行和人工审批。MCP 的 host-client-server 架构将工具、资源、提示词和能力协商标准化,为本地工具接入提供了重要参考。[9][10]

第四,是否支持审批与 dry-run。高风险动作必须在执行前展示输入、输出、目标系统、潜在影响和可回滚性。审批记录应进入事件历史,而不是只留在聊天记录里。

第五,是否支持失败恢复。生产系统必须能定位失败节点、展示证据、允许用户修复参数或替换输入,并从正确节点继续执行。

第六,是否有可观测性与审计。每个运行实例都应有 trace、日志、成本、模型版本、工具版本、审批人和结果验证记录。对于 agentic AI,NIST AI RMF 与 NIST Generative AI Profile 都强调在设计、开发、使用和评估中纳入可信与风险管理考虑。[15][16]

实施路径上,建议先从低风险、高重复、本地数据明确的流程开始,例如文件整理、信息抽取、草稿生成、表格校验。随后再进入写操作和跨系统流程。不要一开始就允许模型自主执行完整业务闭环。

7. iAgent7 语境下的产品启示

iAgent7 的公开页面将自身定位为 local-first agent runtime,并强调 local execution、human approval for risky actions、node-level recovery,以及将 flow、models、tools、approval 和 recovery 分离。[18] 这与 desktop AI workflow builder 的关键要求高度一致。

在 iAgent7 语境下,Desktop AI Workflow Builder 的产品表达可以聚焦三点。

第一,reviewable。桌面 AI 不能只给出一个结果,而要让用户看到每个节点将做什么、使用什么输入、写入哪里、风险是什么。对于 send、delete、overwrite、submit 等动作,审批不是附加功能,而是产品结构的一部分。

第二,recoverable。桌面自动化最常见的失败不是“模型答错”,而是窗口没打开、按钮找不到、文件被占用、网络中断、登录过期。可恢复意味着失败应落在具体节点,展示输入、输出、错误和影响范围,并允许从该节点重跑。

第三,local-first。桌面工作流天然涉及本地文件和敏感上下文。本地优先不是营销词,而是数据边界设计:尽量本地解析、本地执行、本地存储状态,只在模型节点发送最小必要上下文。

因此,iAgent7 不应被理解为“桌面版 chatbot”,而应被理解为一个让 AI 工作进入稳定运行时的 desktop workflow builder:模型处理模糊性,runtime 控制确定性,人负责高风险决策。

结论

Desktop AI Workflow Builder 的价值,不在于让 AI 模拟人点击鼠标,而在于把桌面任务变成可设计、可审批、可恢复、可追踪的工作流。它吸收了 RPA 对桌面应用的操作能力,也吸收了大模型对语言、文档和异常的理解能力,但必须用 workflow runtime 管理状态、权限和风险。

对企业来说,桌面 AI 的成熟路径不是“完全自治”,而是“受控执行”。API 可用时用 API,UI 可定位时用 UI Automation,视觉能力用于补充和兜底;模型负责理解和建议,人负责高风险审批,runtime 负责状态、恢复和审计。

当一个桌面任务开始跨文件、跨应用、跨系统,并产生真实业务后果时,产品问题就不再是“是否需要一个 AI 助手”,而是“是否有一个足够稳定的 desktop AI workflow builder 承载它”。

参考文献

[1] Microsoft. Introduction to desktop flows. Microsoft Learn, 2025-06-27. https://learn.microsoft.com/en-us/power-automate/desktop-flows/introduction

[2] Microsoft. UI Automation. Microsoft Learn, 2025-07-14. https://learn.microsoft.com/en-us/windows/win32/winauto/entry-uiauto-win32

[3] Microsoft. UI automation actions. Microsoft Learn. https://learn.microsoft.com/en-us/power-automate/desktop-flows/actions-reference/uiautomation

[4] OpenAI. Computer-Using Agent. OpenAI, 2025-01-23. https://openai.com/index/computer-using-agent/

[5] OpenAI. Operator System Card. OpenAI, 2025. https://openai.com/index/operator-system-card/

[6] Anthropic. Computer use tool. Claude API Docs, 访问日期:2026-06-08. https://docs.anthropic.com/en/docs/agents-and-tools/computer-use

[7] Tianbao Xie, Danyang Zhang, Jixuan Chen, et al. OSWorld: Benchmarking Multimodal Agents for Open-Ended Tasks in Real Computer Environments. arXiv:2404.07972, 2024. https://arxiv.org/abs/2404.07972

[8] Shravan Nayak, Xiangru Jian, Kevin Qinghong Lin, et al. UI-Vision: A Desktop-centric GUI Benchmark for Visual Perception and Interaction. arXiv:2503.15661, 2025. https://arxiv.org/abs/2503.15661

[9] Model Context Protocol. Specification, Version 2025-06-18. https://modelcontextprotocol.io/specification/2025-06-18

[10] Model Context Protocol. Architecture, Version 2025-06-18. https://modelcontextprotocol.io/specification/2025-06-18/architecture

[11] Temporal Technologies. Temporal Documentation. 访问日期:2026-06-08. https://docs.temporal.io/

[12] OpenTelemetry. OpenTelemetry Documentation. 访问日期:2026-06-08. https://opentelemetry.io/docs/

[13] OWASP. OWASP Top 10 for Large Language Model Applications. OWASP Foundation, 2025. https://owasp.org/www-project-top-10-for-large-language-model-applications/

[14] OWASP GenAI Security Project. OWASP Top 10 for Agentic Applications for 2026. OWASP, 2025-12-09. https://genai.owasp.org/resource/owasp-top-10-for-agentic-applications-for-2026/

[15] National Institute of Standards and Technology. AI Risk Management Framework - Resources. NIST, updated 2025-02-07. https://www.nist.gov/itl/ai-risk-management-framework/ai-risk-management-framework-resources

[16] Chloe Autio, Reva Schwartz, Jesse Dunietz, et al. Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile. NIST AI 600-1, 2024. https://www.nist.gov/publications/artificial-intelligence-risk-management-framework-generative-artificial-intelligence

[17] 国家互联网信息办公室. 《中华人民共和国个人信息保护法》. 2021-08-20. https://www.cac.gov.cn/2021-08/20/c_1631050028355286.htm

[18] iAgent7. iAgent — Stable workflow agent runtime. 访问日期:2026-06-08. https://www.iagent7.com/en-US

[19] Yunhe Yan, Shihe Wang, Jiajun Du, et al. MCPWorld: A Unified Benchmarking Testbed for API, GUI, and Hybrid Computer Use Agents. arXiv:2506.07672, 2025. https://arxiv.org/abs/2506.07672