發(fā)布時(shí)間:2023-11-14 10:26:09 瀏覽量:127次
將人類從繁重的勞動(dòng)中解放出來
近日,面壁智能聯(lián)合清華自然語言處理實(shí)驗(yàn)室等機(jī)構(gòu)的研究人員共同發(fā)布了新一代流程自動(dòng)化范式 Agentic Process Automation,該范式不僅實(shí)現(xiàn)了工作流構(gòu)建的自動(dòng)化,更在工作流執(zhí)行時(shí)引入了動(dòng)態(tài)決策的自動(dòng)化。這一創(chuàng)新將為未來自動(dòng)化領(lǐng)域帶來更高層次的效率和靈活性,將人類從繁重的勞動(dòng)中解放出來。
論文信息
? 項(xiàng)目地址
? https://github.com/OpenBMB/ProAgent
? 論文地址
? https://github.com/OpenBMB/ProAgent/blob/main/paper/paper.pdf
—
在歷史的長(zhǎng)河中,自動(dòng)化是人類技術(shù)發(fā)展的主要?jiǎng)恿?,幫助人類從?fù)雜、危險(xiǎn)、繁瑣的勞動(dòng)環(huán)境中解放出來。自早期農(nóng)業(yè)時(shí)代的水車灌溉,到工業(yè)時(shí)代的蒸汽機(jī),人類一直在不斷尋求更加先進(jìn)的自動(dòng)化技術(shù),從而解放自身于繁重的工作。隨著信息時(shí)代的到來,軟件作為信息處理、存儲(chǔ)和通信的基礎(chǔ)成為了人類生產(chǎn)生活密不可分的一環(huán),從而催成了機(jī)器人流程自動(dòng)化(Robotic Process Automation, RPA)技術(shù)。其通過人工編制規(guī)則將多個(gè)軟件協(xié)調(diào)成一個(gè)固化的工作流(Workflow),通過模擬人交互的方式來和軟件交互實(shí)現(xiàn)高效執(zhí)行。
Robotic Process Automation 與 Agentic Process Automation 的比較
RPA僅能替代簡(jiǎn)單、機(jī)械的人力工作,一些復(fù)雜的流程仍舊依賴人工:
1. 編寫 RPA 工作流本身需要繁重的人類勞動(dòng),成本較高。
2. 復(fù)雜任務(wù)非常靈活,通常涉及動(dòng)態(tài)決策,難以固化為規(guī)則進(jìn)行表示。
從效率和智能兩個(gè)方面來比較 RPA 和 APA
幸運(yùn)的是,最近AI領(lǐng)域興起的大模型智能體技術(shù)(Large Language Model based Agents, LLM-based Agents)也許給自動(dòng)化技術(shù)創(chuàng)造了新的可能性。有沒有可能將 Agent 技術(shù)的靈活性引入到 RPA 領(lǐng)域中,來進(jìn)一步減少人的參與呢?
該研究探討了大模型智能體時(shí)代下新型自動(dòng)化范式 Agentic Process Automation (APA)。和傳統(tǒng) RPA 相比,在 APA 范式中,Agent 可以根據(jù)人類的需求自主完成工作流構(gòu)建,同時(shí)其可以識(shí)別人類需求中需要?jiǎng)討B(tài)決策的部分,將自動(dòng)編排進(jìn)工作流中,并在工作流執(zhí)行到該部分時(shí)主動(dòng)接管工作流的執(zhí)行完成相應(yīng)復(fù)雜決策。
為了探索APA的可能性,該研究工作實(shí)現(xiàn)了一個(gè)自動(dòng)化智能體 ProAgent,其可以接收人類指令,以生成代碼的方式構(gòu)建工作流,同在工作流中引入 DataAgent 和 ControlAgent 來在工作流中實(shí)現(xiàn)復(fù)雜數(shù)據(jù)處理與邏輯控制。ProAgent 的研究展現(xiàn)了 APA 在大模型智能體時(shí)代下的可行性,也揭示了 LLM 時(shí)代下,自動(dòng)化技術(shù)的嶄新可能性。
—
在RPA中,工作流是由一系列工具調(diào)用組成的圖狀結(jié)構(gòu):節(jié)點(diǎn)代表一個(gè)原子化的工具調(diào)用(如Gmail、Twitter、Google Sheets),而邊代表了執(zhí)行的邏輯順序(承接、分支、循環(huán))。一個(gè)工作流往往包含了對(duì)于一個(gè)或一類任務(wù)的所有先驗(yàn)知識(shí),其中包含解決問題的路徑,遇到異常時(shí)的處理邏輯等等。因此人編寫固化出來的工作流往往是非常穩(wěn)定周全、非常高效的。
智能體工作流描述語言圖示
在 ProAgent 中,由于 LLM 本身在代碼數(shù)據(jù)中進(jìn)行預(yù)訓(xùn)練,學(xué)習(xí)到了較強(qiáng)代碼能力,該研究便基于代碼的智能體工作流描述語言 Agentic Workflow Description Language。該語言使用 JSON 實(shí)現(xiàn)對(duì)工作流中數(shù)據(jù)的組織與管理,選擇 Python 語法實(shí)現(xiàn)對(duì)工作流的邏輯控制,將控制流中的跳轉(zhuǎn)、循環(huán)等直接通過 Python 語法進(jìn)行表征,同時(shí)將工作流中的工具調(diào)用封裝為 Python Function。于是對(duì)于 ProAgent,工作流構(gòu)建任務(wù)便轉(zhuǎn)化為代碼生成任務(wù)。當(dāng)接收到人類指令時(shí),ProAgent 便編寫相應(yīng)的 Agentic Workflow Description Language,從而實(shí)現(xiàn)了工作流自動(dòng)化構(gòu)建。
帶有 DataAgent 和 ControlAgent 的智能體工作流描述語言圖示
復(fù)雜的現(xiàn)實(shí)任務(wù)中通常會(huì)涉及動(dòng)態(tài)決策,單純的 Python 式的邏輯控則規(guī)則以及 JSON 式的數(shù)據(jù)組織形式在面對(duì)靈活的需求時(shí)便無能為力,此時(shí)便需要引入 agent。因此,該研究工作進(jìn)一步定義出了兩種 Agent 操作:
1. DataAgent:對(duì)于一個(gè)復(fù)雜的數(shù)據(jù)處理需求,工作流構(gòu)建時(shí)會(huì)使用自然語言來描述處理的任務(wù),然后在執(zhí)行時(shí)會(huì)初始化一個(gè) DataAgent,其會(huì)基于該自然語言描述自主處理并完成該數(shù)據(jù)處理任務(wù)。
?
2. ControlAgent:對(duì)于難以用規(guī)則表示的邏輯控制規(guī)則,工作流構(gòu)建時(shí)使用自然語言對(duì)控制邏輯進(jìn)行描述,然后在運(yùn)行時(shí)會(huì)初始化一個(gè) ControlAgent,其會(huì)基于該自然語言描述自主選擇工作流后續(xù)需要執(zhí)行的分支。
ProAgent 工作流構(gòu)建過程說明
ProAgent 使用 ReACT 模式逐步構(gòu)建工作流,其共包含四個(gè)工作流構(gòu)建步驟:
1. Action_Define:決定在工作流中添加什么工具。2. Action Implement:將工具的輸入/輸出參數(shù)轉(zhuǎn)化為JSON結(jié)構(gòu),同時(shí)將工具的調(diào)用封裝為Python函數(shù)。3. Workflow Implement:定義一個(gè)mainWorkflow函數(shù),用以組織整個(gè)workflow的邏輯控制與數(shù)據(jù)處理。
4. Task Submit: 當(dāng)ProAgent構(gòu)建完workflow時(shí)以該操作標(biāo)識(shí)構(gòu)建過程結(jié)束。
另外,為了優(yōu)化ProAgent的效果,又引入了幾個(gè)優(yōu)化技巧:
1. Testing-on-Constructing:在構(gòu)建過程中,ProAgent會(huì)在一次修改工作流之后對(duì)工作流進(jìn)行測(cè)試,以保證工作流的正確性。
2. Function Calling:工作流構(gòu)建的所有操作均封裝為了GPT-4的Function,從而提高對(duì)工作流構(gòu)建過程的控制。
3. Chain-of-Thought:ProAgent在編寫工作流代碼時(shí),需要對(duì)于每個(gè)function都要給出注釋comment和一個(gè)編寫plan,從而提高ProAgent工作流構(gòu)建的性能。
工作流執(zhí)行過程基于 Python interpreter。給定一個(gè)工作流,其對(duì)應(yīng)的 mainWorkflow 函數(shù)用作為工作流執(zhí)行的入口來開始整個(gè)執(zhí)行過程。執(zhí)行過程遵循 Python 代碼執(zhí)行規(guī)則,即按照順序逐行執(zhí)行。一旦 mainWorkflow 函數(shù)返回,工作流執(zhí)行就成功完成了。
為了驗(yàn)證 Agentic Process Automation 的可行性,該研究使用 OpenAI GPT-4 作為基礎(chǔ)模型,并以一個(gè)開源的 RPA 平臺(tái) n8n 作為載體,實(shí)現(xiàn)了上述的 ProAgent。同時(shí)設(shè)計(jì)了一個(gè)需要兼顧靈活與效率的任務(wù):這是一個(gè)典型的商業(yè)場(chǎng)景,需要從Google Sheets中提取各種業(yè)務(wù)線的營(yíng)利數(shù)據(jù),同時(shí)根據(jù)業(yè)務(wù)是否屬于 2B 或是 2C,決定后續(xù)的行為。一旦確定業(yè)務(wù)線為 2C,就會(huì)向 Slack 頻道發(fā)送一條消息。而對(duì)于 2B 的業(yè)務(wù)線,則會(huì)向相應(yīng)的經(jīng)理發(fā)送一封電子郵件,其中包括對(duì)業(yè)務(wù)線的評(píng)估和簡(jiǎn)要的盈利概況。
任務(wù)內(nèi)容
對(duì)于該任務(wù),首先它是一個(gè)重復(fù)性的任務(wù),對(duì)于多條產(chǎn)品線,應(yīng)該走相同的處理流程。其次,分辨一個(gè)業(yè)務(wù)線是 2C 還是 2B 很難通過規(guī)則判斷,需要涉及 Agent 動(dòng)態(tài)決策來判斷后續(xù)的工作流執(zhí)行操作。最后,根據(jù)撰寫業(yè)務(wù)線的評(píng)估郵件需要一定的智能,所以需要 Agent 的介入。
在 ProAgent 生成中,對(duì)于該任務(wù),編寫出了一個(gè)包含四個(gè)原子操作,一個(gè) DataAgent 和一個(gè) ControlAgent 的工作流??傮w過程大致如下圖所示:
ProAgent 工作流構(gòu)建過程在案例分析中的說明
可以看到,ProAgent 通過自主編寫代碼的方式,自動(dòng)完成了工作流的構(gòu)建過程,其中無需涉及人工介入。在需要判斷業(yè)務(wù)線是 2B 還是 2C 時(shí),ProAgent 引入了 ControlAgent 來做判斷,ControlAgent的Prompt被設(shè)置為“Decide Whether the business line is toC or toB”。當(dāng)業(yè)務(wù)線為 2B 時(shí),ProAgent 還引入了一個(gè) DataAgent,其任務(wù)設(shè)置為“Write a email of the business line of profit, together with your suggestion”,從而利用 Agent 的智能來根據(jù)不同業(yè)務(wù)線的實(shí)際情況來撰寫郵件。
ProAgent 工作流執(zhí)行過程在案例分析中的說明
在工作流被編寫、固化下來以后,工作流就會(huì)根據(jù)不同的數(shù)據(jù)自動(dòng)分支到不同的邏輯進(jìn)行高效地?cái)?shù)據(jù)處理了。在處理 2C 業(yè)務(wù)線數(shù)據(jù)時(shí),ControlAgent 可以根據(jù)業(yè)務(wù)線描述判斷出當(dāng)前業(yè)務(wù)線的類型,選擇調(diào)用 Slack 工具。當(dāng)遇到 2B 業(yè)務(wù)線數(shù)據(jù)時(shí),DataAgent 可以撰寫郵件發(fā)到相應(yīng)經(jīng)理的郵箱中。
此次發(fā)布的自動(dòng)化新范式APA是面壁智能聯(lián)合清華NLP實(shí)驗(yàn)室在 Agent 技術(shù)上的最新探索成果。該研究提出了大模型時(shí)代下新的自動(dòng)化范式——Agentic Process Automation,和傳統(tǒng)Robotic Process Automation技術(shù)相比,其可以實(shí)現(xiàn)工作流構(gòu)建的自動(dòng)化,以及工作流執(zhí)行時(shí)動(dòng)態(tài)決策的自動(dòng)化。該研究進(jìn)一步實(shí)現(xiàn)了ProAgent并通過實(shí)驗(yàn)揭示了大模型智能體在自動(dòng)化中的可行性與潛力。
除了智能體流程自動(dòng)化技術(shù),面壁智能和清華 NLP 實(shí)驗(yàn)室的研究團(tuán)隊(duì)前期在智能體應(yīng)用框架、單體智能和群體智能等技術(shù)上均有深入探索,是最早在 AI 智能體(Agent)底層技術(shù)上取得突破的人工智能隊(duì)伍之一。目前已成功推出了 大模型驅(qū)動(dòng)的 AI Agent “三駕馬車”:
? AgentVerse,大模型驅(qū)動(dòng)的智能體通用平臺(tái) :招募各種各樣的 AI 專家,共同幫助用戶解決復(fù)雜任務(wù)。
? XAgent,超強(qiáng) AI 智能體應(yīng)用框架:超級(jí)“ AI 特工”,可自行拆解復(fù)雜任務(wù),并高效執(zhí)行。
? ChatDev,多智能體協(xié)作開發(fā)框架:讓多個(gè)不同角色的智能體進(jìn)行協(xié)作,自動(dòng)化開發(fā)軟件應(yīng)用。
隨著本次發(fā)布的 APA 技術(shù)持續(xù)發(fā)展,相信未來大模型智能體技術(shù)會(huì)幫助人類實(shí)現(xiàn)更高層次的自動(dòng)化,將人類從各種繁重的勞動(dòng)中解放出來。
熱門資訊
1. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!