發(fā)布時(shí)間:2024-01-15 15:01:24 瀏覽量:246次
機(jī)器之心分析師網(wǎng)絡(luò)
作者:仵冀穎
編輯:Joni
在這篇文章中,我們討論設(shè)計(jì)中的人工智能問(wèn)題(AI in Design)。眾所周知,人工智能 AI 的最終目的是讓機(jī)器具備與人類類似的識(shí)別、分析、理解甚至是決策的能力,從而能夠代替人類解決問(wèn)題、完成任務(wù)。但是,現(xiàn)階段的人工智能,即使是在工業(yè)場(chǎng)景中已經(jīng)獲得了較好的推廣應(yīng)用的人工智能技術(shù),都屬于弱人工智能。
利用大量的數(shù)據(jù)學(xué)習(xí)、預(yù)訓(xùn)練、參數(shù)調(diào)優(yōu)、微調(diào)、模型架構(gòu)調(diào)整等等改進(jìn)或處理手段,這些人工智能的模型或方法能夠依賴數(shù)據(jù)或經(jīng)驗(yàn)自動(dòng)完成一些任務(wù),但是卻無(wú)法擁有人類的主觀能力,例如對(duì)事物、事件或者環(huán)境的感受和感知能力。它們不能夠獨(dú)立思考,因此,也不能真正具備像人類一樣的推理、類比等抽象思維的能力。
什么是設(shè)計(jì)?百科中這樣寫道:「設(shè)計(jì)是有目標(biāo)有計(jì)劃的進(jìn)行技術(shù)性的創(chuàng)作與創(chuàng)意活動(dòng), 是把一種設(shè)想通過(guò)合理的規(guī)劃、周密的計(jì)劃、通過(guò)各種方式表達(dá)出來(lái)的過(guò)程,可以把任何造物活動(dòng)的計(jì)劃技術(shù)和計(jì)劃過(guò)程理解為設(shè)計(jì)。」設(shè)計(jì)涉及了眾多領(lǐng)域,例如:商貿(mào)領(lǐng)域(Commerce),包括產(chǎn)品設(shè)計(jì)、包裝設(shè)計(jì)等等;應(yīng)用領(lǐng)域(Applications),包括游戲設(shè)計(jì)、UI 設(shè)計(jì)等等;傳達(dá)(Communications)領(lǐng)域,包括字體設(shè)計(jì)、音效設(shè)計(jì)、圖形設(shè)計(jì)、版面設(shè)計(jì)等等;科學(xué)和數(shù)學(xué)領(lǐng)域(Scientific and Mathematical),包括組合設(shè)計(jì)、實(shí)驗(yàn)設(shè)計(jì)等;物質(zhì)領(lǐng)域(Physical),包括服裝設(shè)計(jì)、環(huán)境設(shè)計(jì)、工業(yè)設(shè)計(jì)等等。不管最終的應(yīng)用領(lǐng)域是什么,設(shè)計(jì)都有一個(gè)關(guān)鍵的組成「人類的一種設(shè)想」。這種設(shè)想是典型的人類思維和思想,是完全抽象的存在,也是目前人工智能所無(wú)法替代的關(guān)鍵。因此,在設(shè)計(jì)中引入人工智能仍面臨很大的挑戰(zhàn)。
不過(guò),盡管在設(shè)計(jì)中引入人工智能面臨很多問(wèn)題,但人工智能還是有其固有的優(yōu)勢(shì)的。一是,人工智能具有超過(guò)人類的記憶能力,能夠隨時(shí)、正確的調(diào)用大量的經(jīng)驗(yàn)來(lái)輔助完成任務(wù);二是,人工智能具有超強(qiáng)的計(jì)算能力,能夠在短時(shí)間內(nèi)完成復(fù)雜的計(jì)算任務(wù);三是,人工智能方法不受人類主觀情緒影響,能夠相對(duì)公平的評(píng)估設(shè)計(jì)方案。因此,在設(shè)計(jì)中引入人工智能將能夠不斷地積累并有效利用經(jīng)驗(yàn)知識(shí),且能夠不斷地、快速且高效地優(yōu)化設(shè)計(jì)方案,以及能夠不斷地探索并找到最佳的設(shè)計(jì)方案。
本文根據(jù)近期發(fā)表的四篇論文,具體探討了人工智能在結(jié)構(gòu)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、電路設(shè)計(jì)、排版版面設(shè)計(jì)中的應(yīng)用。這四個(gè)設(shè)計(jì)應(yīng)用領(lǐng)域的任務(wù)區(qū)別非常大,所以應(yīng)用人工智能的方法也非常不同。我們將在后續(xù)章節(jié)中具體分析不同設(shè)計(jì)任務(wù)的特點(diǎn)、需求,以及如何有效的將人工智能引入到設(shè)計(jì)中。
1、結(jié)構(gòu)設(shè)計(jì)中的 AI
本文重點(diǎn)關(guān)注的是結(jié)構(gòu)設(shè)計(jì)問(wèn)題,具體是指醫(yī)院病房的房間布局設(shè)計(jì) [1]。患者在住院期間出現(xiàn)跌倒的情況會(huì)嚴(yán)重影響患者的預(yù)后,導(dǎo)致發(fā)病率增加、住院時(shí)間延長(zhǎng)和生活質(zhì)量降低等問(wèn)題。此外,不必要的跌倒也會(huì)給患者和醫(yī)療系統(tǒng)帶來(lái)巨大的經(jīng)濟(jì)成本。導(dǎo)致患者跌倒的原因有很多。其中,環(huán)境危害(Environmental Hazards)和事故(Accidents)已被確定為最常見(jiàn)的跌倒原因。
文獻(xiàn)[6] 中提出了一種考慮房間布局的病人在醫(yī)院房間內(nèi)自然行走時(shí)跌倒風(fēng)險(xiǎn)的度量方法。該方法通過(guò)考慮房間設(shè)計(jì)因素,包括照明、地板類型、門的操作 (擺動(dòng)或滑動(dòng)) 和房間內(nèi)的支撐物 (如家具、扶手、床欄等) 來(lái)估計(jì)病人在房間中的跌倒風(fēng)險(xiǎn)。然而,作者所提出的度量標(biāo)準(zhǔn)所定義的跌倒風(fēng)險(xiǎn)與房間布局之間的公式關(guān)系復(fù)雜且不直觀,同時(shí)不能手動(dòng)調(diào)整布局以降低跌倒風(fēng)險(xiǎn)。
本文在 [6] 中跌倒模型的基礎(chǔ)上,采用無(wú)梯度優(yōu)化技術(shù)自動(dòng)生成醫(yī)院房間布局的設(shè)計(jì)方案,目的是能夠通過(guò)改進(jìn)房間布局設(shè)計(jì)的方式降低患者跌倒的風(fēng)險(xiǎn)(見(jiàn)圖 1)。具體來(lái)說(shuō),作者對(duì)模擬退火方法進(jìn)行了調(diào)整,以優(yōu)化多個(gè)真實(shí)世界醫(yī)院房間的特征,包括病人床、沙發(fā)、病人椅、輸液桿、馬桶和水槽等物體的位置,房間內(nèi)照明的位置,以及主門和浴室門的位置等,即,引入人工智能輔助進(jìn)行房間布局的結(jié)構(gòu)設(shè)計(jì)。
圖 1. 傳統(tǒng)和優(yōu)化的房間布局對(duì)跌倒風(fēng)險(xiǎn)的評(píng)價(jià)。圖 (a) 和(b)為房間示意圖,圖 (c) 和(d)為跌倒風(fēng)險(xiǎn)模型評(píng)估的相應(yīng)跌倒風(fēng)險(xiǎn)熱力圖。
1.1 結(jié)構(gòu)設(shè)計(jì)中的人工智能介紹
結(jié)構(gòu)設(shè)計(jì)中的人工智能與計(jì)算機(jī)化布局規(guī)劃(Computerized layout planning)問(wèn)題相關(guān)。計(jì)算機(jī)化布局規(guī)劃是指在滿足一系列標(biāo)準(zhǔn)和約束條件和 / 或優(yōu)化一些目標(biāo)的同時(shí),利用計(jì)算機(jī)來(lái)分配空間。自 20 世紀(jì) 60 年代基于規(guī)則的計(jì)算機(jī)布局規(guī)劃理念初見(jiàn)端倪以來(lái),對(duì)計(jì)算機(jī)布局規(guī)劃的需求不斷增加。此后,人們?cè)谟?jì)算機(jī)布局規(guī)劃方面做了很多工作,包括一些商業(yè)化產(chǎn)品。例如,Spacemaker(
https://www.spacemakerai.com/)、Planner 5D(https://planner5d.com/)等等。這些軟件包利用數(shù)學(xué)建模、人工智能和建筑城市發(fā)展方面的技術(shù),協(xié)助建筑師設(shè)計(jì)多建筑住宅用地和高層規(guī)劃。
在空間分配和布局規(guī)劃中,人們關(guān)注的是消耗空間的物體和資源的物理位置安排。除此之外,計(jì)算機(jī)布局規(guī)劃也常應(yīng)用于室內(nèi)設(shè)計(jì)中的物體放置問(wèn)題。我們比較熟悉的有宜家開(kāi)發(fā)的 IKEA PLACE 平臺(tái),通過(guò)手機(jī)攝像頭掃描的區(qū)域內(nèi),虛擬放置公司的產(chǎn)品(Ikea apps - ikea.
https://www.ikea.com/us/en/customer-service/mobile-apps/.)。
醫(yī)院科室布局規(guī)劃是醫(yī)療機(jī)構(gòu)計(jì)算機(jī)布局規(guī)劃中的重點(diǎn)研究領(lǐng)域之一。本文重點(diǎn)討論了醫(yī)院房間內(nèi)家具、照明和門洞的擺放,目的是通過(guò)合理的規(guī)劃布局設(shè)計(jì),以降低患者跌倒的風(fēng)險(xiǎn)。
1.2 方法介紹
一個(gè)典型的單人床醫(yī)院房間由兩個(gè)子房間組成,一個(gè)是主房間,包括了病人、訪客和臨床區(qū)域。一個(gè)是浴室,包括了廁所、淋浴和洗臉池。作為本文方法的輸入, 房間邊界的幾何形狀是根據(jù)建筑學(xué)的要求確定的(本文使用的房間幾何形狀見(jiàn)圖 1)。對(duì)于每一個(gè)子房間,必須放置特定的家具物品,必須包含光源來(lái)照亮房間,必須有連接浴室與主房間的門廊和連接主房間與走廊的門廊。本文模型的目標(biāo)是對(duì)家具、光源和門廊的位置設(shè)計(jì)進(jìn)行了優(yōu)化,以降低患者跌倒的風(fēng)險(xiǎn)。
借用約束滿足問(wèn)題中的符號(hào),作者將本文方法的輸入形式化為三個(gè)集合:(1)房間的一組 n 個(gè)可變對(duì)象(如:家具、光源和門):X=;(2)為 X 中每個(gè)變量定義的一組域:D=;(3)一組定義在 X 中變量上的約束條件:C,其中,每個(gè)約束條件都可以涉及任何變量的子集。對(duì)于 X 中的每個(gè)對(duì)象 x_i,將其在醫(yī)院房間中的位置參數(shù)化為配置向量 d_i∈ D_i。然后,將整個(gè)醫(yī)院房間的布局參數(shù)化為向量 l= [(d_0)^T , (d_1)^T , ... (d_n)^T]^T ,即 X 中每個(gè)對(duì)象的配置向量的并集。本文優(yōu)化目標(biāo)是在滿足約束條件的前提下,確定醫(yī)院房間的具體布局 l,同時(shí)將「與患者跌倒風(fēng)險(xiǎn)」相關(guān)的函數(shù) l 最小化。
房間的整體跌倒風(fēng)險(xiǎn)分布是根據(jù)以前對(duì)醫(yī)院跌倒風(fēng)險(xiǎn)的研究,計(jì)算出病人的一系列外在因素的函數(shù)。該跌倒風(fēng)險(xiǎn)模型考慮了受房間內(nèi)設(shè)施位置影響的靜態(tài)和動(dòng)態(tài)因素,并提供了兩個(gè)跌倒風(fēng)險(xiǎn)評(píng)估:(1) 房間基線評(píng)估,根據(jù)以下靜態(tài)因素計(jì)算:地板類型、照明條件、門的操作、周圍物體 (如扶手、椅子、醫(yī)療架、沙發(fā)、水槽、馬桶和床) 的支撐或危險(xiǎn)作用,從而得出整個(gè)房間的風(fēng)險(xiǎn)分布。(2)基于運(yùn)動(dòng)的評(píng)估,考慮患者的步態(tài)動(dòng)態(tài)特性,如轉(zhuǎn)身角度和活動(dòng)類型,如坐到站、走、轉(zhuǎn)身、站到坐等。跌倒風(fēng)險(xiǎn)模型的完整流程見(jiàn)圖 2。
圖 2. 完整的跌倒風(fēng)險(xiǎn)模型流程圖[6]
跌倒風(fēng)險(xiǎn)模型的輸入為有關(guān)房間的細(xì)節(jié),如地板表面類型以及房間的布局,包括照明、所有物體的位置和配置以及門的位置。輸出是一個(gè)風(fēng)險(xiǎn)分布 r( l ),定義為離散化病房的網(wǎng)格圖中每個(gè)元素的值。在模型的基線層中,每個(gè)網(wǎng)格的基值為 1,然后根據(jù)距離最近的支撐物體的距離以及照明、地板、門的操作因素來(lái)更新該值。對(duì)于基于運(yùn)動(dòng)的評(píng)估,該模型使用一組預(yù)先定義的場(chǎng)景,如患者從床上到廁所的轉(zhuǎn)換,然后預(yù)測(cè)每個(gè)場(chǎng)景的物體之間的樣本軌跡。模擬軌跡所經(jīng)過(guò)的每個(gè)網(wǎng)格單元都會(huì)受到具體的模擬活動(dòng)(如坐立)和動(dòng)態(tài)因素(如角速度和轉(zhuǎn)彎角度)的影響。由于兩個(gè)目標(biāo)對(duì)象之間可能存在多個(gè)軌跡,因此模型會(huì)生成并評(píng)估模擬患者軌跡的分布。結(jié)合基線和基于運(yùn)動(dòng)的評(píng)估風(fēng)險(xiǎn)曲線,得到整個(gè)房間的跌落風(fēng)險(xiǎn)分布。為此,計(jì)算基線跌落風(fēng)險(xiǎn)因素的平均值和每個(gè)網(wǎng)格單元上鋪設(shè)的軌跡 / 活動(dòng)點(diǎn)的跌落風(fēng)險(xiǎn)。最后輸出的是每個(gè)網(wǎng)格單元的風(fēng)險(xiǎn)值。最后,可以將跌倒風(fēng)險(xiǎn)模型的輸出可視化為醫(yī)院房間布局的熱力圖,以顯示跌倒風(fēng)險(xiǎn)值的分布情況(如圖 1 所示)。
本文所使用的代價(jià)函數(shù)如下:
其中,α表示用戶指定的截止參數(shù),用于確定在分布中從哪里開(kāi)始考慮曲線尾部下的區(qū)域,具體如圖 3 所示。公式中的第三項(xiàng)表示風(fēng)險(xiǎn)值高于α的網(wǎng)格單元的集合。考慮曲線尾部下面積是財(cái)務(wù)風(fēng)險(xiǎn)管理中的常見(jiàn)做法,即所謂的條件風(fēng)險(xiǎn)值。最終的代價(jià)函數(shù)就是跌倒風(fēng)險(xiǎn)分布的中位數(shù)、平均值、標(biāo)準(zhǔn)差和最大值的函數(shù)。
圖 3. 跌倒風(fēng)險(xiǎn)分布的代價(jià)函數(shù)參數(shù),顯示中位數(shù)、最大值和高風(fēng)險(xiǎn)尾部下面積。
作者使用模擬退火來(lái)優(yōu)化 r( l )。模擬退火是一種隨機(jī)迭代優(yōu)化方法。在每次迭代時(shí),隨機(jī)生成當(dāng)前布局附近的布局,并評(píng)估其代價(jià)。如果新的布局比當(dāng)前布局有所改進(jìn),則將其更新為當(dāng)前最新布局。如果沒(méi)有改進(jìn),根據(jù) Metropolis 概率,仍然可以接受它為最新布局:
其中,k 為 Boltzman 常數(shù),T 為根據(jù)冷卻計(jì)劃隨時(shí)間衰減的溫度值,c 代表與布局相關(guān)的代價(jià)值。詳細(xì)的優(yōu)化流程見(jiàn) Algorithm 1。
在執(zhí)行優(yōu)化過(guò)程中,當(dāng)同時(shí)生成隨機(jī)的初始可行房間布局 (Alg.1 行 8) 和附近可行布局 (Alg.1 行 16,NearbyFeasLayout) 時(shí),首要保證的是這些布局是可行的,即滿足約束集 C 中所有的約束條件。在這兩種情況下,作者采用隨機(jī)抽樣與回溯的方法,在初始房間布局的生成過(guò)程中,從每個(gè)變量的域中均勻地隨機(jī)采樣。當(dāng)生成現(xiàn)有布局的附近布局時(shí),從以現(xiàn)有布局的配置為中心的正態(tài)分布中對(duì)每個(gè)變量的配置進(jìn)行采樣,并為每個(gè)變量定義標(biāo)準(zhǔn)差(Alg.1 中的σ_r)。為了確保在此過(guò)程中滿足約束條件,作者利用了回溯搜索方法?;厮菟阉鞣椒看螢橐粋€(gè)變量賦值并檢查是否滿足約束。當(dāng)一個(gè)變量賦值違反約束條件時(shí),回溯搜索方法重新采樣,當(dāng)一個(gè)變量沒(méi)有合法的值可供賦值時(shí),或者在試圖賦值該變量時(shí)發(fā)現(xiàn)已經(jīng)達(dá)到最大迭代次數(shù)或已耗費(fèi)最大時(shí)間時(shí),該方法會(huì)回溯到重新賦值之前的變量。
圖 4 給出了在醫(yī)院房間中放置一個(gè)物體時(shí)的回溯示例。在圖 4a 中,算法試圖將其中一個(gè)物體放置在浴室中,但由于前面物體的存在導(dǎo)致它無(wú)法做到這一點(diǎn)。該方法回溯并考慮更改先前放置物體的位置(圖 4b)。最后,在滿足約束條件的情況下,算法成功地將物體放置在房間里(圖 4c)。圖 5 描述了回溯算法的整體流程。
圖 4. 物品放置程序。(a) 先前放置的物體妨礙后續(xù)物體的可行放置。(b)回溯改變先前放置的對(duì)象的位置。(c) 所有物體都以滿足約束條件的方式放置。
圖 5. 回溯方法流程圖
1.3 實(shí)驗(yàn)介紹
為了評(píng)估所提出的模型的性能,作者優(yōu)化了兩種常見(jiàn)類型的醫(yī)院房間的內(nèi)部配置:內(nèi)室(Inboard rooms)和外室(Outboard rooms)。對(duì)于內(nèi)室和外室的實(shí)驗(yàn),定義 X 包括:由沙發(fā)、病床、病椅、探視椅、移動(dòng)醫(yī)療架、馬桶和水槽組成的家具;主室和衛(wèi)生間的吸頂燈;連接衛(wèi)生間與主室和主室與走廊的門。
在圖 6 和圖 7 中,作者分別展示了優(yōu)化前和優(yōu)化后具有代表性的內(nèi)室和外室房間布局,以及它們相關(guān)的跌倒風(fēng)險(xiǎn)得分熱力圖。在文章最開(kāi)始的部分展示的圖 1 中,作者也給出了類似的布局設(shè)計(jì)。作者發(fā)現(xiàn),與內(nèi)室房間相比,優(yōu)化外室房間時(shí)的成本值更低。
圖 6. 跌倒風(fēng)險(xiǎn)的房間布局評(píng)估和優(yōu)化。(a)和 (b) 為算法生成的內(nèi)室房間示意圖。(a)是初始房間布局的實(shí)例,(b)是其中一次運(yùn)行的優(yōu)化房間布局。(c)和 (d) 是跌倒風(fēng)險(xiǎn)模型評(píng)估的相應(yīng)跌倒風(fēng)險(xiǎn)熱力圖。圖 (c) 和(d)中的顏色條數(shù)值越高,說(shuō)明跌倒風(fēng)險(xiǎn)越高。
圖 7. 跌倒風(fēng)險(xiǎn)的外室房間布局評(píng)估和優(yōu)化。(a)和 (b) 為算法生成的內(nèi)室示意圖。(a)是初始房間布局的實(shí)例,(b)是其中一次運(yùn)行的優(yōu)化房間布局。(c)和 (d) 顯示了由跌倒風(fēng)險(xiǎn)模型評(píng)估的相應(yīng)跌倒風(fēng)險(xiǎn)熱力圖。顏色條上的數(shù)值越高,說(shuō)明跌倒風(fēng)險(xiǎn)越高。
2、產(chǎn)品設(shè)計(jì)中的 AI
2.1 產(chǎn)品設(shè)計(jì)中的人工智能介紹
設(shè)計(jì)思維是從最終用戶的角度創(chuàng)造創(chuàng)新產(chǎn)品的一個(gè)成熟過(guò)程,通常被稱為以用戶為中心的設(shè)計(jì)(User-centered design)或以人為中心的設(shè)計(jì)(Human-centered design)。這篇文章介紹的就是我們最熟悉的產(chǎn)品設(shè)計(jì)中的 AI[2]。盡管創(chuàng)新的設(shè)計(jì)思維具有無(wú)可爭(zhēng)議的優(yōu)點(diǎn),但是對(duì)于在線業(yè)務(wù)來(lái)說(shuō),由于與產(chǎn)品開(kāi)發(fā)過(guò)程或機(jī)器學(xué)習(xí)系統(tǒng)不兼容,目前很難在其中引入設(shè)計(jì)思維。本文的研究目的是提出一個(gè)過(guò)程框架,將設(shè)計(jì)思維與開(kāi)發(fā)過(guò)程結(jié)合起來(lái),將人融入到設(shè)計(jì)過(guò)程的循環(huán)(Loop)中。這就涉及了人機(jī)回圈問(wèn)題(Human-in-the-loop,HITL)。
人機(jī)回圈是人工智能的一個(gè)分支,它利用人類和機(jī)器智能來(lái)創(chuàng)建機(jī)器學(xué)習(xí)模型。從本質(zhì)上講,人機(jī)回圈將自動(dòng)化的問(wèn)題重新定義為了人機(jī)交互(Human-Computer Interaction,HCI)設(shè)計(jì)問(wèn)題。人機(jī)回圈將 「如何構(gòu)建一個(gè)更智能的系統(tǒng)?」 的問(wèn)題擴(kuò)大到「如何將有用的、有意義的人機(jī)交互納入系統(tǒng)中?」這種系統(tǒng)設(shè)計(jì)的目的是實(shí)現(xiàn)能夠增強(qiáng)或提高人類完成任務(wù)的能力的交互式機(jī)器學(xué)習(xí)(Interactive Machine Learning),人機(jī)回圈作為一種工具通過(guò)智能地跟蹤隨時(shí)間的變化和中間結(jié)果,可以實(shí)現(xiàn)快速迭代、快速響應(yīng)的反饋、內(nèi)省和調(diào)試以及后臺(tái)執(zhí)行和自動(dòng)化。關(guān)于人機(jī)回圈的問(wèn)題,機(jī)器之心之前有過(guò)專門的報(bào)道,感興趣的讀者可以查閱(
https://www.jiqizhixin.com/articles/2020-11-11-6)。
為什么將人機(jī)回圈整合到機(jī)器學(xué)習(xí)系統(tǒng)中變得越來(lái)越重要?其根本原因是近年來(lái)人工智能研究成果的爆炸式增長(zhǎng)導(dǎo)致人們對(duì)這些研究成果的有效性越來(lái)越懷疑。除了對(duì)再現(xiàn)性和可解釋性的關(guān)注,人們聚焦于一個(gè)新的關(guān)注點(diǎn):可控性,即需要將人整合到依賴于機(jī)器學(xué)習(xí)結(jié)果的過(guò)程中,即人機(jī)回圈。
本文所提出的過(guò)程框架應(yīng)用心理測(cè)量學(xué)來(lái)理解用戶的設(shè)計(jì)感知,為后續(xù)的設(shè)計(jì)周期生成反饋,并逐步更新機(jī)器學(xué)習(xí)模型,以適應(yīng)在線應(yīng)用中用戶偏好的快速變化。作者認(rèn)為,目前提供在線應(yīng)用的公司無(wú)法實(shí)施設(shè)計(jì)思維方法的內(nèi)在原因可能在于對(duì)設(shè)計(jì)思維過(guò)程的誤解。例如,IDEO 在 2007 年引入的斯坦福 d.school 設(shè)計(jì)思維過(guò)程[7],規(guī)定了一個(gè)由強(qiáng)調(diào)、定義、構(gòu)思、原型和測(cè)試五個(gè)過(guò)程階段組成的循環(huán)。許多公司的第一個(gè)誤解就是忽視了設(shè)計(jì)的周期性,將五個(gè)階段一次性執(zhí)行。此時(shí),最后的測(cè)試階段并不會(huì)連接到后續(xù)的學(xué)習(xí)周期。然而,周期性的特性可以很容易地通過(guò)敏捷過(guò)程(agile process)來(lái)實(shí)現(xiàn),即迭代和增量開(kāi)發(fā)過(guò)程。第二個(gè)誤解是企業(yè)沒(méi)有將設(shè)計(jì)思維作為一個(gè)迭代學(xué)習(xí)周期來(lái)實(shí)現(xiàn)。設(shè)計(jì)思維方法通常將定性用戶測(cè)試的樣本量確定為 5 到 10 人之間。由于測(cè)試階段只執(zhí)行一次,小樣本量會(huì)導(dǎo)致反饋不具代表性,因此對(duì)產(chǎn)品決策有風(fēng)險(xiǎn)。也正因?yàn)槿绱?,這些提供在線應(yīng)用的公司和企業(yè)認(rèn)為無(wú)法在其產(chǎn)品設(shè)計(jì)過(guò)程中引入設(shè)計(jì)思維方法。
2.2 方法介紹
本文提出了一個(gè)過(guò)程框架—人在學(xué)習(xí)循環(huán)(
Human-in-the-learning-loop,HILL)。如圖 8 所示,它由一個(gè)設(shè)計(jì)思維過(guò)程(Design sprint)組成,并合并到了一個(gè)敏捷開(kāi)發(fā)過(guò)程中。該過(guò)程通過(guò)對(duì)用戶反饋的定量測(cè)量來(lái)代替定性的用戶測(cè)試。這種替換能夠?yàn)楹罄m(xù)的學(xué)習(xí)周期提供可擴(kuò)展的教學(xué)反饋。
作者使用 HILL 設(shè)計(jì)周期(The HILL Design Cycles)過(guò)程取代了定性用戶測(cè)試的定量心理測(cè)量工具的設(shè)計(jì)感知。所生成的用戶反饋用于訓(xùn)練機(jī)器學(xué)習(xí)模型,并沿著四個(gè)設(shè)計(jì)維度(新穎性、能量、簡(jiǎn)單性、工具性)指導(dǎo)后續(xù)的設(shè)計(jì)周期。將四維用戶反饋映射為用戶場(chǎng)景(User stories)和優(yōu)先級(jí)(priorities),Design sprint 將用戶反饋直接轉(zhuǎn)化為實(shí)現(xiàn)過(guò)程。(Design sprint 是谷歌開(kāi)發(fā)的基于敏捷過(guò)程的設(shè)計(jì)思維方法)。
圖 8. HILL 過(guò)程框架:將最終用戶的人機(jī)回圈集成到基于機(jī)器學(xué)習(xí)的分析過(guò)程中。
對(duì)于用戶測(cè)試,團(tuán)隊(duì)首先確定公司的最終用戶池,并在設(shè)計(jì) sprint 端邀請(qǐng)?jiān)撚脩舫刂械囊徊糠钟脩魜?lái)完成在線調(diào)查。在線調(diào)查給出了在前面的設(shè)計(jì) sprint 中產(chǎn)生的新原型(參見(jiàn)圖 9)。受邀的調(diào)查參與者評(píng)估了設(shè)計(jì)感知測(cè)量工具中關(guān)于展示的新原型的 12 個(gè)項(xiàng)目。此外,調(diào)查還征求了參與者的定性反饋,例如有關(guān)功能細(xì)節(jié)的問(wèn)題等等。
敏捷過(guò)程的主要特征是迭代和增量的開(kāi)發(fā)方法。這意味著產(chǎn)品開(kāi)發(fā)過(guò)程不是像瀑布模型那樣由一系列長(zhǎng)的后續(xù)階段定義的,而是一系列稱為迭代的短時(shí)間周期。Scrum(一種最常見(jiàn)的敏捷方法)稱這些迭代為 sprint。谷歌開(kāi)發(fā)了基于敏捷過(guò)程的設(shè)計(jì)思維方法,并稱之為 Design sprint。實(shí)施團(tuán)隊(duì)可以根據(jù)客戶對(duì)上一次 sprint 結(jié)果的反饋來(lái)定義當(dāng)前 sprint 的范圍。這樣,新的范圍就會(huì)被充實(shí)到用戶場(chǎng)景(User stories)中,即從用戶角度制定的需求。所有用戶場(chǎng)景都將根據(jù)客戶反饋確定優(yōu)先級(jí)。
圖 9. 通過(guò)設(shè)計(jì)感知調(diào)查進(jìn)行用戶測(cè)試。
本文通過(guò)以下方式對(duì)設(shè)計(jì)感知調(diào)查的反饋進(jìn)行分析。根據(jù)新穎性、能量刺激性、簡(jiǎn)單性、工具創(chuàng)造性四個(gè)設(shè)計(jì)維度對(duì)用戶反饋進(jìn)行分組。對(duì)于每個(gè)設(shè)計(jì)維度,計(jì)算其綜合得分,并給出箱線圖的可視化結(jié)果(圖 10)。人機(jī)回圈部分是由人類質(zhì)控工程師來(lái)實(shí)現(xiàn)的。質(zhì)控工程師仔細(xì)檢查所接收到的用戶反饋的數(shù)據(jù)質(zhì)量,丟棄掉無(wú)效數(shù)據(jù),如異常值或包含強(qiáng)默認(rèn)偏差的反饋。這個(gè)數(shù)據(jù)清理過(guò)程對(duì)于只保留有效的新數(shù)據(jù)并將其添加到訓(xùn)練機(jī)器學(xué)習(xí)模型的數(shù)據(jù)集中是至關(guān)重要的。所得到的模型可以作為快速仿真的預(yù)訓(xùn)練模型,以支持原型決策。
圖 10. 基于設(shè)計(jì)感知分析的設(shè)計(jì)維度反饋生成與機(jī)器學(xué)習(xí)模型更新。
Design sprint 過(guò)程由四個(gè)設(shè)計(jì)維度構(gòu)成,每個(gè)設(shè)計(jì)維度對(duì)應(yīng) sprint 腳本中的一個(gè)類別(參見(jiàn)圖 11)。類別(例如簡(jiǎn)單性)對(duì)應(yīng)領(lǐng)域或業(yè)務(wù)需求的高級(jí)抽象。團(tuán)隊(duì)根據(jù)設(shè)計(jì)維度的綜合得分來(lái)分配每個(gè)類別的優(yōu)先級(jí) --- 最低的得分給出最高的優(yōu)先級(jí),因?yàn)樗沂玖俗顕?yán)重的缺陷。在設(shè)計(jì)維度的優(yōu)先級(jí)下降時(shí),團(tuán)隊(duì)決定在即將到來(lái)的 sprint 中處理哪些設(shè)計(jì)維度。對(duì)于這個(gè)決定,團(tuán)隊(duì)不必考慮實(shí)施的難易程度,因?yàn)楹笳叻从吃诤竺娴墓ぷ髁抗浪氵^(guò)程中。這意味著更容易實(shí)現(xiàn)的用戶場(chǎng)景將獲得更少的工作量估計(jì)單位,因此更可能實(shí)現(xiàn)。
團(tuán)隊(duì)為選定的設(shè)計(jì)維度編寫用戶場(chǎng)景。例如,category simplicity 中的用戶場(chǎng)景可以表述為「作為一個(gè)前端 web 用戶,我希望以盡可能少的導(dǎo)航步驟導(dǎo)航到我的個(gè)人頁(yè)面」。在編寫此類用戶場(chǎng)景時(shí),團(tuán)隊(duì)將定性用戶反饋整合到用戶場(chǎng)景的接受標(biāo)準(zhǔn)中。例如,如果用戶反饋暗示顏色不一致,那么用戶場(chǎng)景在 category simplicity 中的接受標(biāo)準(zhǔn)可以表述為「檢查所有 UI 元素是否來(lái)自相同的顏色方案」。
基于用戶場(chǎng)景,團(tuán)隊(duì)執(zhí)行敏捷工作估算過(guò)程(Agile effort estimation process),并相應(yīng)地調(diào)整 sprint 范圍。然后,執(zhí)行任務(wù)分解(task breakdown),即團(tuán)隊(duì)成員將用戶場(chǎng)景中定義的范圍分解為必須執(zhí)行的小任務(wù),以實(shí)現(xiàn)用戶場(chǎng)景。任務(wù)分解之后,回顧團(tuán)隊(duì)對(duì)當(dāng)前 sprint 范圍的理解,并結(jié)束 sprint 規(guī)劃(sprint planning)。
圖 11. 基于設(shè)計(jì)維度反饋的 Sprint Planning。
團(tuán)隊(duì)是一個(gè)自組織的團(tuán)隊(duì),它通過(guò)正常的敏捷迭代方式來(lái)執(zhí)行 Design sprint。在這個(gè)過(guò)程結(jié)束時(shí)(參見(jiàn)圖 12),團(tuán)隊(duì)會(huì)在隨后的調(diào)查中展示其設(shè)計(jì)結(jié)果,這是因?yàn)橛脩舯仨毮軌驈脑诰€的應(yīng)用顯示中發(fā)現(xiàn)并掌握應(yīng)用的新功能。這種關(guān)注需要執(zhí)行額外的活動(dòng),比如從不同的視角拍攝照片或制作效果圖,直到用戶能夠在他們的在線調(diào)查顯示中掌握到新原型的要點(diǎn)(參見(jiàn)圖 12,圖 12 中底部中間顯示的原型)。
圖 12. Design sprint 的新設(shè)計(jì)原型。
3、版面設(shè)計(jì)中的 AI
本文討論的是版面設(shè)計(jì)中視覺(jué)文本版面布局(Visual-textual presentation layouts)的自動(dòng)生成問(wèn)題[5]。隨著互聯(lián)網(wǎng)的發(fā)展,人們對(duì)社交媒體無(wú)處不在的訪問(wèn)和使用,使其創(chuàng)建和共享的富媒體(rich-media)內(nèi)容比以往任何時(shí)候都要多,無(wú)論是為了體驗(yàn)共享還是產(chǎn)品推廣。發(fā)布富媒體內(nèi)容的一個(gè)重要任務(wù)是設(shè)計(jì)一個(gè)由異構(gòu)媒體元素(例如,圖像和文本描述)組成的具有視覺(jué)吸引力的展示布局(Presentation Layout)。因此,視覺(jué)文本版面布局的設(shè)計(jì)無(wú)處不在,從現(xiàn)有的商業(yè)印刷出版物,到在線數(shù)字雜志,再到個(gè)人媒體帖子。
如圖 13 的示例。圖 13(a)給出了使用本文提出的方法自動(dòng)生成的布局,它能夠反映出真實(shí)雜志封面中使用的許多設(shè)計(jì)原則,如圖 13(b)所示。在各種視覺(jué)文本版面布局中,雜志封面體現(xiàn)了最全面的設(shè)計(jì)理念。本文提出了一個(gè)結(jié)合高級(jí)美學(xué)原則(自上而下的方式)和低級(jí)視覺(jué)特征(自下而上的方式)的版面布局計(jì)算框架。為了驗(yàn)證本文提出的框架的有效性,作者從設(shè)計(jì)師提供的復(fù)雜雜志封面中導(dǎo)出了一組模板,并將模板應(yīng)用到計(jì)算框架中以生成相應(yīng)的視覺(jué)文本布局。在本文提出的框架中,這些模板可以很容易地修改和擴(kuò)展到其他出版物中。
圖 13. 視覺(jué)文本版面展示布局示例:(a)根據(jù)本文方法自動(dòng)生成的布局和(b)真實(shí)雜志封面的布局。本文工作目標(biāo)是從給定的圖像和文本自動(dòng)創(chuàng)建一個(gè)專業(yè)的布局。
3.1 生成模板
本文首先生成了一套主題相關(guān)的模板。這些模板能夠用于在空間布局和色彩協(xié)調(diào)過(guò)程中指導(dǎo)設(shè)計(jì),從而確保令人滿意的布局性能。模板由兩個(gè)方面定義:空間布局和主題相關(guān)風(fēng)格。在空間布局中考慮了黃金分割分布的對(duì)稱和不對(duì)稱視覺(jué)平衡以及空間的藝術(shù)性,并將主題相關(guān)的字體情感、字體大小約束、語(yǔ)義色彩、色彩調(diào)和模型等融入到設(shè)計(jì)風(fēng)格中。作者將版面元素定義為 「刊頭」、「標(biāo)題」、「封面線」和「副標(biāo)題」。對(duì)于每種類型的元素,作者在圖像的百分比范圍內(nèi)預(yù)先定義一些顯示在黃色區(qū)域中的 mask 區(qū)域。在 mask 區(qū)域中考慮了空間布局的美學(xué)原則。圖 14 給出了 「時(shí)尚」 和「餐飲」主題的兩個(gè)版面模板。圖 14(b)的設(shè)計(jì)假設(shè)當(dāng)一個(gè)顯著的對(duì)象位于圖像的左下角時(shí),文本應(yīng)該被限制在預(yù)定義的區(qū)域內(nèi),這些區(qū)域引導(dǎo)文本元素按照從上到下的順序進(jìn)行展示。
圖 14. (a)「時(shí)尚」和(b)「食品和飲料」模板中的示例。每個(gè)模板都包括空間布局、字體系列、高度限制和語(yǔ)義顏色。所定義的空間布局中的文本區(qū)域可以根據(jù)圖像重要性而變化。
作者定義了 16 種常見(jiàn)的空間布局,涵蓋了 8 個(gè)最常用的主題。對(duì)于每個(gè)主題,作者設(shè)計(jì)了 20 種語(yǔ)義顏色、4 種字體情感模板和一到兩種顏色調(diào)和模型的主題相關(guān)樣式。并遵循以下幾點(diǎn)設(shè)計(jì)原則:
文本信息完整性:要使雜志封面視覺(jué)完整,文本元素不應(yīng)超出背景圖像的邊界或相互重疊。
視覺(jué)信息最大化:圖像應(yīng)調(diào)整到目標(biāo)分辨率,同時(shí)保留重要的視覺(jué)信息(即圖像區(qū)域),如人臉、文本、顯著對(duì)象、人類參與區(qū)域等。此外,嵌入的文本元素不應(yīng)遮擋顯著區(qū)域。
空間布局的合理性:要制作出自然、吸引人的雜志封面,文本元素的定位應(yīng)遵循美學(xué)原則。例如,對(duì)稱平衡遵循人類審美感知中的關(guān)鍵規(guī)則,即文本應(yīng)該放置在背景圖像的空白處。
感知一致性:重要的文本應(yīng)該以更獨(dú)特的文本大小、字體和更高的對(duì)比度顏色,在不顯著的區(qū)域中更有吸引力地顯示出來(lái)。
色彩協(xié)調(diào):從視覺(jué)感知的角度來(lái)看,文本元素的色彩應(yīng)該是和諧的、吸引人的。
文本信息的可讀性:為了使讀者一眼就能理解,需要設(shè)置適當(dāng)大小的文本元素。同時(shí),文本元素和背景圖像之間的顏色對(duì)比可以提高文本信息的可理解性。
3.2 計(jì)算框架
本文設(shè)計(jì)了一個(gè)計(jì)算框架來(lái)整合版面設(shè)計(jì)的所有關(guān)鍵元素,包括版面模板、高級(jí)美學(xué)原則(自上而下的方式)和低級(jí)圖像特征(自下而上的方式)。作者將排版問(wèn)題描述為一個(gè)模板約束的能量最小化問(wèn)題。
除了上一節(jié)中討論的預(yù)定義的布局模板外,自動(dòng)生成視覺(jué)文本布局的過(guò)程還應(yīng)該考慮到基于內(nèi)容的圖像特征(如顯著性圖)。通過(guò)結(jié)合高級(jí)模板約束和低級(jí)圖像特征,作者定義了一個(gè)計(jì)算框架,如圖 15 所示。該框架包括四個(gè)主要模塊:(i)素材生成器,用戶可以直接上傳圖片和文本,也可以對(duì)網(wǎng)頁(yè)進(jìn)行分析,獲得主要圖片和關(guān)鍵句子;(ii)圖像合成,自動(dòng)裁剪和縮放原始圖像,以匹配目標(biāo)版面大??;(iii)排版優(yōu)化,在選定版面模板的空間約束下,將文本覆蓋在調(diào)整大小的圖像上;(iv)文本顏色設(shè)計(jì),在考慮全局顏色協(xié)調(diào)和局部可讀性的情況下,以主題相關(guān)的樣式重新存儲(chǔ)文本。
圖 15. 基于主題相關(guān)模板的可視化文本版面自動(dòng)生成框架。
3.2.1 圖像合成
該算法根據(jù)目標(biāo)分辨率對(duì)原始圖像進(jìn)行裁剪和縮放,同時(shí)能夠檢測(cè)到并保存重要的區(qū)域。這些區(qū)域包含關(guān)鍵信息,如人臉、文本、突出物體和人類注意力。如圖 16 所示,作者對(duì)輸入圖像應(yīng)用顯著性檢測(cè)、OCR 和人臉檢測(cè)。相應(yīng)地,計(jì)算出顯著性、人臉、文本和注意力圖,并將視覺(jué)感知圖定義為所有圖中的最大操作。通過(guò)最大化與圖像 I 具有相同縱橫比的裁剪 mask 下重要性值實(shí)現(xiàn)從分辨率為 [w_o, h_o] 的圖像 I_o 到分辨率為 [w, h] 的圖像 I 的圖像合成,然后再將裁剪后的圖像縮放到分辨率 [w, h]。此外,在檢測(cè)側(cè)面輪廓時(shí)作者引入了注視注意力(Gaze attention),從而得到人眼在圖像上的位置和頭部的方向。然后,可以很容易地計(jì)算出注視方向,通過(guò)它我們可以估計(jì)出圖 15 所示的注視注意力圖。重要性圖定義為對(duì)顯著圖、人臉圖和文本圖的最大操作。通過(guò)對(duì)注視 - 注意力圖和重要性圖進(jìn)行 T 變換,得到了分辨率為[w, h] 的注視 - 注意力圖 I_a 和重要性圖 I_m,這對(duì)后續(xù)的排版過(guò)程是非常有用的。
3.2.2 排版
圖 16. 排版過(guò)程:(a)視覺(jué)重要性圖(灰色)與注視注意力(黃色);(b)從排名前 5 位的模板中選擇模板;(c)輸入文本;(d) 排版程序的細(xì)節(jié),其中通過(guò)迭代控制正面高度(例如,「封面線」)在次優(yōu)化解決方案中最小化定義為 E(L)的能量;(E)排版結(jié)果具有自下而上的圖像特征和自上而下的空間布局約束。
圖 16 給出了完整的排版過(guò)程。視覺(jué)文本布局的排版是將文本疊加到背景圖像上的過(guò)程。從人類的視覺(jué)感知來(lái)看,句子在圖像上的表現(xiàn)通常被視為一個(gè)文本塊。作者將此文本塊的輪廓定義為相應(yīng)句子的邊界框,參見(jiàn)圖 16 中圖像(e)的紅色矩形。作者將排版問(wèn)題描述為一個(gè)能量?jī)?yōu)化問(wèn)題,在自動(dòng)選擇模板的約束下,最小化文本疊加的代價(jià)、多余視覺(jué)空間的浪費(fèi)以及信息重要性在感知和語(yǔ)義上的不匹配程度。
3.2.3 和諧色彩設(shè)計(jì)
文本和圖形元素的色彩設(shè)計(jì)一直是創(chuàng)造高質(zhì)量視覺(jué)文本布局的一大挑戰(zhàn)。由于人們對(duì)顏色非常敏感,和諧的顏色可以產(chǎn)生一種悅目的觸感來(lái)吸引用戶的注意力,并為長(zhǎng)時(shí)間的閱讀提供良好的體驗(yàn)。和諧色彩設(shè)計(jì)的兩個(gè)要求是:1)保持文本顏色與背景圖像的整體協(xié)調(diào),2)保持文本的局部可讀性。為了滿足這些需求,作者利用設(shè)計(jì)師總結(jié)出的語(yǔ)義色彩和一些著名的色彩調(diào)和模型,在調(diào)和色彩設(shè)計(jì)中采用主題相關(guān)模板,提供了一種有效的色彩設(shè)計(jì)方法。
如圖 15 所示,從調(diào)整大小的圖像中提取調(diào)色板。調(diào)色板由七種顏色組成,其中前四種來(lái)自顯著對(duì)象,另外三種來(lái)自非顯著對(duì)象。同時(shí)通過(guò)圖像主題識(shí)別出文本的語(yǔ)義顏色,用于監(jiān)督文本顏色的生成。根據(jù)模板中主色的定義,從調(diào)色板中選擇主色。在一定的色調(diào)調(diào)和模板中,對(duì)語(yǔ)義顏色進(jìn)行迭代,計(jì)算出與主顏色的匹配分?jǐn)?shù)。提取響應(yīng)最大(匹配分?jǐn)?shù)最高)的顏色作為文本的基色。為了滿足第一個(gè)要求,作者采用「i」型色調(diào)調(diào)和模板來(lái)控制其他文本的色調(diào)。在確定每個(gè)文本的色調(diào)后,作者采用一定的色調(diào)模型來(lái)保證與背景有足夠的視覺(jué)對(duì)比度。
圖 17 演示了「時(shí)尚」主題中圖像的色彩設(shè)計(jì)過(guò)程。在「時(shí)尚」話題中,主色調(diào)被定義為最常出現(xiàn)在顯著區(qū)域的顏色。據(jù)此,選擇調(diào)色板中的第一種顏色作為主色,主色反映視覺(jué)部分中的基色。通過(guò)在本主題中應(yīng)用相似色調(diào)類型,文本元素的基色被分配給與主色具有最大匹配分?jǐn)?shù)的語(yǔ)義顏色。然后選擇調(diào)和色作為最接近主色的顏色。在雜志封面樣式的版面設(shè)計(jì)中,最顯著位置和最大允許字體大小的「刊頭」通常用于確定文本元素的基本顏色。然后將調(diào)和語(yǔ)義顏色設(shè)置為「刊頭」。以「刊頭」顏色為基礎(chǔ),通過(guò)主題相關(guān)調(diào)和模型和局部圖像特征對(duì)其他部分的文本進(jìn)行識(shí)別。首先,在「i」類型模板中設(shè)置文本的「色調(diào)」值。為了補(bǔ)償對(duì)比度與文本的本地背景,作者應(yīng)用了一個(gè)擴(kuò)展的色調(diào)模板(Tone template)。文本的色調(diào)設(shè)置為局部背景色調(diào)與飽和度在值坐標(biāo)中最遠(yuǎn)可能的相反方向之間的黃金比例點(diǎn)。
圖 17. 「時(shí)尚」主題中圖像的色彩設(shè)計(jì)程序說(shuō)明。
3.3 實(shí)驗(yàn)分析
作者在實(shí)驗(yàn)中選擇了兩個(gè)對(duì)比基線方法:MM12 和 IUI13。MM12 提供了一個(gè)半自動(dòng)化系統(tǒng),這樣一旦設(shè)計(jì)師為雜志設(shè)計(jì)了一種風(fēng)格,就可以基于一組內(nèi)容圖像特征自動(dòng)生成文章版面[8]。IUI13 則是一個(gè)雜志封面自動(dòng)設(shè)計(jì)推薦系統(tǒng)[9]。作者表示由圖 18 可以看出,本文方法的效果優(yōu)于 MM12 和 IUI13。這是由于對(duì)于每個(gè)主題,我們都提供了專門的空間布局模板和主題樣式,這有助于生成更令人愉悅的視覺(jué)文本布局。
圖 18. 與以往工作的實(shí)驗(yàn)對(duì)比。(a) 和(b)分別由 MM'12 和 IUI'13 部分的重新實(shí)現(xiàn)生成。本文方法結(jié)果如(c)所示,該結(jié)果看起來(lái)自然而專業(yè),空間布局平衡,色彩和諧。(d) 由從未見(jiàn)過(guò)我們提出的視覺(jué)文本布局的招募而來(lái)的設(shè)計(jì)師手工設(shè)計(jì)。
此外,作者在論文中還給出了從測(cè)試參與者那里得到的反饋。作者表示,這些參與者在評(píng)論本文方法生成的排版結(jié)果時(shí)說(shuō):「令人驚訝的是,自動(dòng)生成的版面看起來(lái)如此接近于設(shè)計(jì)師制作的雜志封面和真實(shí)的雜志封面?!埂敢恍┙Y(jié)果似乎就是設(shè)計(jì)師做的?!顾麄冋J(rèn)為我們生成的版面中文字顏色好看,整體與圖像和諧?!笗r(shí)尚主題的襯線字體看起來(lái)非常和諧。」這些參與者也給出了一些建議,例如應(yīng)該給「刊頭」更多的靈活性。此外,他們還建議,如果能夠控制每個(gè)字符的字體大小,效果可能會(huì)更好。由此,作者表示在后續(xù)工作中,會(huì)考慮將本文方法擴(kuò)展到其他類型的媒體中,如海報(bào),以使文本元素在空間上更加靈活。
4、電路設(shè)計(jì)中的 AI
這篇文章關(guān)注的是電路設(shè)計(jì)中的 AI 問(wèn)題[4]?;旌闲盘?hào)集成電路無(wú)處不在。雖然目前可以用成熟的 VLSI CAD 工具來(lái)輔助數(shù)字信號(hào)的設(shè)計(jì),但模擬信號(hào)設(shè)計(jì)還是要依靠有經(jīng)驗(yàn)的人類專家來(lái)完成。經(jīng)驗(yàn)豐富的專家或者設(shè)計(jì)師可以借助學(xué)習(xí)型的自動(dòng)化工具來(lái)進(jìn)行設(shè)計(jì),但是,由于設(shè)計(jì)流程冗長(zhǎng)復(fù)雜,即使對(duì)于他們來(lái)說(shuō),借助工具進(jìn)行設(shè)計(jì)也不是一件容易的事情。設(shè)計(jì)人員需要首先對(duì)拓?fù)浣Y(jié)構(gòu)進(jìn)行分析,并推導(dǎo)出性能指標(biāo)的計(jì)算公式。由于模擬電路具有高度非線性的特性,所以在拓?fù)浞治鲞^(guò)程中需要進(jìn)行大量的簡(jiǎn)化和近似處理。在得到全部計(jì)算公式 / 方程的基礎(chǔ)上,計(jì)算出初始值。然后,再進(jìn)行大量的仿真、參數(shù)微調(diào),以滿足性能指標(biāo)的要求,最終輸出設(shè)計(jì)結(jié)果。由于設(shè)計(jì)空間大、仿真工具運(yùn)行速度慢、不同性能指標(biāo)之間的權(quán)衡處理復(fù)雜,整個(gè)過(guò)程會(huì)非常耗費(fèi)人力和時(shí)間。近年來(lái),晶體管自動(dòng)定型(Automatic transistor sizing)引起了越來(lái)越多關(guān)注。目前,主要研究?jī)?nèi)容都集中于在單個(gè)電路上確定晶體管的尺寸。關(guān)于探索將電路設(shè)計(jì)的知識(shí)或方案從一種拓?fù)浣Y(jié)構(gòu)轉(zhuǎn)移到另一種拓?fù)浣Y(jié)構(gòu),或從一種技術(shù)節(jié)點(diǎn)轉(zhuǎn)移到另一種技術(shù)節(jié)點(diǎn)以減少設(shè)計(jì)開(kāi)銷的研究則非常有限。
受強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)的遷移學(xué)習(xí)能力啟發(fā),本文提出了一種能夠?qū)崿F(xiàn)知識(shí)遷移的電路設(shè)計(jì)方法(GCN-RL Circuit Designer),如圖 19 所示。首先在電路上訓(xùn)練一個(gè) RL agent,然后應(yīng)用相同的 agent 在新的技術(shù)節(jié)點(diǎn) / 拓?fù)浣Y(jié)構(gòu)上對(duì)新的電路或相同的電路進(jìn)行大小調(diào)整。這樣一來(lái),就可以在不從頭設(shè)計(jì)的情況下降低仿真成本。
電路也可以看作是一個(gè)圖,受此啟發(fā),作者在優(yōu)化循環(huán)中利用拓?fù)鋱D,可以使優(yōu)化循環(huán)過(guò)程并不是黑盒。為了充分利用電路的拓?fù)鋱D信息,作者提出給 RL agent 配備一個(gè)圖卷積神經(jīng)網(wǎng)絡(luò) (Graph Convolutional Neural Network,GCN) 來(lái)處理電路中元件之間的連接關(guān)系。作者表示,本文是第一個(gè)利用 GCN 的 RL 在不同的技術(shù)節(jié)點(diǎn)和不同的拓?fù)浣Y(jié)構(gòu)之間進(jìn)行知識(shí)轉(zhuǎn)移的工作。
圖 19. 基于圖卷積神經(jīng)網(wǎng)絡(luò)的自動(dòng)晶體管尺寸強(qiáng)化學(xué)習(xí)。
4.1 方法分析
作者將模擬電路拓?fù)浣Y(jié)構(gòu)固定的晶體管尺寸問(wèn)題表述為一個(gè)邊界約束的優(yōu)化。
其中, x 為參數(shù)向量,n 為搜索的參數(shù)數(shù)目,D^n 為設(shè)計(jì)空間,優(yōu)化目標(biāo)為效益圖(Figure of Merits, FoM)。作者將 FoM 定義為歸一化性能指標(biāo)的加權(quán)總和:
其中,m_i 為測(cè)得的性能指標(biāo),(m_i)^min 和(m_i)^max 為預(yù)先定義的歸一化因子,用于對(duì)性能指標(biāo)進(jìn)行歸一化處理,以保證其滿足取值范圍要求。(m_i)^bound 是預(yù)先定義的性能上界。w_i 是調(diào)整第 i 個(gè)性能指標(biāo)重要性的權(quán)重。對(duì)于一些電路基線,存在著必須要滿足的性能規(guī)范(Performance specification,spec),如果不滿足這些規(guī)范,則給 FoM 賦負(fù)值。
完整的方法框架如圖 20 所示。在每一次迭代中,(1) 將電路拓?fù)淝度氲揭粋€(gè)圖中,圖中節(jié)點(diǎn)是元件,邊是導(dǎo)線;(2) 電路環(huán)境為每個(gè)晶體管生成一個(gè)狀態(tài)向量,并將帶有狀態(tài)向量的圖 (帶有圓圈節(jié)點(diǎn)的圖) 傳遞給 RL agent;(3) RL agent 處理圖中的每個(gè)節(jié)點(diǎn),并為每個(gè)節(jié)點(diǎn)生成一個(gè)動(dòng)作向量。然后,agent 將帶有節(jié)點(diǎn)動(dòng)作向量的圖 (指帶有方形頂點(diǎn)的圖) 傳遞給電路環(huán)境;(4) 電路環(huán)境將動(dòng)作規(guī)范化為參數(shù),并對(duì)其進(jìn)行細(xì)化處理;(5)模擬電路;(6)計(jì)算 FoM 值并反饋給 RL agent 更新策略。
圖 20. 方法框架圖。
本文使用 actor-critic RL agent。critic 可以被認(rèn)為是電路模擬器的一個(gè)可區(qū)分模型。agent 根據(jù)模型尋找性能最優(yōu)的點(diǎn)。
狀態(tài)空間(State Space)。RL agent 逐個(gè)組件處理電路圖。對(duì)于拓?fù)鋱D G 中具有 n 個(gè)元件的電路,第 k 個(gè)元件的狀態(tài) s_k 定義為:s_k=(k, t, h),其中 k 是晶體管指數(shù)的 one-hot 表示,t 是元件類型的 one-hot 表示,h 是元件的選定模型特征向量,它進(jìn)一步區(qū)分不同的元件類型。對(duì)于 NMOS 和 PMOS,使用的模型參數(shù)是 V_sat, V_th0, V_fb, μ_0 和 U_c。對(duì)于電容和電阻,將模型參數(shù)設(shè)置為 0。例如,對(duì)于一個(gè)有四個(gè)不同種類(NMOS、PMOS、R、C)的十個(gè)元件和一個(gè)五維模型特征向量的電路,第三個(gè)元件(一個(gè) NMOS 晶體管)的狀態(tài)向量為:
對(duì)于觀測(cè)向量 s_k 中的每一個(gè)維度,我們通過(guò)不同分量的平均值和標(biāo)準(zhǔn)差對(duì)它們進(jìn)行歸一化處理。
動(dòng)作空間(Action Space)。由于搜索所需的參數(shù)不一樣,所以不同類型的組件的動(dòng)作向量也不一樣。對(duì)于第 k 個(gè)元件,如果是 NMOS 或 PMOS 晶體管,其動(dòng)作矢量擬定為(a_k)^MOS =(W, L, M),其中 W 和 L 為晶體管柵極的寬度和長(zhǎng)度,M 為復(fù)用器。對(duì)于電阻器,其動(dòng)作矢量公式為:(a_k)^R = (r)。其中,r 為電阻值。對(duì)于電容器,其動(dòng)作矢量公式為:(a_k)^C = (c)。其中,c 為電容值。作者使用一個(gè)連續(xù)的動(dòng)作空間來(lái)確定晶體管的尺寸,這是由于使用離散動(dòng)作空間會(huì)失去相對(duì)順序信息同時(shí)離散空間過(guò)大。
獎(jiǎng)勵(lì)(Reward)。獎(jiǎng)勵(lì)是 FoM。它是歸一化性能指標(biāo)的加權(quán)和。在默認(rèn)設(shè)置中,所有的指標(biāo)都是同等權(quán)重的。
為了將圖鄰接信息嵌入到優(yōu)化循環(huán)中,作者利用 GCN 來(lái)處理 RL agent 中的拓?fù)鋱D。如圖 21 所示,一個(gè) GCN 層通過(guò)聚合來(lái)自其鄰居節(jié)點(diǎn)的特征向量來(lái)計(jì)算每個(gè)晶體管的隱藏表示。如果堆疊多個(gè) GCN 層,一個(gè)節(jié)點(diǎn)就可以接收到距離很遠(yuǎn)的節(jié)點(diǎn)的信息。在本文框架中,作者應(yīng)用了 7 個(gè) GCN 層,以確保最后一層在整個(gè)拓?fù)鋱D上有一個(gè)全局接受場(chǎng)。
GCN 層可以表述為:
拓?fù)鋱D G 的鄰接矩陣(A)加單位矩陣(I_N)
一個(gè)特定層的可訓(xùn)練權(quán)重矩陣,與圖 21 中共享權(quán)重相呼應(yīng)
圖 21. 多層 GCN 的強(qiáng)化學(xué)習(xí) agent。
actor 和 critic 模型的架構(gòu)略有不同(圖 21)。actor 的第一層是所有組件共享的 FC 層。critic 的第一層是一個(gè)共享的 FC 層,有一個(gè)特定組件的編碼器來(lái)編碼不同的動(dòng)作。actor 的最后一層有一個(gè)組件特定的解碼器來(lái)解碼不同動(dòng)作的隱藏激活,而 critic 有一個(gè)共享的 FC 層來(lái)計(jì)算預(yù)測(cè)的獎(jiǎng)勵(lì)值。作者設(shè)計(jì)這些特定的編碼器 / 解碼器層是因?yàn)椴煌慕M件有不同類型的動(dòng)作(參數(shù))。actor 最后一層的輸出是每個(gè)組件的預(yù)設(shè)參數(shù)向量,范圍為[-1, 1]。作者對(duì)它們進(jìn)行去歸一化和細(xì)化處理,以得到最終的參數(shù)。
關(guān)于技術(shù)節(jié)點(diǎn)間的遷移問(wèn)題,如圖 22 所示,專家或設(shè)計(jì)工程師首先從一個(gè)節(jié)點(diǎn)中繼承拓?fù)浣Y(jié)構(gòu)并計(jì)算初始參數(shù),然后反復(fù)調(diào)整參數(shù)、仿真并分析性能。本文方法可以將這一過(guò)程自動(dòng)化,在一個(gè)技術(shù)節(jié)點(diǎn)上訓(xùn)練一個(gè) RL agent,然后憑借不同技術(shù)節(jié)點(diǎn)之間相似的設(shè)計(jì)原理,直接應(yīng)用訓(xùn)練好的 agent 去搜索不同技術(shù)節(jié)點(diǎn)下的同一電路。
關(guān)于拓?fù)溟g的遷移問(wèn)題。如果不同的拓?fù)浣Y(jié)構(gòu)具有相似的設(shè)計(jì)原理,也可以在不同的拓?fù)浣Y(jié)構(gòu)之間進(jìn)行知識(shí)轉(zhuǎn)移,比如兩級(jí)跨阻放大器和三級(jí)跨阻放大器之間。修改 GCN 中的狀態(tài)向量,將 k 修改為一維索引值(one-dimension index value),而不是 one-hot 索引向量(one-hot index vector)。這樣一來(lái),在不同的拓?fù)浣Y(jié)構(gòu)中,每個(gè)分量的狀態(tài)向量的維度保持不變。
圖 22. 知識(shí)遷移。
4.2 實(shí)驗(yàn)分析
作者通過(guò)實(shí)驗(yàn)證明了本文方法實(shí)現(xiàn) Three-TIA 上技術(shù)節(jié)點(diǎn)之間的知識(shí)遷移。作者將在 180nm 上學(xué)到的設(shè)計(jì)遷移到 45nm、65nm、130nm 和 250nm 上,學(xué)習(xí)曲線見(jiàn)圖 23。agent 在 180nm 上進(jìn)行訓(xùn)練,并遷移到較大的節(jié)點(diǎn) 250nm 和較小的節(jié)點(diǎn) 130nm、65nm 和 45nm 中,以驗(yàn)證其廣泛的有效性。經(jīng)過(guò) 100 個(gè)熱身步驟后,有知識(shí)遷移的 FoM 迅速增加,最后收斂在比沒(méi)有知識(shí)遷移更高的水平。
為了驗(yàn)證將所學(xué)的知識(shí)從一種拓?fù)浣Y(jié)構(gòu)遷移到另一種拓?fù)浣Y(jié)構(gòu)的能力,作者選擇了 Two-TIA 和 Three-TIA,因?yàn)樗鼈兌际强缱杩狗糯笃?,因此有一些共同的知識(shí),學(xué)習(xí)曲線見(jiàn)圖 24。GCN-RL 一直比 NG-RL(即 non-GCN RL,未使用 GCN 的 RL)得到了更高的 FoM。在沒(méi)有 GCN 的情況下,NG-RL 的 FoM 與沒(méi)有遷移的方法勉強(qiáng)處于同一水平,這說(shuō)明使用 GCN 從圖中提取知識(shí)是至關(guān)重要的,GCN 提取的圖信息有助于提高知識(shí)遷移性能。
圖 23. Three-TIA 上技術(shù)節(jié)點(diǎn)之間的知識(shí)遷移。將在 180nm 上學(xué)到的設(shè)計(jì)轉(zhuǎn)移到 45nm、65nm、130nm 和 250nm 上。
圖 24. Two-TIA 和 Three-TIA 之間的知識(shí)遷移。
5、文章小結(jié)
設(shè)計(jì)是一種有目標(biāo)有計(jì)劃的進(jìn)行技術(shù)性的創(chuàng)作與創(chuàng)意活動(dòng),所以設(shè)計(jì)是一種與人類抽象思維能力高度相關(guān)的任務(wù),在設(shè)計(jì)中引入人工智能就更具挑戰(zhàn)。
我們?cè)谶@篇文章中具體探討了人工智能在結(jié)構(gòu)設(shè)計(jì)、產(chǎn)品設(shè)計(jì)、電路設(shè)計(jì)、排版版面設(shè)計(jì)中的應(yīng)用。其中,結(jié)構(gòu)設(shè)計(jì)和電路設(shè)計(jì)中的應(yīng)用方法較為相似,都是將設(shè)計(jì)問(wèn)題轉(zhuǎn)化為數(shù)學(xué)問(wèn)題,然后對(duì)數(shù)學(xué)中的離散或連續(xù)變量進(jìn)行建模并分析。排版版面設(shè)計(jì)任務(wù)與文本識(shí)別、圖像合成高度相關(guān),主要是通過(guò)套用模板、設(shè)計(jì)色彩實(shí)現(xiàn)排版。產(chǎn)品設(shè)計(jì)則是指應(yīng)用心理測(cè)量學(xué)來(lái)理解用戶的設(shè)計(jì)感知,為后續(xù)的設(shè)計(jì)周期生成反饋,并逐步更新機(jī)器學(xué)習(xí)模型以適應(yīng)在線應(yīng)用中用戶偏好的快速變化的設(shè)計(jì)過(guò)程。
在設(shè)計(jì)中引入人工智能,能夠利用人工智能的記憶能力、學(xué)習(xí)能力、計(jì)算能力不斷地探索并找到最佳的設(shè)計(jì)方案。如何更合理地對(duì)設(shè)計(jì)問(wèn)題進(jìn)行建模和分析,如何根據(jù)不同設(shè)計(jì)問(wèn)題的特點(diǎn)找到最適合的 AI 方法,還有待更深入的研究和探討。
【本文參考引用的文獻(xiàn)】
[1] Chaeibakhsh S , Novin R S , Hermans T , et al. Optimizing Hospital Room Layout to Reduce the Risk of Patient Falls, 2021. https://arxiv.org/pdf/2101.03210.pdf.
[2] Chaehan So. Human-in-the-Loop Design Cycles – A Process Framework that Integrates Design Sprints, Agile Processes, and Machine Learning with Humans. The first International Conference on Artificial Intelligence in HCI 2020. https://arxiv.org/ftp/arxiv/papers/2003/2003.05268.pdf.
[3] Wang Hanrui, Yang Jiacheng, et al. Learning to Design Circuits NIPS‘18 .https://arxiv.org/pdf/1812.02734.pdf.
[4] Wang, Hanrui, Wang, Kuan, et al. GCN-RL Circuit Designer: Transferable Transistor Sizing with Graph Neural Networks and Reinforcement Learning. The 57th Design Automation Conference (DAC) 2020. https://hanlab.mit.edu/projects/gcnrl/
[5] Yang Xuyong, Mei Tao. Automatic Generation of Visual-Textual Presentation Layout. ACM Transactions on Multimedia Computing, Communications, and Applications, Volume 12, Issue 2. https://dl.acm.org/doi/10.1145/2818709.
[6] Novin, R. S., Taylor, E., Hermans, T., and Merryweather, A. (2020). Development of a novel computational model
for evaluating fall risk in patient room design. HERD: Health Environments Research & Design Journal.
[7] EO: IDEO Human-Centered Design Toolkit. 2nd Edition, (2008). https://doi.org/10.1002/ejoc.201200111.
[8] Mikko Kuhna, Ida-Maria Kivel¨ a, and Pirkko Oittinen. 2012. Semi-automated Magazine Layout Using Content-based Image Features. In Proceedings of the 20th ACM international conference on Multimedia (MM’12). ACM, ACM, New York, NY, USA, 379–388.
[9] Ali Jahanian, Jerry Liu, Qian Lin, Daniel Tretter, Eamonn O’Brien-Strain, Seungyon Claire Lee, Nic Lyons, and Jan Allebach. 2013. Recommendation System for Automatic Design of Magazine Covers. In Proceedings of International Conference on Intelligent User Interfaces. ACM, 95–106.
分析師介紹:
本文作者為仵冀穎,工學(xué)博士,畢業(yè)于北京交通大學(xué),曾分別于香港中文大學(xué)和香港科技大學(xué)擔(dān)任助理研究員和研究助理,現(xiàn)從事電子政務(wù)領(lǐng)域信息化新技術(shù)研究工作。主要研究方向?yàn)槟J阶R(shí)別、計(jì)算機(jī)視覺(jué),愛(ài)好科研,希望能保持學(xué)習(xí)、不斷進(jìn)步。
熱門資訊
1. 照片變漫畫(huà)效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫(huà)效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
2. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
3. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
5. Logo Diffusion——基于sd繪畫(huà)模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
6. 零基礎(chǔ)10分鐘生成漫畫(huà),教大家如何用AI生成自己的漫畫(huà)
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫(huà)。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫(huà)作品。讓...
7. AI顯卡繪畫(huà)排行榜:4090無(wú)懸念,最具性價(jià)比出人意料
在AI繪圖領(lǐng)域,Stable Diffusion的顯卡繪圖性能備受關(guān)注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價(jià)比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫(huà)的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫(huà)軟件,提供詳細(xì)操作!有需要的快來(lái)...
10. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒(méi)聽(tīng)過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
最新文章
同學(xué)您好!