国产精品另类激情久久久免费_国产激情久久久久影院小草_洗澡被公强奷30分钟视频_精品人妻无码区二区三区_人人爽人人澡人人人妻

歡迎訪問易龍三維科技官網(wǎng),專注研發(fā)數(shù)碼打印機(jī)20年!
全國咨詢熱線:400-8316492
聯(lián)系我們
400-8316492

手機(jī):13823737137

郵箱:3485053954@qq.com

QQ:3485053954

地址:深圳市龍崗區(qū)橫坪公路89號(hào)數(shù)字硅谷E棟4樓

當(dāng)前位置:首頁 > 行業(yè)新聞 > 公司動(dòng)態(tài)

SIGIR 2022 | 多場(chǎng)景多任務(wù)優(yōu)化在支付寶數(shù)字金融搜索的應(yīng)用

時(shí)間:2025-01-12 03:44:01 作者:147小編 點(diǎn)擊:

undefined
undefined
undefined
undefined
undefined

undefined

 

設(shè)備之心專欄

設(shè)備之心編輯部

本文是螞蟻集團(tuán)和武漢大學(xué)一起提出的, 一種面向多場(chǎng)景多任務(wù)優(yōu)化的自動(dòng)稀疏專家選取辦法。論文題目為《Automatic Expert Selection for Multi-Scenario and Multi-Task Search》,它經(jīng)過簡(jiǎn)潔有效的架構(gòu),實(shí)現(xiàn)了樣本級(jí)細(xì)顆粒度的自動(dòng)網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),對(duì)各樣場(chǎng)景結(jié)構(gòu)有較強(qiáng)的普適性。論文已被 SIGIR2022 錄用,同期已然在支付寶數(shù)金搜索場(chǎng)景上進(jìn)行了全流量推全,得到明顯的業(yè)務(wù)效果。

1、業(yè)務(wù)背景和問題

支付寶數(shù)金搜索是財(cái)富、保險(xiǎn)等多個(gè)業(yè)務(wù)的重要流量入口。其搜索場(chǎng)景入口如下:

圖 1:數(shù)金搜索場(chǎng)景各個(gè)入口和詳情頁實(shí)例。

因?yàn)?/span>業(yè)務(wù)種類與目的的豐富性,數(shù)金搜索較通常的垂類搜索面臨更加多的挑戰(zhàn)。以基金搜索為例,它包括

多入口場(chǎng)景:主搜(即支付寶首頁頂端的搜索框,包括小程序, 生活號(hào),理財(cái)?shù)葍?nèi)容)理財(cái) TAB(指支付寶下方第二個(gè) tab 理財(cái)?shù)乃阉骺?,又叫垂搜,專注于?shù)金服務(wù),如理財(cái)和保險(xiǎn))多種卡片:區(qū)別的搜索詞類型會(huì)觸發(fā)區(qū)別的搜索卡片,例如:熱門基金:指用戶搜索 “基金”,“股票基金” 等品類詞時(shí),會(huì)展示類似舉薦規(guī)律的 “熱門基金” 卡。基金制品:指搜索精細(xì)制品名,或板塊詞(如新能源,白酒基金等),會(huì)展示 “基金制品” 卡。多維度目的:點(diǎn)擊 (PVCTR)、購買轉(zhuǎn)化 (CTCVR),且用戶交互行徑相對(duì)電商更加繁雜,決策周期更長。

在單場(chǎng)景上進(jìn)行分別迭代,帶來了巨大的守護(hù)成本;同期,各個(gè)場(chǎng)景都比較重要但又有很強(qiáng)差異。主搜流量大,用戶新,但成交相對(duì)稀疏。理財(cái) TAB (指垂搜),流量較小,但成交金額是主搜的 3.96 倍,且用戶多為資深用戶。有部分用戶會(huì)同期運(yùn)用主搜和垂搜,倘若用戶行徑信號(hào)不可實(shí)現(xiàn)遷移,較難得到滿意的線上效果。因此呢,在多個(gè)場(chǎng)景運(yùn)用統(tǒng)一模型是非常必要且急迫的。

然則,將所有線上樣本進(jìn)行混合,直接運(yùn)用 hard embedding sharing 的網(wǎng)絡(luò)結(jié)構(gòu)帶來了比較嚴(yán)重的負(fù)遷移問題。經(jīng)過近一年來從 MMOE, PLE 等辦法的應(yīng)用和科研,并調(diào)研了 STAR 等多場(chǎng)景辦法咱們提出了一種新穎的,基于自動(dòng)專家選取的多場(chǎng)景多任務(wù)搜索框架(AESM^2,Automatic Expert Selection for Multi-Scenario and Multi-Task Search 下文簡(jiǎn)叫作 AESM)。

AESM 用一個(gè)框架,并以相同的視角同期處理多場(chǎng)景和多任務(wù)問題,它經(jīng)過簡(jiǎn)潔有效的架構(gòu),實(shí)現(xiàn)樣本級(jí)細(xì)顆粒度的網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí),如下圖所示。值得重視,該辦法不僅可應(yīng)用于搜索,還能應(yīng)用到其他多場(chǎng)景多任務(wù)的算法場(chǎng)景。

將 AESM 模型安排在數(shù)金搜索的四個(gè)子場(chǎng)景中,相針對(duì)各個(gè)各場(chǎng)景中單獨(dú)安排的模型取得了明顯提高。相針對(duì)基線模型,CTR 整體提高 0.10%、 CTCVR 提高 2.51%,成交 GMV 提高 7.21%。仔細(xì)的數(shù)據(jù)分析可見后續(xù)章節(jié)。

2、多場(chǎng)景和多任務(wù)學(xué)習(xí)狀況

多任務(wù)算法(MTL)和多場(chǎng)景學(xué)習(xí)(MSL)在學(xué)術(shù)界和工業(yè)界被廣泛的科研和應(yīng)用,經(jīng)過多任務(wù)聯(lián)合訓(xùn)練提高應(yīng)用效果,如 ESMM、MMoE、PLE 等。但它們直接思慮多場(chǎng)景 + 多任務(wù)的狀況。且 PLE 的場(chǎng)景 / 任務(wù)間的繁雜相關(guān),需要經(jīng)過人工指定網(wǎng)絡(luò)結(jié)構(gòu)來適配。

多場(chǎng)景學(xué)習(xí)旨在處理多個(gè)相同的任務(wù)標(biāo)簽,且空間結(jié)構(gòu)類似的場(chǎng)景。例如 STAR [19] 嘗試經(jīng)過星型拓?fù)?span style="color: green;">捕捉場(chǎng)景關(guān)聯(lián)性,其中包含共享中心參數(shù)和場(chǎng)景特定參數(shù),預(yù)設(shè)了各個(gè)場(chǎng)景是扁平的,并無無層級(jí)關(guān)系。其他科研 [8, 15] 闡述了將多場(chǎng)景問題做為一個(gè)多任務(wù)學(xué)習(xí)問題,但這些工作都需要足夠的行業(yè)知識(shí)來設(shè)計(jì)網(wǎng)絡(luò)結(jié)構(gòu)。

與 MSL 區(qū)別,多任務(wù)學(xué)習(xí)側(cè)重于建模任務(wù)間關(guān)聯(lián)性和區(qū)別 。例如,CTR 預(yù)測(cè)和 CVR 預(yù)測(cè) [8, 12] 和信用危害預(yù)測(cè) & 信用額度設(shè)置 [9]。下面是幾種平常處理多任務(wù)的辦法

硬參數(shù)共享 (hard emb sharing)[1] 是最簡(jiǎn)單的模型,它經(jīng)過共享底層學(xué)習(xí)內(nèi)在關(guān)聯(lián)性。然而,它們飽受 “蹺蹺板現(xiàn)象”[20]—— 一項(xiàng)任務(wù)的改進(jìn)常常引起其他有些任務(wù)的性能退化。MMOE 經(jīng)過 gate 門控機(jī)制對(duì)各個(gè)專家 (experts) 進(jìn)行組合,但各個(gè)專家之間是無交互的,且不具備稀疏性,所有的任務(wù)都會(huì)運(yùn)用所有的專家,這使得模型規(guī)模變大后,推理性能下降顯著。PLE [20] 采用漸進(jìn)式路由機(jī)制并將 experts 分配給共享和特定的任務(wù),這緩解了舉薦系統(tǒng)中的蹺蹺板現(xiàn)象,然則它需要人工指定所有的網(wǎng)絡(luò)結(jié)構(gòu),如哪個(gè)專家是獨(dú)享或共享的,就地景和任務(wù)關(guān)系繁雜時(shí),這是比較繁雜的。

綜上,現(xiàn)有辦法的問題是:

只關(guān)注單場(chǎng)景下的多任務(wù)學(xué)習(xí) (SSL&MTL), 或純粹的多場(chǎng)景模型 (MSL&STL)。直接思慮多場(chǎng)景 + 多任務(wù)的狀況。這就引起了這類場(chǎng)景豐富的上下文信息,會(huì)受到蹺蹺板和負(fù)遷移影響。為每一個(gè)場(chǎng)景 / 任務(wù)研發(fā)模型,研發(fā)守護(hù)成本都會(huì)大大增多。場(chǎng)景 / 任務(wù)間存在相關(guān)和區(qū)別,而以往的模型都經(jīng)過人工指定網(wǎng)絡(luò)結(jié)構(gòu)來適配。但這需要海量的實(shí)驗(yàn)和人工調(diào)參,是不是存在簡(jiǎn)單有效的自動(dòng)專家網(wǎng)絡(luò)選取?

咱們將從這幾種網(wǎng)絡(luò)的優(yōu)點(diǎn)和劣勢(shì)總結(jié)如下:

3、算法方法設(shè)計(jì)

挑戰(zhàn):各場(chǎng)景存在很強(qiáng)的差異

咱們能夠將基金場(chǎng)景抽象成如下樹狀結(jié)構(gòu),分別是場(chǎng)景層,卡片層和任務(wù)層。

場(chǎng)景層重點(diǎn)是人群間差異。垂搜流量和成交顯著比主搜更大,專業(yè)用戶更加多,但交集用戶較少。卡片層重點(diǎn)存在 Query 差異性,其原由是搜索 query 觸發(fā)規(guī)律區(qū)別,搜 "基金","股票型基金" 等泛品類詞會(huì)觸發(fā)熱門基金卡片,而其他基金詞則會(huì)觸發(fā)基金制品卡。任務(wù)層重點(diǎn)存在任務(wù)間差異。基金購買是重決策過程,用戶會(huì)反復(fù)對(duì)比多只制品,且購后都會(huì)反復(fù)搜索和點(diǎn)擊,關(guān)注價(jià)格走勢(shì)和其他信息。點(diǎn)擊和轉(zhuǎn)化率皮爾遜關(guān)聯(lián)性較低。

圖 3:真實(shí)業(yè)務(wù)中繁雜的場(chǎng)景和層級(jí)帶來的遷移困難

運(yùn)用 PLE 訓(xùn)練統(tǒng)一數(shù)據(jù) + 模型,其效果不如在各個(gè)場(chǎng)景上獨(dú)立訓(xùn)練的 PLE 模型,存在必定的蹺蹺板效應(yīng)。因此呢,怎樣設(shè)計(jì)一個(gè)統(tǒng)一模型來處理多場(chǎng)景和多任務(wù)?怎樣自動(dòng)學(xué)習(xí)場(chǎng)景任務(wù)間的相關(guān),并使得各個(gè)場(chǎng)景都有正向收益?

整體模型結(jié)構(gòu)

咱們針對(duì)如上的場(chǎng)景樹結(jié)構(gòu),構(gòu)建多層堆疊的,結(jié)構(gòu)類似的 AESM 網(wǎng)絡(luò)。在下圖中實(shí)例中,真實(shí)場(chǎng)景中的場(chǎng)景層 / 卡片層 / 任務(wù)層,都由兩層 AES 層來堆疊建模。

圖 5:AESM 主結(jié)構(gòu)圖

AESM 將多場(chǎng)景和多任務(wù)問題視為同一問題,并采用分層架構(gòu)將它們?nèi)诤系揭粋€(gè)統(tǒng)一的框架中。與 PLE 區(qū)別,AESM 利用通用且靈活的架構(gòu), 分別進(jìn)行區(qū)別場(chǎng)景和任務(wù)下,設(shè)置共享和獨(dú)享的專家。

如下圖 c 所示,上面區(qū)別顏色的 E 表率專家被區(qū)別的任務(wù)所運(yùn)用: E1, E2 被 A 任務(wù)運(yùn)用, E2 和 En 被 B 任務(wù)運(yùn)用。E2 為 share 專家,其他為 specific 專家。

為了簡(jiǎn)化,咱們首要介紹單獨(dú)的多場(chǎng)景 / 多任務(wù)層,并討論怎樣做自動(dòng)專家選取;后續(xù)再討論擁有多層任務(wù)設(shè)置的狀況。

共享嵌入層

與其他模型類似,咱們設(shè)計(jì)了共享嵌入層,將底部的類別和數(shù)值特征轉(zhuǎn)換為連續(xù)的特征向量。假設(shè)有 組特征,例如,用戶特征(如年齡、性別)、物品特征(如價(jià)格、品牌)和行徑特征(如 q2i,u2i 等)。針對(duì)給定的樣本,首要將數(shù)值特征轉(zhuǎn)換為類別類型,而后對(duì)類別特征進(jìn)行 one-hot 處理,如下所示:

其中,

暗示用戶特征的個(gè)數(shù),

暗示特征向量的拼接;其他類型的特征處理方式同用戶的特征處理方式;將處理后的各樣類型特征進(jìn)行拼接,得到輸入

多場(chǎng)景層和專家選取

在共享嵌入層之后,

做為后續(xù)層的輸入,經(jīng)太多層專家選取層得到最后的輸出。這兒的核心問題是,怎樣進(jìn)行專家選取

全部過程用下圖暗示如下:

圖 7:AESM 的探索和稀疏化約束機(jī)制

為簡(jiǎn)單起見,咱們只展示一層的選取過程。假設(shè)有 n 個(gè)專家和 m 個(gè)輸出(即 m 個(gè) gate)的場(chǎng)景層,咱們首要利用線性變換來計(jì)算每一個(gè)場(chǎng)景的門控向量如下:

其中,

是第 j 場(chǎng)景和第 k 個(gè)專家關(guān)于輸入實(shí)例的關(guān)聯(lián)性分?jǐn)?shù);

是可學(xué)習(xí)參數(shù),

是場(chǎng)景 embedding 表征,

是高斯噪聲(

)。

行向量

選取專家模塊的關(guān)鍵過程咱們做出如下假設(shè)

倘若相對(duì)大于其他向量,則暗示,第 k 位的專家更加多可能被歸類為第 j 場(chǎng)景的 specific 組。倘若中的值都相對(duì)接近,則第 k 個(gè)專家可能包括所有場(chǎng)景之間的共享信息。

因此呢,咱們首要對(duì)矩陣執(zhí)行逐行 softmax 操作 G 如下:

而后針對(duì)第 j 場(chǎng)景,咱們形成一個(gè) one-hot 場(chǎng)景向量

,其中僅有第 j 個(gè)元素為 1。如上所述,能夠按照

之間的類似性來衡量第 k 個(gè)專家是第 j 個(gè)場(chǎng)景特有專家的概率。

類似地,咱們還為第 j 個(gè)場(chǎng)景引入了一個(gè)均勻分布的向量

,

能夠按照

之間的類似性來衡量第 k 個(gè)專家是第 j 場(chǎng)景共享專家的概率。

因此呢選取場(chǎng)景特定和場(chǎng)景共享專家的過程形式化地描述如下:

其中

分別為第 j 個(gè)場(chǎng)景的特定和場(chǎng)景共享設(shè)置的專家 index,算子 TopK 是返回 top- 索引的參數(shù)操作值,( ) 計(jì)算 Kullback-Leibler 散度。

運(yùn)用

來更新門控向量

,實(shí)現(xiàn)稀疏專家網(wǎng)絡(luò):

然后,將門控標(biāo)量矩陣

和專家輸出

輸入標(biāo)準(zhǔn)的 MMoE 模塊得到這個(gè)場(chǎng)景層的輸出:

綜上,本辦法最重要的是三點(diǎn):

噪音探索:在 gate 上增多高斯噪聲,使得模型去學(xué)習(xí)區(qū)別專家的組合帶來的效果,從而選取最佳的專家組合,噪音大幅擴(kuò)大了專家組合的探索效率。噪聲強(qiáng)度是超參,無限大的噪聲等價(jià)于在專家維度進(jìn)行隨機(jī) dropout,會(huì)必定程度影響下面的 loss 約束收斂,而較小的噪聲起不到探索效果。因此呢噪聲的施加策略是后續(xù)進(jìn)一步優(yōu)化的方向。如,隨著訓(xùn)練步數(shù)增大,專家選取逐步穩(wěn)定,那樣噪聲強(qiáng)度應(yīng)逐步變小。稀疏化專家選取經(jīng)過計(jì)算門控列向量與 onehot 向量與均勻向量的 KL 散度,使得 gate 選取最適合的共享和獨(dú)享專家,并實(shí)現(xiàn)專家網(wǎng)絡(luò)的稀疏化,并實(shí)現(xiàn)了稀疏激活。這明顯提高了泛化性,同期模型規(guī)模變大,不會(huì)增多推理時(shí)延。集中性約束:在以上機(jī)制的基本上,進(jìn)一步增多基于 KL 散度的約束。本質(zhì)上便是讓相同場(chǎng)景 / 任務(wù)的樣本,盡可能選取同一組最優(yōu)專家。這種基于距離度量的約束,類似樣本聚類的功效,但其實(shí)現(xiàn)是更簡(jiǎn)潔的,能夠與深度學(xué)習(xí)模型一塊集成

在多任務(wù)部分,咱們給定以上場(chǎng)景層的輸出

,咱們利用相同的選取過程來實(shí)現(xiàn)多任務(wù)學(xué)習(xí)。此處再也不贅述。

多層堆疊和擴(kuò)展

此處可參考 AESM 主模型圖。

實(shí)質(zhì)應(yīng)用中,一個(gè)場(chǎng)景可能很繁雜,并且在本質(zhì)上表現(xiàn)出層次結(jié)構(gòu) [11,15]。例如咱們的基金搜索場(chǎng)景,經(jīng)過堆疊多個(gè)場(chǎng)景層和任務(wù)層,咱們的模型 AESM 能夠非常方便地處理這種繁雜的場(chǎng)景。這與深度網(wǎng)絡(luò)(DNN)的優(yōu)良同樣經(jīng)過更深的深度,而不是寬度,能夠以更少的參數(shù)表達(dá)更繁雜的問題。

例如在有 層的場(chǎng)景,每層有 N_i 個(gè)場(chǎng)景繁雜系統(tǒng)中,只需要調(diào)節(jié)每一層的輸入S_i ,最后咱們能夠對(duì)n_1n_2…n_L_s個(gè)細(xì)分場(chǎng)景進(jìn)行建模。當(dāng)咱們運(yùn)用標(biāo)準(zhǔn)的 MMoE 架構(gòu)時(shí),每一層咱們需要相同的專家數(shù)量。因?yàn)?/span>

,能夠節(jié)約海量的計(jì)算成本。

另外咱們仍然能夠將 多任務(wù)層堆疊在一塊,自適應(yīng)地為更高級(jí)別的任務(wù)進(jìn)行特征提取。與多場(chǎng)景區(qū)別,由于第1個(gè)多任務(wù)之后,每一個(gè)任務(wù)都有區(qū)別的輸入層。在后續(xù)的多任務(wù)層中運(yùn)用相同的專家結(jié)構(gòu),運(yùn)用區(qū)別的輸入進(jìn)行專家選取。當(dāng)層數(shù)大于 1 時(shí),咱們運(yùn)用前一層的輸出做為后一層的輸入。

模型優(yōu)化

針對(duì)數(shù)金搜索的精排模型,選取 sigmoid 做為激活函數(shù)。因此呢,第

個(gè)實(shí)例的交叉熵?fù)p失如下:

如上一節(jié)介紹,咱們增多輔助損失來加強(qiáng)場(chǎng)景 / 任務(wù)特定的專家選取。詳細(xì)來講,針對(duì)

的多場(chǎng)景層,可增多下面的 loss 約束:

其中

是第

個(gè)多場(chǎng)景中的輸出層。一樣針對(duì)

的多場(chǎng)景層,可經(jīng)過

加強(qiáng)訓(xùn)練過程中專家的選取決策;一樣多任務(wù)層中共享專家的損失函數(shù)暗示

;綜合得到,輔助損失函數(shù)

定義如下:

整體的損失函數(shù)可定義為:

四. 線仿真和消融實(shí)驗(yàn)

為了驗(yàn)證 AESM 的有效性, 咱們在多個(gè)數(shù)據(jù)集上,將 AESM 于其他多場(chǎng)景 / 多任務(wù)模型進(jìn)行對(duì)比。并做了海量消融實(shí)驗(yàn)。

實(shí)驗(yàn)設(shè)計(jì)

離線實(shí)驗(yàn)中共收集了兩個(gè)真實(shí)場(chǎng)景中的數(shù)據(jù)集,分別是支付寶和速賣通數(shù)據(jù)。

支付寶數(shù)據(jù)集:收集了從 2021 年 11 月 15 日到 11 月 30 日, 兩周用戶支付寶搜索的行徑日志。分為主搜 (HP) 和垂搜 (VP) 兩個(gè)場(chǎng)景(channel),同期每一個(gè) channel 中還能夠進(jìn)一步劃分為 熱門基金(BS)和基金制品(RI) 兩個(gè)卡片(這兒被抽象為)。因此呢,全部數(shù)據(jù)集經(jīng)過 channel 和 domain 正交分為四個(gè)詳細(xì)的場(chǎng)景。按照行徑數(shù)據(jù)的日期將數(shù)據(jù)集切分為訓(xùn)練集、驗(yàn)證集和測(cè)試集:11 月 15 日 - 11 月 28 日為訓(xùn)練數(shù)據(jù),2021 年 11 月 29 日為驗(yàn)證數(shù)據(jù),2021 年 11 月 30 日為測(cè)試數(shù)據(jù)。進(jìn)行點(diǎn)擊率和轉(zhuǎn)化率的預(yù)估。觀察到兩個(gè)數(shù)據(jù)集中的數(shù)據(jù)分布不平衡。例如,僅 VP&BS 場(chǎng)景中的展示次數(shù)在所有場(chǎng)景中占比 6.44%,大部分點(diǎn)擊出現(xiàn)在場(chǎng)景 VP&RI,反而占 82.33%。

速賣通數(shù)據(jù)集一樣此數(shù)據(jù)集存在多場(chǎng)景(按用戶國籍劃分)和多任務(wù)的設(shè)置。在這次實(shí)驗(yàn)中,選擇了、、和四個(gè)場(chǎng)景的數(shù)據(jù)集。由于原始數(shù)據(jù)集只包括訓(xùn)練集和測(cè)試集,咱們隨機(jī)抽取 50% 的原始測(cè)試數(shù)據(jù)做為驗(yàn)證集。

表 2:速賣通數(shù)據(jù)集統(tǒng)計(jì)狀況

咱們將 AESM 與兩類基線模型進(jìn)行對(duì)比:

門感知 (gate-base) 模型,它運(yùn)用門控機(jī)制來處理多場(chǎng)景或多任務(wù)問題,包含 MMoE [11]、HMoE [8]、和 PLE [20]MMoE [11] 利用多門混合專家隱式建模專家之間的關(guān)系,來自多個(gè)門的合并暗示能夠分別轉(zhuǎn)換為多個(gè)場(chǎng)景 / 任務(wù)預(yù)測(cè)層;HMoE [8] 運(yùn)用梯度切割技巧顯式編碼場(chǎng)景之間的相關(guān)關(guān)系,HMoE 采用兩個(gè)擁有單獨(dú)參數(shù)的模型來優(yōu)化 CTR 和 CVR 任務(wù);PLE [20] 是另一種先進(jìn)的 MMoE 變體,它將專家分為任務(wù)特定組和任務(wù)共享組,避免了區(qū)別任務(wù)之間的負(fù)遷移和蹺蹺板現(xiàn)象;無門模型,如 Hard Sharing [1]、Parallel DNN,Cross-Stitch [13] and STAR。Hard Sharing [1] 是一個(gè)簡(jiǎn)單但廣泛運(yùn)用的模型,經(jīng)過共享的底層對(duì)共享的信息進(jìn)行編碼;Parallel DNN 是在基本 DNN 上增多適應(yīng)多場(chǎng)景或任務(wù)的轉(zhuǎn)換而來;Cross-Stitch [13] 經(jīng)過線性交叉網(wǎng)絡(luò)將多個(gè)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行組合,用于學(xué)習(xí)任務(wù)暗示;STAR 采用星型拓?fù)浣Y(jié)構(gòu),由共享中心網(wǎng)絡(luò)和場(chǎng)景特定網(wǎng)絡(luò)組合而成;

借鑒 ESMM [12] 的思想,咱們優(yōu)化全部空間中的 CTR 和 CVR,即 = × 。運(yùn)用 auc 評(píng)定模型的性能。為了保準(zhǔn)公平,咱們做了以下工作:

因?yàn)?/span>以上的基線模型中并不可同期處理 MSL&MTL。咱們在基線模型上進(jìn)行結(jié)構(gòu)擴(kuò)展,來適應(yīng)咱們多場(chǎng)景多任務(wù)的需求。例如,針對(duì)多場(chǎng)景模型 STAR,我們?cè)谌蝿?wù)級(jí)實(shí)現(xiàn)另一個(gè)星型拓?fù)浣Y(jié)構(gòu)。針對(duì)多任務(wù)模型 PLE,在原有的公司上再疊加一層 PLE 結(jié)構(gòu)來處理多場(chǎng)景問題。所有的基線模型同 AESM 同樣運(yùn)用合并場(chǎng)景數(shù)據(jù)進(jìn)行訓(xùn)練,網(wǎng)絡(luò)的結(jié)構(gòu)的深度及選取專家的個(gè)數(shù)等超參均保持一致。

基線效果對(duì)比

表 3 和表 4 是支付寶和速賣通數(shù)據(jù)集上區(qū)別模型的性能對(duì)比。兩個(gè)表中的結(jié)果都顯示咱們提出的模型 AESM 在所有狀況下始終優(yōu)于所有基線任務(wù)。尤其數(shù)據(jù)稀疏度最高的主搜熱門基金,提高更為明顯。這顯示模型能夠適應(yīng)區(qū)別的配置的場(chǎng)景和任務(wù)。但其他模型則不必定,例如在 CTR 任務(wù)中,PLE 在 VP&BS 場(chǎng)景中的表現(xiàn)優(yōu)于 MMoE,但在 HP&BS 場(chǎng)景中的表現(xiàn)不如 MMoE。

與多場(chǎng)景和多任務(wù)設(shè)置中訓(xùn)練的模型相比,所有基線都受到來自區(qū)別場(chǎng)景的負(fù)遷移的影響。例如,它們?cè)?HP&BS 上的性能不如在單一場(chǎng)景中訓(xùn)練的模型。然而,AESM 在所有場(chǎng)景中都優(yōu)于所有單一場(chǎng)景模型,顯示 AESM 能夠更好地利用場(chǎng)景關(guān)系,避免負(fù)遷移。

表 3:區(qū)別模型在支付寶數(shù)據(jù)集上性能對(duì)比

表 4:區(qū)別模型在速賣通數(shù)據(jù)集上性能對(duì)比

消融分析

為分析每種優(yōu)化的影響,采用兩種區(qū)別的 AESM 變體進(jìn)行消融分析:(1)無高斯噪聲和輔助損失 (2)無輔助損失。從下表的結(jié)果能夠看到,去除高斯噪聲和輔助損失后,所有任務(wù)上性能均有下降。

對(duì)比(1)(2)兩種變體 AESM,能夠看到高斯噪聲在所有的場(chǎng)景中均有著良好的表現(xiàn)。這寓意恰當(dāng)的波動(dòng)給模型帶來了更為廣泛的探索空間, 得到更為精確的模型參數(shù)。

輔助損失能夠引導(dǎo)專家網(wǎng)絡(luò)選取更接近假定的分布。下圖的結(jié)果暗示,當(dāng)刪除輔助 loss 時(shí),場(chǎng)景和任務(wù)的性能均會(huì)下降。咱們進(jìn)一步地繪制了門控矩陣下,選定的場(chǎng)景 / 任務(wù)分布與假設(shè)分布(獨(dú)熱和均勻分布)之間的 KL 散度的差異。能夠看到增多輔助損失后,兩種分布之間的 KL 散度損失是逐步下降的。顯然,加入輔助損失后模型能夠稀疏地進(jìn)行專家選取。

圖 8:稀疏化輔助 loss 的訓(xùn)練收斂對(duì)比

專家選取的可視化

咱們可視化了支付寶數(shù)據(jù)集中,場(chǎng)景 / 任務(wù)的 specific/share 組的專家利用率,即 gate 激活程度。為了簡(jiǎn)單起見,每一個(gè)層(即通道、域和任務(wù))都包括兩層專家選取層。

特定專家集和共享專家集都配置為僅選取一位專家 (topk=1)。下圖表示,在 channel 級(jí)別,共享同一類型通道的場(chǎng)景擁有類似的分布。這顯示咱們的模型能夠動(dòng)態(tài)地模擬繁雜的共享信息和場(chǎng)景之間的差異。相比之下,PLE 以靜態(tài)方式定義特定 / 共享專家。在任務(wù)層面,咱們觀察每項(xiàng)任務(wù),幾乎在特定 / 共享組中選取一位專家,這寓意咱們的模型能夠收斂到 PLE 設(shè)置。

這些觀察結(jié)果顯示,AESM^2 是一種更通用的模型,能夠適應(yīng)區(qū)別場(chǎng)景 / 任務(wù)的區(qū)別結(jié)構(gòu)。

圖 9:區(qū)別層級(jí)專家的被選取概率可視化對(duì)比

AESM 自動(dòng)專家選取的討論

為了定性的討論這個(gè)問題,就需要先思考多場(chǎng)景和多任務(wù)問題的本質(zhì)區(qū)別是什么?

多場(chǎng)景和多任務(wù),都屬于多目的問題的一個(gè)子集。筆者認(rèn)為,多場(chǎng)景問題本質(zhì)上需求泛化性,帕累托最優(yōu)中的資源是模型參數(shù)的歸屬,任何一個(gè)事件(如點(diǎn)擊和轉(zhuǎn)化),不可能在兩個(gè)場(chǎng)景同期出現(xiàn);而多任務(wù)問題恰恰相反,帕累托最優(yōu)的資源約束,重點(diǎn)是參數(shù)權(quán)重本身,是梯度沖突引起的參數(shù)更新方向的沖突,但并不尤其強(qiáng)調(diào)泛化性:一般模型參數(shù)量越大,帕累托前沿越向前,但卻會(huì)損害泛化性,這一點(diǎn)可經(jīng)過下圖的實(shí)驗(yàn)證明,來自文獻(xiàn) [13]。

參數(shù)量會(huì)明顯地影響多任務(wù)模型的泛化性和效率。因此呢想要同期處理多場(chǎng)景多任務(wù),就必須平衡效率(帕累托前沿)和泛化性,它們是天然沖突的。處理這一問題最直觀的思路,是經(jīng)過 bottleneck 網(wǎng)絡(luò)結(jié)構(gòu),在靠近輸出層增多模型參數(shù),提高帕累托前沿;而在底層施加稀疏性約束,使得底層提高泛化性。

值得指出,倘若只是處理多任務(wù)優(yōu)化問題,會(huì)有非常多辦法能夠做到。但 AESM 辦法經(jīng)過相當(dāng)簡(jiǎn)單的方式,經(jīng)過施加噪聲和稀疏化,在類似 MMOE 的框架下,實(shí)現(xiàn)了類似 bottleneck 和 dropout 的思路來實(shí)現(xiàn)專家選取,讓參數(shù)盡可能在底層而不是上層實(shí)現(xiàn)共享,從而必定程度上平衡了多場(chǎng)景和多任務(wù)分別需求的泛化性和帕累托前沿的問題。

5、業(yè)務(wù)效果和在線實(shí)驗(yàn)

線上推全實(shí)驗(yàn)

咱們在 2022 年 1 月底起始,與四個(gè)場(chǎng)景的線上基線(基于行徑序列的 DIN+ESMM) 進(jìn)行了兩周的在線 A/B。效果明顯優(yōu)于其他所有場(chǎng)景,并進(jìn)行了推全。

以下是在各個(gè)場(chǎng)景各自的提高(其中在主搜熱門基金和主搜基金制品觀察到 darwin 實(shí)驗(yàn)的置信提高):

以下是所有場(chǎng)景匯總后,實(shí)驗(yàn)桶相比基準(zhǔn)桶整體的提高

線上消融實(shí)驗(yàn)

盡管咱們做了扎實(shí)的離線消融實(shí)驗(yàn)。但與強(qiáng) baseline,如雙層 PLE 等辦法進(jìn)行線上 AB 對(duì)比,則更能反映算法和系統(tǒng)的真實(shí)性能。

為驗(yàn)證 AESM 模型有效性, 咱們在主搜、垂搜的熱門基金和基金制品四個(gè)場(chǎng)景分別設(shè)計(jì)如下四組實(shí)驗(yàn):

經(jīng)過實(shí)驗(yàn)咱們發(fā)掘,對(duì)基金搜索所有的揭發(fā)點(diǎn)擊行徑數(shù)據(jù)來看,AESM 分桶在 UVCTR, CTCVR 和 UV_CTCVR 三個(gè)指標(biāo)上相比其他基線有明顯提高。其中關(guān)鍵指標(biāo) CTCVR,相比統(tǒng)一訓(xùn)練 + 單層 PLE 提高 4.7%。

以 CTCVR 為 KPI,拆解到區(qū)別場(chǎng)景的的效果對(duì)比。垂搜基金制品做為主力場(chǎng)景,其他場(chǎng)景為其帶來的優(yōu)良微乎其微,然則能夠較強(qiáng)地為其他稀疏場(chǎng)景供給遷移效果,詳細(xì)見下圖:

咱們將以上數(shù)據(jù)繪制到下圖中,可更知道表現(xiàn) AESM 的優(yōu)良:

圖 10:經(jīng)過線上消融實(shí)驗(yàn),與其他辦法的效果對(duì)比

6、總結(jié)和后續(xù)改進(jìn)

日前 AESM 已然在數(shù)金搜索的基金主場(chǎng)景進(jìn)行了全流量安排。這可能是第1個(gè)在統(tǒng)一框架內(nèi),同期處理 MSL 和 MTL 問題的辦法,并擁有以下優(yōu)點(diǎn):

大大降低繁雜場(chǎng)景間的負(fù)遷移現(xiàn)象,以實(shí)現(xiàn)最優(yōu)的信息共享。實(shí)質(zhì)業(yè)務(wù)中,非常多場(chǎng)景能夠組織為層次結(jié)構(gòu),對(duì)其進(jìn)行層疊式的建模,可進(jìn)一步加強(qiáng)性能,并明顯降低計(jì)算成本。經(jīng)過噪音探索,稀疏化專家選取和集中性約束的機(jī)制,實(shí)現(xiàn)了自動(dòng)提取場(chǎng)景 / 任務(wù) specific 和 share 樣本級(jí)專家選取算 法。詳細(xì)的,基于 multi-gate 混合專家的稀疏化結(jié)構(gòu),實(shí)現(xiàn)自適應(yīng)結(jié)構(gòu)學(xué)習(xí),并設(shè)計(jì)了輔助損失函數(shù)來指點(diǎn)訓(xùn)練過程。

值得指出,AESM 后續(xù)有有些值得繼續(xù)探索的方向。

AESM 經(jīng)過噪音提高探索空間,但噪音強(qiáng)度做為超參難以選取,應(yīng)探索和實(shí)驗(yàn)更穩(wěn)健和魯棒的專家探索方式。當(dāng)需要增多場(chǎng)景 / 任務(wù)時(shí),之前模型需要重新設(shè)計(jì)和訓(xùn)練。怎樣優(yōu)化 AESM,使得其能夠進(jìn)一步適應(yīng)動(dòng)態(tài)和異構(gòu)的場(chǎng)景任務(wù)結(jié)構(gòu),并更好的處理起步問題,將會(huì)是一個(gè)有挑戰(zhàn)的問題。咱們在橫向?qū)<覍用孀隽俗詣?dòng)專家選取,但在縱向(深度)上存在自動(dòng)專家選取的可能性必要性:自動(dòng)殘差網(wǎng)絡(luò),將會(huì)是一個(gè)令人興奮的方向。

AESM 和谷歌最新的 MOE 架構(gòu) Pathways 有有些類似性,能幫忙咱們實(shí)現(xiàn)更加多異構(gòu)任務(wù)的統(tǒng)一訓(xùn)練和優(yōu)化。后續(xù)咱們會(huì)積極地探索新的改進(jìn)計(jì)劃。歡迎業(yè)界同仁一起討論。

7、參考文獻(xiàn)

[1] Rich Caruana. 1997. Multitask learning. Machine learning 28, 1 (1997), 41–75.

[2] Yuting Chen, Yanshi Wang, Yabo Ni, An-Xiang Zeng, and Lanfen Lin. 2020.Scenario-aware and Mutual-based approach for Multi-scenario Recommendationin E-Commerce. In Proceedings of the International Conference on Data Mining Workshops (ICDMW). IEEE, 127–135.

[3] Yulong Gu, Wentian Bao, Dan Ou, Xiang Li, Baoliang Cui, Biyu Ma, Haikuan Huang, Qingwen Liu, and Xiaoyi Zeng. 2021. Self-Supervised Learning on Users’ Spontaneous Behaviors for Multi-Scenario Ranking in E-commerce. In Proceedings of the 30th ACM International Conference on Information & Knowledge Management. 3828–3837.

[4] Sepp Hochreiter and Ju?rgen Schmidhuber. 1997. Long short-term memory. Neural computation 9, 8 (1997), 1735–1780.

[5] Robert A Jacobs, Michael I Jordan, Steven J Nowlan, and Geoffrey E Hinton. 1991.Adaptive mixtures of local experts. Neural computation 3, 1 (1991), 79–87.

[6] Diederik P Kingma and Jimmy Ba. 2014. Adam: A method for stochastic optimization.arXiv preprint arXiv:1412.6980 (2014).

[7] Wouter Kool, Chris J Maddison, and Andriy Mnih. 2021. Unbiased Gradient Estimation with Balanced Assignments for Mixtures of Experts. arXiv preprint arXiv:2109.11817 (2021).

[8] Pengcheng Li, Runze Li, Qing Da, An-Xiang Zeng, and Lijun Zhang. 2020. Improving Multi-Scenario Learning to Rank in E-commerce by Exploiting Task Relationships in the Label Space. In Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2605–2612.

[9] Ting Liang, Guanxiong Zeng, Qiwei Zhong, Jianfeng Chi, Jinghua Feng, Xiang Ao, and Jiayu Tang. 2021. Credit Risk and Limits Forecasting in E-Commerce Consumer Lending Service via Multi-view-aware Mixture-of-experts Nets. In Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 229–237.

[10] Jiaqi Ma, Zhe Zhao, Jilin Chen, Ang Li, Lichan Hong, and Ed H Chi. 2019. Snr: Sub-network routing for flexible parameter sharing in multi-task learning. In Proceedings of the AAAI Conference on Artificial Intelligence, Vol. 33. 216–223.

[11] Jiaqi Ma, Zhe Zhao, Xinyang Yi, Jilin Chen, Lichan Hong, and Ed H Chi. 2018.Modeling task relationships in multi-task learning with multi-gate mixture-ofexperts.In Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 1930–1939.

[12] Xiao Ma, Liqin Zhao, Guan Huang, ZhiWang, Zelin Hu, Xiaoqiang Zhu, and Kun Gai. 2018. Entire space multi-task model: An effective approach for estimating post-click conversion rate. In Proceedings of the 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. 1137–1140.

[13] Yuyan Wang, Zhe Zhao, Bo Dai, Christopher Fifty, Dong Lin, Lichan Hong, Ed H. Chi. Small Towers Make Big Differences

  • 免責(zé)聲明:部分文章信息來源于網(wǎng)絡(luò)以及網(wǎng)友投稿,本網(wǎng)站只負(fù)責(zé)對(duì)文章進(jìn)行整理、排版、編輯,是出于傳遞更多信息之目的,并不意味著贊同其觀點(diǎn)或證實(shí)其內(nèi)容的真
  • 實(shí)性,如本站文章和轉(zhuǎn)稿涉及版權(quán)等問題,請(qǐng)作者在及時(shí)聯(lián)系本站,我們會(huì)盡快刪除處理問答,若不聯(lián)系則默認(rèn)允許本站轉(zhuǎn)載。
  • 上一篇:連續(xù)變化的世界:為么咱們?nèi)栽诒O(jiān)測(cè)臭氧空洞
  • 下一篇:涂布紙印刷 | 前沿技術(shù)驅(qū)動(dòng),金谷田KGT-2500A打造品質(zhì)生產(chǎn)力!