激情六月丁香婷婷|亚洲色图AV二区|丝袜AV日韩AV|久草视频在线分类|伊人九九精品视频|国产精品一级电影|久草视频在线99|在线看的av网址|伊人99精品无码|午夜无码视频在线

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

AI研習(xí)丨智能信息中的大數(shù)據(jù)和人工智能

發(fā)布時(shí)間:2024-01-19 17:06:21 瀏覽量:126次

文/李云輝


一、大數(shù)據(jù)、人工智能簡介

大數(shù)據(jù)有三個(gè)要素,一是海量,體現(xiàn)在數(shù)據(jù)容量越來越大,以新浪微博為例,每天會(huì)有幾百TB的增量;二是速度,體現(xiàn)在數(shù)據(jù)量增長越來越快,用戶的規(guī)模增長越來越快,產(chǎn)品業(yè)務(wù)越來越多,用戶行為越來越多,這些都會(huì)加快數(shù)據(jù)增長速度和實(shí)時(shí)性;三是多樣,指的是各種類型的數(shù)據(jù)庫,如文檔、日志、視頻等。


人工智能 (AI) 的基本要素,一是算法,以統(tǒng)計(jì)學(xué)為主,包括統(tǒng)計(jì)學(xué)的模型,以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等一系列算法;二是數(shù)據(jù),數(shù)據(jù)是算法設(shè)計(jì)訓(xùn)練推理的依據(jù),要做算法,前提必須有大量數(shù)據(jù),尤其深度學(xué)習(xí)的場景,需要大量的標(biāo)注樣本;三是算力,深度學(xué)習(xí)是混合的價(jià)值獲取方式,目前算力不夠。


現(xiàn)在萬物皆媒,隨著5G的到來,機(jī)器也能生產(chǎn)新聞、創(chuàng)造信息,搭建基于數(shù)據(jù) + 算力 + 算法 + 網(wǎng)絡(luò)的基礎(chǔ)底座。大數(shù)據(jù)、AI驅(qū)動(dòng)信息智能化變革主要體現(xiàn)在網(wǎng)絡(luò)、數(shù)據(jù)、算法和算力四個(gè)方面。


智能信息生態(tài)最下面是基礎(chǔ)層,包括芯片、傳感器、大數(shù)據(jù)、云計(jì)算;第二層體現(xiàn)在由CV做圖像識(shí)別、分類、排重、語音識(shí)別,以及垂直領(lǐng)域里面構(gòu)建的知識(shí)圖譜,支持做垂直領(lǐng)域的分發(fā)和金融上的信用。最上面是應(yīng)用層,從媒體的角度包括信息采集,以及采集后的聚合生產(chǎn)、內(nèi)容分發(fā)。還有媒資的管理、內(nèi)容生產(chǎn)源的管理、內(nèi)容安全風(fēng)控的管理、效果的追蹤,以及媒體的經(jīng)營、輿情的監(jiān)控、媒體版權(quán)的保護(hù)等。


二、新浪大數(shù)據(jù)及AI應(yīng)用實(shí)踐

(一)新浪大數(shù)據(jù)

下面從三個(gè)維度介紹大數(shù)據(jù)的應(yīng)用。一是多種數(shù)據(jù)來源,新浪體系下大概有10家以上的APP,包括新浪微博、財(cái)經(jīng)、新浪體育等,還包括第三方數(shù)據(jù)。二是多種數(shù)據(jù)形式,包括用戶的注冊(cè)信息、媒體信息、博文信息、內(nèi)容信息;非結(jié)構(gòu)化數(shù)據(jù)、包括用戶的行為日志、圖片、視頻、音頻;半結(jié)構(gòu)化數(shù)據(jù)指的是用戶的訪問和請(qǐng)求,以及博文特征、內(nèi)容標(biāo)簽。三是多種處理要求,包括在線和離線,在線是實(shí)時(shí)處理,算法用的會(huì)更多一些,以及模型的訓(xùn)練、在線模型預(yù)測、在線實(shí)時(shí)效果報(bào)表監(jiān)控;離線包括批處理、機(jī)器學(xué)習(xí),以及每天給高管看的各種經(jīng)營分析運(yùn)營報(bào)表。


? 大數(shù)據(jù)的基本組成體系,從下往上,從平臺(tái)的角度來講,整合了新浪集團(tuán)所有的業(yè)務(wù)相關(guān)數(shù)據(jù),也可以理解為是集團(tuán)的數(shù)據(jù)中心和平臺(tái)?;诰S度建模思想面向主題、歷史、決策的數(shù)據(jù)倉庫,我們構(gòu)建了數(shù)據(jù)平臺(tái),提供了大數(shù)據(jù)的傳輸,從前端日志的采集到實(shí)時(shí)、離線的采集,以及到后面實(shí)時(shí)的處理,為各用戶提供的基礎(chǔ)資源。第二層是對(duì)應(yīng)的服務(wù),面向不同業(yè)務(wù)類型、不同角色提供不同服務(wù)。比如,面向算法工程師,提供更多的是計(jì)算平臺(tái)、存儲(chǔ)平臺(tái),以及外圍工具平臺(tái)、數(shù)據(jù)調(diào)度管理等;面向運(yùn)營、業(yè)務(wù)、分析師等更多的是提供更高效的查詢數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)自動(dòng)化工具和多維的分析;面向產(chǎn)品提供KPI監(jiān)測和每天經(jīng)營的情況,以及大盤的指標(biāo)、漲跌的歸因等。在服務(wù)上我們提供了一些產(chǎn)品,對(duì)內(nèi)的工具和對(duì)外的商業(yè)化接口。從價(jià)值方面,可以提升內(nèi)容的商業(yè)變現(xiàn),也可以提升內(nèi)部的效率、產(chǎn)品的優(yōu)化和迭代。


? 大數(shù)據(jù)的流程架構(gòu),我們?cè)陂_源體系上做了一些外圍工具開發(fā),以及內(nèi)部集成和優(yōu)化。一是數(shù)據(jù)源,包括用戶產(chǎn)生的UGC數(shù)據(jù)、行為數(shù)據(jù)、內(nèi)容管理數(shù)據(jù)。有了這些數(shù)據(jù)源后,前端服務(wù)器采集到這樣的日志,最終通過實(shí)時(shí)數(shù)據(jù)存檔的隊(duì)列;再對(duì)應(yīng)到中間部分的處理,通過集群,一部分寫到離線文件,一部分轉(zhuǎn)發(fā)到實(shí)時(shí)集群;對(duì)應(yīng)到處理方面,包括存儲(chǔ)、計(jì)算等。在此基礎(chǔ)上做了很多外圍工具,以及對(duì)應(yīng)的存儲(chǔ)周期和存儲(chǔ)邏輯、上下游的依賴等,都會(huì)在管理系統(tǒng)定位查詢。二是監(jiān)控,我們會(huì)監(jiān)控一些節(jié)點(diǎn)、任務(wù),以及監(jiān)控作業(yè)之間的效率,給用戶統(tǒng)一入口,通過網(wǎng)關(guān)方式登錄訪問存儲(chǔ)平臺(tái)。


在存儲(chǔ)計(jì)算平臺(tái)上搭建離線數(shù)據(jù)倉庫和實(shí)時(shí)數(shù)據(jù)倉庫,把這些結(jié)果實(shí)時(shí)處理完成,后面的應(yīng)用就是在這里進(jìn)行機(jī)器學(xué)習(xí)、模型訓(xùn)練學(xué)習(xí)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、KPI報(bào)表、API服務(wù)等。圍繞大數(shù)據(jù)來講,標(biāo)準(zhǔn)化體系當(dāng)前有幾個(gè)主流方向。一是實(shí)時(shí)和離線數(shù)據(jù)湖,這是當(dāng)前的技術(shù)方向。數(shù)據(jù)要求的是實(shí)時(shí)處理,原來按天看報(bào)表,到后面按小時(shí)看報(bào)表;現(xiàn)在實(shí)時(shí)化看數(shù)據(jù),到線上模型實(shí)時(shí)特征訓(xùn)練,以及對(duì)應(yīng)預(yù)測。實(shí)時(shí)化是大數(shù)據(jù)處理的方向,包括實(shí)時(shí)處理能力。數(shù)據(jù)量越來越大,處理數(shù)據(jù)越來越大,異構(gòu)數(shù)據(jù)越來越多,怎樣搭建一套實(shí)時(shí)的數(shù)據(jù)處理平臺(tái)和倉庫。二是面向更復(fù)雜的多維分析,首先定義分析維度,然后數(shù)據(jù)準(zhǔn)備,再進(jìn)行多維分析。隨著業(yè)務(wù)的發(fā)展、用戶的運(yùn)營等,對(duì)用戶深入的洞察、對(duì)整體的分析要求越來越深入和靈活,針對(duì)不同粒度、不同維度下能不能任意交叉,實(shí)時(shí)統(tǒng)計(jì)和分析。三是不同角色的處理效率可以有很大提升,包括數(shù)據(jù)ETL抽取、調(diào)度這些源數(shù)據(jù),以及自動(dòng)化查詢工具等。四是更多面向于圖數(shù)據(jù),如微博就是有大量節(jié)點(diǎn)的圖譜。五是在大數(shù)據(jù)中,現(xiàn)在提的比較多的方向是數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理,有了這些數(shù)據(jù),怎樣去評(píng)估它們的價(jià)值。作為企業(yè)來講,怎么反映數(shù)據(jù)給企業(yè)帶來的價(jià)值,這個(gè)數(shù)據(jù)的成本、數(shù)據(jù)給商業(yè)和內(nèi)部帶來的驅(qū)動(dòng);數(shù)據(jù)的資產(chǎn)不僅是企業(yè)內(nèi)部的數(shù)據(jù)資產(chǎn),還包含面對(duì)客戶服務(wù)的數(shù)據(jù)資產(chǎn),以及數(shù)據(jù)的治理、數(shù)據(jù)的安全,怎樣保證數(shù)據(jù)質(zhì)量一致性、完整性和安全性,做好數(shù)據(jù)安全的風(fēng)控。


大數(shù)據(jù)行業(yè)當(dāng)前推進(jìn)的趨勢和方向——實(shí)時(shí)數(shù)倉。我們的原數(shù)據(jù)是實(shí)時(shí)的,這些數(shù)據(jù)來自訪問日志,比如訪問了微博、看了某篇博文會(huì)上報(bào)一條用戶的訪問行為數(shù)據(jù);然后把后端的一些數(shù)據(jù)通過實(shí)時(shí)傳輸,進(jìn)入我們的ADS、MDS、ODS。這和前面介紹的離線有一些區(qū)別,這里會(huì)做一些結(jié)構(gòu)化動(dòng)作。比如,我想知道今天體育博文的閱讀量就會(huì)針對(duì)博文做分類和結(jié)構(gòu)化,實(shí)時(shí)調(diào)算法的接口,再過濾一些條件、規(guī)則,同時(shí)按照產(chǎn)品、業(yè)務(wù)線進(jìn)行分流;然后把一些用戶的維度,比如用戶的行為數(shù)據(jù),與用戶的數(shù)據(jù)進(jìn)行交叉,這時(shí)會(huì)進(jìn)行實(shí)時(shí)過濾、處理。到MDS層,做一個(gè)相對(duì)顆粒度比較細(xì)的匯總,主要以用戶為總線,加上各維度統(tǒng)計(jì)用戶行為。ADS是面向于我們最后的高度匯總數(shù)據(jù),根據(jù)相關(guān)的博文實(shí)時(shí)計(jì)算?,F(xiàn)在從技術(shù)架構(gòu)體系和平臺(tái)來講,有依賴內(nèi)存的,還有用搜索機(jī)制去做的。統(tǒng)計(jì)出來的維度相對(duì)比較明確,這時(shí)維度要做實(shí)時(shí)多維分析?,F(xiàn)在放在ES里去做,能做到10億+的用戶、上千維特征任意的交叉統(tǒng)計(jì),大概在100毫秒以內(nèi)。還有比較明細(xì)的數(shù)據(jù),用戶是無感知的,會(huì)根據(jù)用戶提交的不同業(yè)務(wù)類型自動(dòng)分發(fā)到不同的分析引擎進(jìn)行分析,最后通過計(jì)算和分析引擎反饋到用戶。對(duì)應(yīng)在做實(shí)時(shí)熱點(diǎn)的發(fā)現(xiàn)、內(nèi)容消費(fèi)的洞察,這方面主要是智能媒體和數(shù)字化的營銷。


(二)AI應(yīng)用

新浪集團(tuán)體系內(nèi)大數(shù)據(jù)的應(yīng)用規(guī)模,包括新浪集團(tuán)所有子公司和各產(chǎn)品線的研發(fā)、產(chǎn)品、運(yùn)營,同時(shí)在使用這個(gè)產(chǎn)品進(jìn)行日常數(shù)據(jù)化驅(qū)動(dòng)。圍繞大數(shù)據(jù)的能力,以及大數(shù)據(jù)的一些數(shù)據(jù)平臺(tái),結(jié)合我們的業(yè)務(wù)、算法做了哪些AI應(yīng)用?


新浪是一家媒體,落在智能信息平臺(tái)上,主要分為熱點(diǎn)發(fā)現(xiàn)、內(nèi)容編輯、審核擇優(yōu)、產(chǎn)品形式和智能傳播五個(gè)環(huán)節(jié)。發(fā)文章首先要有配圖、文字糾錯(cuò);如果發(fā)話題要有摘要、事件的詳情脈絡(luò)、信息流里自動(dòng)的標(biāo)題、內(nèi)容的聚合、輿情的觀點(diǎn)等;審核需要做的是安全、敏感的審核;分發(fā)主要包括個(gè)性化分發(fā),以觀眾體系下社交下的分發(fā),還有運(yùn)營導(dǎo)向的熱點(diǎn)分發(fā)?,F(xiàn)在我們的生態(tài)是多終端的,既可以在APP上看到,也可以在手表、智能音箱上看到新浪提供的內(nèi)容。


1. 線索發(fā)現(xiàn)

新浪早期是門戶,后變成博客,隨后有了微博社交媒體,最后是新媒體的個(gè)性化,到當(dāng)前既有社交又有新媒體個(gè)性化綜合的信息平臺(tái)。帶來的最大變化是內(nèi)容底層、內(nèi)容生產(chǎn)者在變,原來有數(shù)萬的PGC,到現(xiàn)在數(shù)百萬的自媒體,再到現(xiàn)在的視頻化、社交化,如何從海量信息里篩選出用戶關(guān)心的重要新聞線索,是內(nèi)部運(yùn)營面臨的很大挑戰(zhàn)。新浪 + 微博是很大的優(yōu)勢,全網(wǎng)的熱點(diǎn)一般都是在微信或微博上先進(jìn)行傳播,形成一個(gè)全網(wǎng)級(jí)的發(fā)酵一定是微博帶來的更大傳播,所以能知道熱點(diǎn)事件所有傳播鏈路。我們總結(jié)編輯運(yùn)營經(jīng)驗(yàn),從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)特征化、到特征實(shí)時(shí)處理、到AI模型,最后是人工審核。作為一個(gè)資深編輯,其經(jīng)驗(yàn)是建立在每天發(fā)生什么樣的事情,記下發(fā)生的時(shí)間、地點(diǎn)、場所,以及帶來的影響等,通過歷史數(shù)據(jù)可以判斷這件事情會(huì)不會(huì)有熱點(diǎn)。結(jié)合這些邏輯、模型會(huì)把這些數(shù)據(jù)源(包括全網(wǎng)的數(shù)據(jù)),以微博數(shù)據(jù)為核心,包括新浪新聞媒體的數(shù)據(jù)做結(jié)構(gòu)化,對(duì)事件進(jìn)行識(shí)別;還會(huì)針對(duì)博文的統(tǒng)計(jì)特征進(jìn)行分析,傳播的鏈路、賬號(hào)的屬性和內(nèi)容,什么時(shí)間發(fā)的,它們之間是什么關(guān)系,是不是傳播節(jié)點(diǎn)、引爆節(jié)點(diǎn),以及對(duì)應(yīng)的行為;對(duì)應(yīng)的行為及對(duì)應(yīng)過程中有沒有大V評(píng)論,從而就構(gòu)建了一些特征。根據(jù)這樣的特征構(gòu)建熱點(diǎn)分析和預(yù)測,就可以看到是一個(gè)什么走勢,以及對(duì)統(tǒng)計(jì)走勢的判斷。運(yùn)營再進(jìn)行線索的審核,審核完成對(duì)應(yīng)到熱點(diǎn)的運(yùn)營。


我們內(nèi)部使用的大數(shù)據(jù)賦能熱點(diǎn)實(shí)時(shí)發(fā)現(xiàn)平臺(tái),現(xiàn)在做到每分鐘基于微博全國量的數(shù)據(jù),如重要的產(chǎn)品用戶指標(biāo),與過去30天異動(dòng)的指數(shù),結(jié)合用戶的畫像,知道哪些用戶關(guān)心的熱點(diǎn)和不同地域下用戶關(guān)心的熱點(diǎn)是什么,以及他們關(guān)注的詞匯是什么,點(diǎn)了這些詞云后就知道有哪些熱點(diǎn)博文。對(duì)熱點(diǎn)博文的排序、當(dāng)下最熱博文,以及對(duì)應(yīng)熱門博文的用戶畫像等,輔助運(yùn)營第一時(shí)間發(fā)現(xiàn)熱點(diǎn)。


例如,巴黎圣母院大火。這個(gè)事件涉及到60+領(lǐng)域、5000+頭部用戶參與,全部用戶發(fā)博300+萬、曝光40+億。這個(gè)熱點(diǎn)有很明顯特征,10分鐘內(nèi)博文量超過平常的3倍多。根據(jù)用戶在后續(xù)有沒有興趣關(guān)注點(diǎn)的變化和遷移,我們有很多熱點(diǎn)延伸,希望給用戶提供更豐富的內(nèi)容服務(wù)。


實(shí)時(shí)熱點(diǎn)的發(fā)現(xiàn)從內(nèi)容源頭能夠監(jiān)測前面所有線索、突發(fā)熱點(diǎn),人工審核完成后一鍵發(fā)布、自動(dòng)審核;然后直接看到下發(fā)大屏效果,以及各人群效果,再調(diào)整內(nèi)容下發(fā)的策略,這是全鏈條邏輯。


2. 內(nèi)容生產(chǎn)端

內(nèi)容生產(chǎn)平臺(tái)算法分為NLP和CV兩部分,文本能力主要是做語言模型和語義理解。我們會(huì)做一些自動(dòng)糾錯(cuò)、錯(cuò)別字識(shí)別,這些模型也在做這部分的訓(xùn)練學(xué)習(xí)。任務(wù)是以分類識(shí)別為主,如做了圖像的分類、人臉識(shí)別?;趦煞N場景,一是圖片構(gòu)建了百萬級(jí)別的語料庫,包括視頻的排重;二是基于上面這些平臺(tái),做自動(dòng)標(biāo)題、文章配圖、主題識(shí)別、摘要提煉、糾錯(cuò)排重等。視覺能力主要是圖像質(zhì)量、圖像美學(xué)、視頻清晰度、視頻質(zhì)量、裁剪、智能配圖等。


模型算法案例一 文章自動(dòng)配圖。因?yàn)槭切侣剤鼍?,上面需要有一些配圖,機(jī)器配圖是一個(gè)很復(fù)雜的事情,來源文章內(nèi)所有圖片,策略會(huì)進(jìn)行圖片的質(zhì)量、分類、裁圖等。配圖是很復(fù)雜的模型,首先做識(shí)別判斷,比如一幅大圖里有很多文字不適宜作配圖;低質(zhì)的圖形識(shí)別出來要過濾掉。我們有一個(gè)百萬級(jí)別的圖像庫,對(duì)圖片打一個(gè)美學(xué)分?jǐn)?shù),配出的圖不能重復(fù),所以要進(jìn)行指紋排重。早期可能用各種特征去做,篩選后看一下文章和標(biāo)題的相關(guān)性。用多模態(tài)去做動(dòng)態(tài)相關(guān)性模型,可以學(xué)到哪幅圖與標(biāo)題相關(guān),最后用美學(xué)和相關(guān)性做綜合排序,輸出侯選可以配圖的topN。在裁減時(shí)還要識(shí)別出圖片主題區(qū)域,將人臉拿出來單獨(dú)做人臉模型,裁減完成后會(huì)在前端根據(jù)落地的業(yè)務(wù)場景進(jìn)行自配。


模型算法案例二 視頻標(biāo)簽。視頻標(biāo)簽有一定難度。我們有百萬級(jí)的標(biāo)簽體系,希望一篇視頻打出來它屬于哪個(gè)領(lǐng)域、哪個(gè)主人物,以及對(duì)應(yīng)哪個(gè)IP,落地到相關(guān)推薦,根據(jù)人物推同一人物、明星,以及視頻的合集。視頻標(biāo)簽采用了多模態(tài)技術(shù),現(xiàn)在我們有圖文特征、標(biāo)題特征和音頻特征等千萬級(jí)樣本。最后是多任務(wù)的學(xué)習(xí)方式,進(jìn)行特征抽取網(wǎng)絡(luò),希望有一個(gè)對(duì)應(yīng)約束。現(xiàn)在已經(jīng)做到第三個(gè)版本,準(zhǔn)確率在85%的水平,一級(jí)可能會(huì)高一些。


模型算法案例三 機(jī)器新聞。人工先定義出模板,深度學(xué)習(xí)在這里主要做預(yù)測工作。原始數(shù)據(jù)來源于全網(wǎng)重要資訊、財(cái)經(jīng)第三方數(shù)據(jù)和微博數(shù)據(jù),比如體育比賽在什么位置、有什么樣動(dòng)作,這些都是人工梳理出來的模板,由這樣的句式和模板生成這篇基于前面采集到的信息,根據(jù)句式模式生成句子侯選和段落侯選,進(jìn)行表述銜接。我們會(huì)有一些表述銜接的語言生成,主要落地在財(cái)經(jīng)和體育方面,包括財(cái)經(jīng)快訊、行情股市資訊、直播間和賽事結(jié)果數(shù)據(jù)等。


3. 人工審核

人工審核采用的是多模態(tài)識(shí)別。這里網(wǎng)絡(luò)結(jié)構(gòu)是類似的,通過底層各內(nèi)容來源做識(shí)別,識(shí)別出來后會(huì)有人工二次審核工作,判定最后問題的歸類,進(jìn)行人工干預(yù)。


4. 分發(fā)

審核完成后進(jìn)行分發(fā),第一部分是用戶;第二部分是物料。用戶畫像是基于新浪集團(tuán)所有打通的數(shù)據(jù);物料包括運(yùn)營熱點(diǎn)、運(yùn)營專題,以及視頻垂直領(lǐng)域、圖文、音頻等;場景包括地理位置、時(shí)間、網(wǎng)絡(luò)、產(chǎn)品位;分發(fā)包括運(yùn)營分發(fā)、搜索分發(fā)、個(gè)性化分發(fā)和關(guān)注分發(fā)等。


5. 推薦

我們產(chǎn)品有個(gè)性化推薦、相關(guān)推薦、視頻推薦、主題推薦。推薦的架構(gòu)在行業(yè)內(nèi)都是標(biāo)準(zhǔn)的東西,主要區(qū)別是實(shí)現(xiàn)邏輯、模型、策略、物料不同??傮w上,數(shù)據(jù)收集到大數(shù)據(jù)平臺(tái)做樣本拼接、模型訓(xùn)練。我們主要做的是用戶請(qǐng)求,把用戶在曝光時(shí)有哪些特征,比如性別、年齡、地域的統(tǒng)計(jì)學(xué)特征、用戶興趣的統(tǒng)計(jì)學(xué)特征,以及用戶在最近一段時(shí)間各時(shí)間段、維度、產(chǎn)品、行為下的點(diǎn)擊,這些都要收集進(jìn)去,代表當(dāng)時(shí)是什么原因給用戶曝光文章;還包括一級(jí)和二級(jí)分類、標(biāo)簽,以及一些作者信息,這兩部分拼進(jìn)去了就可以回答用戶此時(shí)此刻請(qǐng)求的興趣有哪些,給他推薦哪些侯選。另外,因?yàn)橛心男╈o態(tài)屬性、統(tǒng)計(jì)特征,所以進(jìn)來了這樣一個(gè)侯選,以及在這一側(cè)交叉的匹配;最后選擇排序邏輯。模型要學(xué)的就是這樣一個(gè)場景。我們要根據(jù)這個(gè)場景做拼接樣本、模型訓(xùn)練和預(yù)測。對(duì)應(yīng)的是在線推薦,一個(gè)是畫像類的;一個(gè)是召回類的,包括內(nèi)容、模型、熱門、策略等召回,這里重要的是要知道效果是否好。總之,從物料到召回、到排序,包括特征工程、模型訓(xùn)練、在線預(yù)測和在線評(píng)估,這是業(yè)內(nèi)比較通用的架構(gòu)。


6. 召回算法

現(xiàn)在推薦的大家都認(rèn)為千人千面,其實(shí)不然,推薦做的更多是滿足中短期興趣的推薦。召回算法主要分為三類,一是基于用戶畫像類。比如,我喜歡 C 羅,他喜歡足球,可以根據(jù)標(biāo)簽做吻合,再根據(jù)表現(xiàn)的打分做排序。用戶畫像的召回核心在于用戶畫像的計(jì)算,包括基礎(chǔ)的數(shù)據(jù)倉庫里做統(tǒng)計(jì)?,F(xiàn)在畫像都是基于深度學(xué)習(xí)模型預(yù)測的,預(yù)測你的長期興趣、標(biāo)簽是什么程度。二是對(duì)應(yīng)模型類,協(xié)同過濾用的非常多,網(wǎng)絡(luò)結(jié)構(gòu)上包括后面的蒸餾;又要用到一些復(fù)雜網(wǎng)絡(luò),想在雙塔上做,這時(shí)就用單塔的目標(biāo)指引雙塔目標(biāo)學(xué)習(xí),后面會(huì)有一些多目標(biāo)。三是策略類,各家公司業(yè)務(wù)策略不同,對(duì)我們來講有策略邏輯,評(píng)價(jià)有熱度、相關(guān)度、覆蓋度等一系列指標(biāo)體系。


7. 排序

排序發(fā)展階段,從早期經(jīng)濟(jì)學(xué)的算法,廣告比較多,后面用到了多目標(biāo)排序。常見的目標(biāo)有點(diǎn)擊率,還有一些是互動(dòng)類評(píng)估(如點(diǎn)贊)。排序算法的路徑除了算法學(xué)習(xí)上有一個(gè)迭代外,還有在模型的訓(xùn)練上有一個(gè)變化。在排序上的變化有幾個(gè)目標(biāo),圍繞多目標(biāo)的路線發(fā)展,體現(xiàn)在特征個(gè)數(shù)。真正的挑戰(zhàn)體現(xiàn)在特征的實(shí)時(shí)處理能力,而且還要保證實(shí)時(shí)特征處理數(shù)據(jù)的一致性,數(shù)據(jù)質(zhì)量是影響排序算法的關(guān)鍵因素。特征越實(shí)時(shí)統(tǒng)計(jì),訓(xùn)練時(shí)與線上預(yù)測時(shí)的數(shù)據(jù)一致性要保證相同,實(shí)時(shí)性越強(qiáng),就有各種的客觀現(xiàn)象,能帶來各種延遲和不一致,這是客觀存在的現(xiàn)象。


多目標(biāo)發(fā)展的變化。原來我們多目標(biāo)的技術(shù),比如模型預(yù)估的概率和時(shí)長的值會(huì)做一個(gè)權(quán)重融合,很多是網(wǎng)絡(luò)搜索、交叉組合完后把所有模型訓(xùn)練學(xué)習(xí)一遍,選擇最優(yōu)的放到線上,用這種方式做的組合。之后我們希望模型能學(xué)到時(shí)長融合的權(quán)重,模型在線學(xué)習(xí)參數(shù),利用它做融合預(yù)測。發(fā)展到現(xiàn)在,用PSO方式做自動(dòng)搜索是現(xiàn)在做的主流方向。從多目標(biāo)的網(wǎng)絡(luò)結(jié)構(gòu)上講,每個(gè)目標(biāo)都可以學(xué),學(xué)完后進(jìn)行融合。還有一種是用一個(gè)大模型學(xué)出多個(gè)目標(biāo)后,再用多個(gè)目標(biāo)融合,我們有這樣一個(gè)對(duì)應(yīng)的單模型和發(fā)展。另外一個(gè)發(fā)展就是會(huì)有一些專家網(wǎng)絡(luò)共享,就是現(xiàn)在的多目標(biāo)排序——排序結(jié)構(gòu)變化、多目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)變化,還有多目標(biāo)最后目標(biāo)的調(diào)參變化。


比如,社會(huì)熱點(diǎn)案例——貨拉拉事件的引爆,再到媒體集體發(fā)聲到社會(huì)反思,我們?cè)鯓臃?wù)好用戶,做好用戶分發(fā)體驗(yàn)。


在疫情下我們也做了很多創(chuàng)新,從2019年12月31日一直到現(xiàn)在,經(jīng)歷了各階段的發(fā)展,現(xiàn)在都是靠AI賦能,通過信息采集,到自動(dòng)化信息聚合、解析,以及疫情專題的自動(dòng)生成、疫情地圖的自動(dòng)標(biāo)注做了一些閉環(huán)查詢,以及很多可視化產(chǎn)品,如策劃了新浪疫情地圖,方便用戶能夠更直觀看到疫情的態(tài)勢。


三、新技術(shù)展望

如果沒有大數(shù)據(jù)要做人工智能無從談起,大數(shù)據(jù)里需要一些流程和平臺(tái),以及落地一些應(yīng)用。從面向統(tǒng)計(jì)型數(shù)據(jù)到分析型數(shù)據(jù)、價(jià)值型數(shù)據(jù),我們都是通過數(shù)據(jù)化指導(dǎo)日常工作。調(diào)優(yōu)能做到敏捷迭代,這是必不可少的。圍繞大數(shù)據(jù)做AI,包含基礎(chǔ)平臺(tái)、內(nèi)容搭建、生產(chǎn)、聚合,到分發(fā),利用大數(shù)據(jù)實(shí)時(shí)計(jì)算和算法的結(jié)合,賦能AI。如何做好內(nèi)容生產(chǎn)自動(dòng)化,以及個(gè)性化算法分發(fā)概況和關(guān)鍵點(diǎn),怎么去理解推進(jìn)其邏輯和建模思想。


未來與信息媒體相關(guān)的方向是5G、視頻和區(qū)塊鏈,以及智能化分發(fā)技術(shù)。直播是新浪很重要的產(chǎn)品線,5G超快網(wǎng)速、超低延遲的特點(diǎn)更加有助于視頻化的發(fā)展。


從內(nèi)容生產(chǎn)上看也是很明顯變化,從PGC到UGC、TGC,內(nèi)容生產(chǎn)結(jié)構(gòu)變的視頻化,而我們的需求沒有變,只是需求范圍變大、深度變深,需要看更多、更豐富的內(nèi)容。5G由PGC到TGC,比如可以看到元宇宙;還有智能冰箱本身也能產(chǎn)生很多數(shù)據(jù),智能烤箱可以看到烤面包的變化過程,這些都是TGC所生產(chǎn)的。未來會(huì)呈現(xiàn)大數(shù)據(jù)很重要的環(huán)節(jié),因?yàn)檫@些數(shù)據(jù)之間萬物互聯(lián),量大,形態(tài)變多。還有各種網(wǎng)絡(luò)結(jié)構(gòu),如何挖掘中間的關(guān)系和聯(lián)系,都是很大挑戰(zhàn),而且對(duì)深度學(xué)習(xí)、AI來講要求更高。所以,這個(gè)數(shù)據(jù)巨大,必須通過一些算法進(jìn)行相關(guān)處理。內(nèi)容消費(fèi)場所的變化,生活中都有感受?,F(xiàn)在最新的華為手機(jī)能測24小時(shí)動(dòng)態(tài)血壓,用戶能看懂監(jiān)測報(bào)告,這些成果都是5G帶來的機(jī)會(huì)。不同的新技術(shù)帶來新產(chǎn)品形態(tài)和新業(yè)務(wù)形態(tài)。


視頻方面主要是5G和視頻的結(jié)合,面向于高清、多維、低延遲,最大的體現(xiàn)是正在做的AR、VR,比如奧運(yùn)會(huì)、交互式視頻、互動(dòng)類視頻,視頻更清晰和高清,直播更流暢。


區(qū)塊鏈就是去識(shí)別原創(chuàng)文章和原創(chuàng)視頻,比如現(xiàn)在有很多的“搬運(yùn)工”和抄襲,如何識(shí)別文章是否原創(chuàng),可以通過區(qū)塊鏈的技術(shù)落地到版權(quán)。


新技術(shù)會(huì)推動(dòng)媒體進(jìn)入新紀(jì)元,體現(xiàn)在主流的價(jià)值觀。新浪的主流價(jià)值觀是傳播正能量,提供優(yōu)質(zhì)內(nèi)容、深度內(nèi)容,利用大數(shù)據(jù)、AI更多滿足用戶獲取有價(jià)值信息,基本上就是全流程、全環(huán)節(jié),數(shù)字營銷也是如此。商業(yè)模式在智能化產(chǎn)品里,不管是內(nèi)部數(shù)字化賦能,還是提供智能化產(chǎn)品都會(huì)帶來很大變化。技術(shù)管理+內(nèi)容會(huì)帶來一些挑戰(zhàn)和發(fā)展。



選自《中國人工智能學(xué)會(huì)通訊》

2022年第12卷第2期

AI領(lǐng)域?qū)I(yè)技術(shù)的轉(zhuǎn)移轉(zhuǎn)化

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定