發(fā)布時間:2024-01-19 19:42:11 瀏覽量:298次
一、現(xiàn)階段數(shù)據(jù)新聞的實操所存在的主要問題
(一)數(shù)據(jù)收集來源單一
目前數(shù)據(jù)新聞面臨的首要問題就是缺乏可收集的數(shù)據(jù)信息源,或者數(shù)據(jù)庫信息過于單一,缺乏全面、結(jié)構(gòu)性的數(shù)據(jù)源數(shù)據(jù)庫。從我國的情況來看,作為常用來源的商業(yè)數(shù)據(jù)庫中的數(shù)據(jù),通常只集中在某一個方面,其所能描述的用戶特征也只是片面和單一角度的認識。騰訊作為目前擁有最大即時通信工具的互聯(lián)網(wǎng)巨頭公司,掌握著大量用戶的社交關系數(shù)據(jù),雖然通過微信線上支付(紅包)的功能,占據(jù)了一定移動支付的市場,但比起支付寶(阿里巴巴旗下的個人第三方支付平臺)來說,騰訊對于用戶消費習慣和財務狀況的洞察和了解又遠不及后者。
很多初學者,對大數(shù)據(jù)的概念都是模糊不清的,大數(shù)據(jù)是什么,能做什么,學的時候,該按照什么線路去學習,學完往哪方面發(fā)展,想深入了解,想學習的同學歡迎加入大數(shù)據(jù)學習扣群:805127855,有大量干貨(零基礎以及進階的經(jīng)典實戰(zhàn))分享給大家,并且有清華大學畢業(yè)的資深大數(shù)據(jù)講師給大家免費授課,給大家分享目前國內(nèi)最完整的大數(shù)據(jù)高端實戰(zhàn)實用學習流程體系
以今日頭條為國內(nèi)個性化推送新聞的媒體為例,作為國內(nèi)第一個個性新聞化推送新聞的產(chǎn)品類實踐者,今日頭條自2012年創(chuàng)建后,到2016年8月,已經(jīng)擁有裝機用戶超過5.5億,日活躍人數(shù)超過6000萬。從其CEO對今日頭條有關用戶的數(shù)據(jù)信息來源的介紹來看,主要是三個方面:第一,今日頭條通過對用戶的行為,如點擊、停留、評論、轉(zhuǎn)發(fā)等數(shù)據(jù)的搜集和聚合分析,獲得用戶對新聞信息的個人喜好和需求的推算。第二,根據(jù)用戶所處的環(huán)境特征,上網(wǎng)環(huán)境是Wi-Fi還是付費流量、GPS所在地,是在常駐地還是旅游,是白天還是晚上等獲得用戶地理方面的數(shù)據(jù)信息。第三,基于用戶使用社交網(wǎng)絡賬號關聯(lián)登錄后,系統(tǒng)對于用戶社交圈和社交關系的分析,來得到關于用戶更清楚的社會化畫像,從職業(yè)身份或共同愛好入手計算用戶的興趣和需求。最后,系統(tǒng)通過把用戶行為、地理、社交三方面特征組合,利用算法綜合實現(xiàn)對用戶偏好和個性需要的挖掘。
但是,伴隨著個性化推送新聞的發(fā)展,也出現(xiàn)了“信息繭房”這種對現(xiàn)代人接收信息弊大于利的問題。有學者認為出現(xiàn)“信息繭房”的主要原因是,在互聯(lián)網(wǎng)時代,人們可以完全根據(jù)自己的愛好定制信息,從海量信息中隨意選擇自己關注的話題,久而久之,這種“個人日報”式的信息選擇行為會導致網(wǎng)絡繭房的出現(xiàn)。當商業(yè)信息服務利用個人定制的需求開始為個人提供個性化新聞時,人們會不自覺地失去了解不同事物的能力和接觸機會,深陷個人“信息繭房”之中。減輕“信息繭房”負面影響的方法首先是要提高算法對個人信息需求的構(gòu)面了解,不但要滿足受眾顯性的,比如根據(jù)行為特征收集到的需求,還要結(jié)合其社交圈子,綜合改善個性化推送新聞對用戶需求的完整定義和把握,盡可能避免越推送越窄,越推送越偏的現(xiàn)象。
(二)數(shù)據(jù)處理能力有限
除了數(shù)據(jù)來源單一以外,數(shù)據(jù)新聞目前存在的第二個問題是,處理數(shù)據(jù)能力有限。而數(shù)據(jù)處理和分析能力是決定數(shù)據(jù)挖掘的關鍵環(huán)節(jié)。目前,我們所使用的數(shù)據(jù)處理工具和算法都還比較傳統(tǒng),不適用大數(shù)據(jù)規(guī)模大、體量大的特點。祝建華教授說過,雖然大數(shù)據(jù)正在發(fā)生,但是我們對大數(shù)據(jù)的了解、處理能力還處在早期階段。這就勢必會影響數(shù)據(jù)新聞未來的發(fā)展。有學者認為成熟的數(shù)據(jù)處理技術涉及三個方面:存儲、提取和統(tǒng)計分析。
目前,在存儲方面,我們計算機的存儲水平還是遠遠跟不上大數(shù)據(jù)的規(guī)模,分析數(shù)據(jù)前先要把數(shù)據(jù)讀到內(nèi)存里,而現(xiàn)在功能比較強大的計算機內(nèi)存也遠遠滿足不了一個大型網(wǎng)站一天所產(chǎn)生的數(shù)據(jù),這樣一來,這個過程就需要耗費大量的時間,影響數(shù)據(jù)處理速度。根據(jù)2014年萬璞和王麗莎的總結(jié),目前常見的分析數(shù)據(jù)的算法和模型有:①傳統(tǒng)統(tǒng)計方法:抽樣技術、多元統(tǒng)計分析和統(tǒng)計預測方法等。②決策樹:它利用一系列規(guī)則劃分,建立樹狀圖,用樹形結(jié)構(gòu)來表示決策集合,可用于分類和預測,常用的算法有CART、CHAID、ID3、C4.5、C5.0等。③人工神經(jīng)網(wǎng)絡:它模擬人的神經(jīng)元功能,從結(jié)構(gòu)上模仿生物神經(jīng)網(wǎng)絡,經(jīng)過輸入層、隱藏層、輸出層等,對數(shù)據(jù)進行調(diào)整、計算,最后得到結(jié)果,是一種通過訓練來學習的非線性預測模型,它可以完成分類、聚類、特征挖掘、回歸分析等多種數(shù)據(jù)挖掘任務。④遺傳算法:它是基于自然進化理論,在生物進化概念的基礎上設計的一種優(yōu)化技術,它包括基因組合、交叉、變異和自然選擇等一系列過程,通過這些過程以達到優(yōu)化的目的,是模擬基因聯(lián)合、突變、選擇等過程的一種優(yōu)化技術。⑤關聯(lián)規(guī)則挖掘算法:關聯(lián)規(guī)則是描述數(shù)據(jù)之間存在關系的規(guī)則,形式為“A1∧A2∧…∧An→B1∧B2∧…∧Bn,一般分為兩個步驟:第一步,求出頻繁數(shù)據(jù)項集;第二步,用頻繁數(shù)據(jù)項集產(chǎn)生關聯(lián)規(guī)則。⑥最近鄰技術:這種技術通過已辨別歷史記錄的組合來辨別新的記錄,它可以用來做聚類和偏差分析。
根據(jù)以上方法我們可以看出,現(xiàn)有的大數(shù)據(jù)分析技術都是基于計算機技術輔助統(tǒng)計技術實現(xiàn)的,除了遺傳算法和人工神經(jīng)網(wǎng)絡外,都是經(jīng)典的統(tǒng)計學算法,這些算法從19世紀七八十年代開始發(fā)展,到20世紀20年代初成型,距今已有80—120年的歷史。雖然它們具有極高的穩(wěn)定性且較為成熟,但它們是為分析普通數(shù)據(jù)設計的,對于大數(shù)據(jù)的特點來說,難免有不能契合的方面。
(三)數(shù)據(jù)可視化表達程度有限
數(shù)據(jù)挖掘的第三個環(huán)節(jié)是數(shù)據(jù)展示,即可視化表達數(shù)據(jù)處理結(jié)果。米爾科?勞倫茲于2010年在阿姆斯特丹召開的第一屆國際數(shù)據(jù)新聞圓桌會議中指出,數(shù)據(jù)新聞要以可視化的呈現(xiàn)數(shù)據(jù)并合成新聞故事為最后一個流程。
數(shù)據(jù)可視化,在今天已經(jīng)是一個固定的概念,指的是將數(shù)據(jù)信息的“量值”或“關系”等轉(zhuǎn)變?yōu)橹庇^的圖形。數(shù)據(jù)的可視化加工,目前主要包括將數(shù)值型、文本型的數(shù)據(jù)及其關系用視覺化手段,例如圖片、動畫等形式呈現(xiàn)出來。
可視化新聞是隨著數(shù)據(jù)在新聞中的廣泛運用出現(xiàn)并發(fā)展起來的,它是以數(shù)據(jù)為核心、信息為支撐、可視化為基本載體的跨媒體新聞報道形式??梢暬侣劦膬r值一方面取決于它的表現(xiàn)形式,另一方面取決于它對隱藏在宏觀、抽象數(shù)據(jù)背后的新聞故事性的展示。
然而,并不是所有的新聞事實都適合用數(shù)字或數(shù)字化的方式來表現(xiàn)。數(shù)據(jù)的可視化表達一方面受表達形式的局限,在告訴受眾“發(fā)生了什么”的方面要強于告訴受眾“為什么發(fā)生”。當數(shù)據(jù)的可視化僅限于告知事實時,可視化新聞或者數(shù)據(jù)可視化手段就只能用于最基礎的新聞報道。像深度報道這一類的新聞,就不能很好地涉足。另一方面,即便可視化技術有所改善,也很難改變數(shù)據(jù)本身不擅長表現(xiàn)復雜因素和關系的特點。學者丁柏銓說過:“個人與個人或群體之間的關系多涉及政治、經(jīng)濟、文化等各種因素,涉及現(xiàn)實中的利害關系和歷史上的恩恩怨怨?!?/p>
二、人工智能時代數(shù)據(jù)新聞的發(fā)展之道
在人工智能時代,人工智能和大數(shù)據(jù)形成了相互推動的關系,一方面人工智能需要大量的知識和豐富的經(jīng)驗,使機器獲得足夠的數(shù)據(jù)量;另一方面,大數(shù)據(jù)技術在人工智能時代獲得了前所未有的發(fā)展機會,我們就以上有關數(shù)據(jù)挖掘的三個環(huán)節(jié),來看人工智能帶給數(shù)據(jù)存儲、數(shù)據(jù)分析和數(shù)據(jù)展示三個方面的機遇和挑戰(zhàn),作為探討傳感器新聞和可視化新聞未來發(fā)展的技術基礎。
(一)云服務平臺——夯實數(shù)據(jù)存儲基礎
在人工智能時代,伴隨云計算的飛速發(fā)展,關于數(shù)據(jù)存儲的技術能力邁上了新的臺階。云計算指的是在技術上可以理解為將眾多能力較弱的服務器,通過網(wǎng)絡有機集在一起,形成一個能力超強的、可動態(tài)伸縮的資源池以完成大任務。它是一種按需提供的網(wǎng)絡訪問,用戶通過付費進入計算機資源共享池,這些資源包括網(wǎng)絡、服務器、存儲和應用軟件等。而云平臺的出現(xiàn),使得云計算成為互聯(lián)網(wǎng)上一項成熟的公共服務,它的優(yōu)勢在于,平臺性的收集、聚合和儲存海量碎片化的數(shù)據(jù),為進一步分析數(shù)據(jù)提供可靠基礎,是挖掘和處理大數(shù)據(jù)的操作平臺。從整體上來看,這降低了個體儲存、計算、分析數(shù)據(jù)的成本,使整個互聯(lián)網(wǎng)上的數(shù)據(jù)存儲和計算通過云平臺獲得了規(guī)模效應。
不管是技術上還是經(jīng)濟上,云平臺都將為我們應對持續(xù)出現(xiàn)的海量數(shù)據(jù)提供最基礎的技術保障,使人們能更游刃有余地應對數(shù)據(jù)洪流。未來新聞媒體建立自己獨立的數(shù)據(jù)庫是大勢所趨,面對可能到來的海量數(shù)據(jù),大型云服務平臺的出現(xiàn),將緩解有關大數(shù)據(jù)存儲的困境。谷歌于2015年年底已正式建立谷歌云平臺,綜合其他服務為用戶提供一體化解決方案。
(二)智能感知——傳感器新聞:提高數(shù)據(jù)收集質(zhì)量
隨著物聯(lián)網(wǎng)技術的發(fā)展,裝配在大量終端上的各類傳感器可以采集到海量且種類豐富的實時數(shù)據(jù);不斷升級的通信網(wǎng)絡技術,又使這些數(shù)據(jù)可以完整地回傳到云端服務器上;而應用廣泛的云計算技術,令網(wǎng)絡和設備運營商又有途徑去進行實時存儲和高效并行處理。這些都為解決數(shù)據(jù)新聞來源缺乏的問題提供了希望,同時也為傳感器新聞的發(fā)展奠定了基礎。
傳感器新聞來源于2013年6月成立于哥倫比亞大學托爾數(shù)字中心的“傳感器新聞”工作小組,根據(jù)該中心的定義,傳感器新聞指“利用傳感器生成或收集數(shù)據(jù),然后分析、可視化、使用數(shù)據(jù)來支持新聞報道”。目前,在新聞領域應用傳感器還屬于比較新的探索,僅有美國的個別媒體在進行嘗試。
雖然伴隨著移動通信網(wǎng)絡以及智能終端的發(fā)展,采集到的數(shù)據(jù)呈指數(shù)型爆發(fā),但以傳感器收集到的現(xiàn)場數(shù)據(jù)作為新聞數(shù)據(jù)源,卻無法避免量化優(yōu)勢背后的數(shù)據(jù)體積大、結(jié)構(gòu)復雜、冗余度高且價值隱匿等問題。這些問題都會使數(shù)據(jù)分析和提取格外耗費成本,并考驗新聞從業(yè)者的綜合素質(zhì)。
在人工智能時代,具有智能識別和學習能力的分析系統(tǒng)可以幫助媒體有效挖掘大數(shù)據(jù)中最有價值的信息。比如通過進行有效的數(shù)據(jù)分類,提高數(shù)據(jù)資源的利用率和匹配程度。一個常見的情形是,當傳感器采集到大量數(shù)據(jù)進行數(shù)據(jù)匯聚和初步處理時,如果入網(wǎng)網(wǎng)關具備智能感知的功能,就可以過濾掉重復冗余的信息、只上傳必要和價值高的數(shù)據(jù),這樣不僅可以節(jié)省大量的傳輸帶寬,也可以在第一時間收集到敏感信息。新聞媒體在篩選第一系統(tǒng)的數(shù)據(jù)時,如果能配合智能算法,也可以淘汰掉不符合新聞生產(chǎn)標準的低價值數(shù)據(jù),并依據(jù)新聞生產(chǎn)的要求,篩選敏感信息和關鍵部分。最理想的情況是還能做到根據(jù)具體的應用場景和需求合理配置數(shù)據(jù),提高數(shù)據(jù)資源的利用效率。
這樣既緩解了數(shù)據(jù)新聞缺乏有效數(shù)據(jù)源的問題,又幫助數(shù)據(jù)新聞從生產(chǎn)源頭起就提高了分析數(shù)據(jù)的操作效率,從數(shù)據(jù)的結(jié)構(gòu)和質(zhì)量兩個方面作出有益的技術支持。
(三)智能展示——可視化新聞:完善數(shù)據(jù)展示功能
從米爾科.勞倫茲于2010年提出可視化新聞的概念到現(xiàn)在,雖然這一新聞形式誕生還不到十年,但是借助新媒體在信息傳播中的主導地位以及數(shù)據(jù)采集和分析技術的不斷突破,它已經(jīng)表現(xiàn)出了強勁的發(fā)展勢頭。在以大數(shù)據(jù)技術為核心基礎上形成的新聞可視化,關鍵在于如何通過可視化的方式傳遞、通過數(shù)據(jù)挖掘,產(chǎn)生有價值的信息。
目前,數(shù)據(jù)新聞在發(fā)布過程中倚重圖表表達和數(shù)說新聞的方式,在數(shù)據(jù)新聞的最終作品上,自然的科學性是它最大的特點,不擅長講故事和缺乏傳統(tǒng)新聞特有的人文主義關懷精神是它的局限所在。
人工智能(AI)時代,伴隨著視覺技術的進一步發(fā)展和新聞打開方式的不斷創(chuàng)新,數(shù)據(jù)展示技術也在不斷提高,受眾對數(shù)據(jù)成果的可接觸程度也將獲得新的深度。一方面數(shù)據(jù)分析后的結(jié)果可以最大限度地以最方便受眾的方式呈現(xiàn)出來,另一方面數(shù)據(jù)挖掘出的意義關系也可以體現(xiàn)得更明顯。近年興起的虛擬現(xiàn)實(VR)/增強現(xiàn)實(AR)技術,都代表了未來智能展示技術的發(fā)展方向。以2015年媒體對9·3閱兵的報道為例來看,利用VR技術進行新聞現(xiàn)場直播和全景展示已經(jīng)逐步進入新聞媒體的報道中,全景式報道和基于數(shù)據(jù)分析的可視化新聞已經(jīng)成為新聞報道創(chuàng)新的一大亮點。日后,新聞+VR/AR的模式將幫助受眾更清晰地進入時間或空間跨度大的環(huán)境中,在物理形式不受限的條件下認識到數(shù)據(jù)背后更長期、總體的規(guī)律。比起過去傳統(tǒng)的可視化手段,大數(shù)據(jù)與視覺技術的結(jié)合帶來的沉浸式新聞不僅是新技術手段下新的新聞革新方式,更是數(shù)據(jù)可視化新的發(fā)展機會。
數(shù)據(jù)可視化技術的創(chuàng)新不能解決可視化新聞的所有問題,在數(shù)據(jù)新聞發(fā)展的同時,我們不能放棄對新聞事實做質(zhì)性分析和文字描述的工作,畢竟文字記錄才具有表達豐富性和敘事故事性的特征,更能體現(xiàn)新聞產(chǎn)品的人文關懷和新聞活動的本質(zhì)。
三、結(jié)語
隨著人工智能各項技術的發(fā)展,數(shù)據(jù)新聞生產(chǎn)的各個環(huán)節(jié)都獲得了更成熟的技術支撐,從數(shù)據(jù)收集到數(shù)據(jù)分析再到數(shù)據(jù)展示,人工智能技術雖然不能解決數(shù)據(jù)新聞在發(fā)展過程中面對的所有問題,但是AI時代的數(shù)據(jù)新聞,勢必會獲得前所未有的發(fā)展機會。更強有力的信息存儲平臺、更智能的信息識別和采集系統(tǒng)、更人性化的可視化技術,都為數(shù)據(jù)新聞的未來發(fā)展拓寬了道路。
同時,機器人寫作、傳感器新聞和可視化新聞等人工智能時代發(fā)展起來的新聞生產(chǎn)創(chuàng)新模式也昭示著:AI時代的新聞生產(chǎn)和傳播領域?qū)⑹侵腔叟c智能的共同參與、人與機器的合作建構(gòu)的。
https://www.jianshu.com/p/b1f5c50273e6
小編有整理好2018年的大數(shù)據(jù)學習資料,在下方可以看到!
1.入門資料 2,數(shù)據(jù)分析3,機器學習 4.人工智能
《獲取方式》:關注!轉(zhuǎn)發(fā)!私信回復:資料即可免費獲取
熱門資訊
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
2. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
4. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
5. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. AI顯卡繪畫排行榜:4090無懸念,最具性價比出人意料
在AI繪圖領域,Stable Diffusion的顯卡繪圖性能備受關注。本文整理了Stable Diffusion顯卡的硬件要求和性能表現(xiàn),以及2023年3月顯卡AI繪圖效率排行榜和性價比排行榜。歡迎查看最新的AI顯卡算力排行榜。
8. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
10. 10個建筑AI工具,從設計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設計、建筑方案設計、住宅設計、管道設計、出渲染圖、3D掃...
同學您好!