大數(shù)據(jù)市場(chǎng)亂象 | 用人工智能講故事 低質(zhì)虛假數(shù)據(jù)大量倒賣(mài)
時(shí)間:2018-09-13 17:00:00 閱讀:4095 整理:廣州市場(chǎng)調(diào)查公司
大數(shù)據(jù)公司受資本追捧,本質(zhì)上是因?yàn)?,物以稀為貴,但真正能融到資的在市場(chǎng)上其實(shí)并不多,很多用人工智能講故事、單純擁有多少億數(shù)量級(jí)數(shù)據(jù)的公司是很難獲得資本青睞的。
大數(shù)據(jù)行業(yè)看上去似乎并沒(méi)有受資本寒冬的影響。僅今年4月以來(lái),大數(shù)據(jù)行業(yè)就有7家公司獲得融資,其中國(guó)外4家、國(guó)內(nèi)3家,金額總計(jì)約11億元人民幣。而這一情況已經(jīng)持續(xù)了很久,2016年僅上半年就有22起與大數(shù)據(jù)相關(guān)的企業(yè)獲得融資,從天使輪到C輪均有。
伴隨著資本大量進(jìn)入大數(shù)據(jù)行業(yè),出現(xiàn)了創(chuàng)業(yè)公司估值過(guò)高的現(xiàn)象,好像只要打上大數(shù)據(jù)的標(biāo)簽,一些公司的估值動(dòng)輒翻番好幾倍。企業(yè)信用數(shù)據(jù)服務(wù)商上海斯睿德信息技術(shù)有限公司出現(xiàn)在上述7家公司名單中,其不僅近期剛獲得由東方海富領(lǐng)投的數(shù)千萬(wàn)元融資,且最近18個(gè)月已經(jīng)成功完成了3輪融資。而另一家2015年8月剛成立的大數(shù)據(jù)公司鼎復(fù)數(shù)據(jù)也在一年多的時(shí)間內(nèi)完成了2輪1.07億元的融資。
就此現(xiàn)象,上海斯睿德信息技術(shù)有限公司CEO趙杰在接受第一財(cái)經(jīng)采訪時(shí)表示,大數(shù)據(jù)公司受資本追捧,本質(zhì)上是因?yàn)?,物以稀為貴。雖然國(guó)內(nèi)這兩年大數(shù)據(jù)企業(yè)融資速度快、頻率高,但真正能融到資的在市場(chǎng)上其實(shí)并不多,很多用人工智能講故事、單純擁有多少億數(shù)量級(jí)數(shù)據(jù)的公司是很難獲得資本青睞的。
人工智能是個(gè)好“故事”
市場(chǎng)調(diào)查研究員在查閱上述新近完成融資的大數(shù)據(jù)公司資料時(shí)發(fā)現(xiàn),各家企業(yè)無(wú)一例外都在自己的宣傳介紹中提到了人工智能。而不僅是大數(shù)據(jù)公司,一些征信公司和互聯(lián)網(wǎng)金融公司也都會(huì)說(shuō)自己在利用人工智能識(shí)別信用風(fēng)險(xiǎn)或者反欺詐。
但實(shí)際上,人工智能并不是高不可攀的東西。
“我認(rèn)為大家沒(méi)有必要把人工智能給神話了,過(guò)去十年在大數(shù)據(jù)行業(yè)的帶動(dòng)下,深度學(xué)習(xí)、自然語(yǔ)言處理等技術(shù)得到快速發(fā)展,為今天人工智能的爆發(fā)奠定了堅(jiān)實(shí)的基礎(chǔ)。但是如何把掌握的技術(shù)落地成產(chǎn)品,挖掘數(shù)據(jù)資源,幫助企業(yè)用戶更高效、更低成本地解決風(fēng)控問(wèn)題,才是我們努力的方向?!壁w杰表示。
就拿機(jī)器學(xué)習(xí)的建模環(huán)節(jié)來(lái)說(shuō),在過(guò)往的很多場(chǎng)景中其實(shí)都是需要建模的。例如,去銀行貸款買(mǎi)房或者申請(qǐng)信用卡,銀行給你授信,一個(gè)剛畢業(yè)的學(xué)生和在職場(chǎng)工作很多年的高級(jí)白領(lǐng),額度必然是不一樣的,這里就會(huì)涉及到模型的設(shè)立。在此模型中,會(huì)有很多個(gè)維度的數(shù)據(jù),學(xué)歷、收入水平、婚姻狀況、過(guò)往信貸記錄等。過(guò)去往往會(huì)采用專(zhuān)家法和計(jì)量分析等方法建模,通過(guò)人工網(wǎng)查獲取各類(lèi)信息。
現(xiàn)在,伴隨各類(lèi)智能技術(shù)的發(fā)展,機(jī)器可以在分秒內(nèi)處理上十億次的數(shù)據(jù),于是就開(kāi)始引入機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)本質(zhì)上是先找一些數(shù)據(jù)樣本,這些樣本有好有壞。隨后將全量數(shù)據(jù)放入模型中,讓系統(tǒng)自己識(shí)別,如果發(fā)現(xiàn)在好的樣本中90%都具備某一共同特征例如“受過(guò)高等教育”,則系統(tǒng)就會(huì)自動(dòng)認(rèn)為受過(guò)高等教育的人信用佳。反之,當(dāng)系統(tǒng)發(fā)現(xiàn)壞的樣本具備“擁有五張以上信用卡”的特征,它便會(huì)將此認(rèn)定為信用差的特征。隨著樣本數(shù)據(jù)的增多,系統(tǒng)識(shí)別出的特征維度就越全面,得出的結(jié)論也就越準(zhǔn)確。
在當(dāng)前的技術(shù)條件下,機(jī)器學(xué)習(xí)也不是萬(wàn)能的,如果是機(jī)器沒(méi)有學(xué)習(xí)過(guò)的數(shù)據(jù),它便無(wú)法自主做出正確的應(yīng)對(duì)。從1997年IBM的“深藍(lán)”戰(zhàn)勝了卡斯帕羅夫到20年后AlphaGo以4:1的成績(jī)戰(zhàn)勝李世石,驗(yàn)證了人工智能技術(shù)的趨于成熟,隨著樣本數(shù)據(jù)的增多,系統(tǒng)識(shí)別出的特征維度就越全面,得出的結(jié)論也就越準(zhǔn)確。但是AlphaGO輸?shù)舻倪@一局卻是因?yàn)橛龅搅藦臎](méi)有學(xué)習(xí)過(guò)的“怪棋”,價(jià)值網(wǎng)絡(luò)瞬間崩潰。
至于神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、隨機(jī)森林、機(jī)器學(xué)習(xí)等“高大上”的名詞,實(shí)際上也無(wú)需夸大它們的作用。“像多元神經(jīng)網(wǎng)絡(luò)這樣的算法模型早就是非常成熟的多元數(shù)學(xué)統(tǒng)計(jì)方法,很早就應(yīng)用于物理學(xué)、力學(xué)以及工業(yè)領(lǐng)域,但并未被大眾所熟知。也是因?yàn)檫@兩年大數(shù)據(jù)市場(chǎng)火爆,才把這些名詞帶到大眾視野內(nèi)?!壁w杰對(duì)市場(chǎng)調(diào)查研究員表示。
有關(guān)人工智能的故事常常還會(huì)引申到“團(tuán)隊(duì)成員為國(guó)際高端人才”上,在趙杰看來(lái),掌握國(guó)外先進(jìn)的算法技術(shù)只是一個(gè)方面,有些技術(shù)在國(guó)外的應(yīng)用環(huán)境下是適用的,但如果直接照搬到國(guó)內(nèi),不結(jié)合國(guó)內(nèi)的實(shí)際情況,也無(wú)法提供符合國(guó)內(nèi)應(yīng)用場(chǎng)景的解決方案。
好算法不如好數(shù)據(jù)
“Better data beats better algorithm(好數(shù)據(jù)能打敗好算法),有一套厲害的算法模型不如有一套靠譜的數(shù)據(jù)。”
棱鏡大數(shù)據(jù)研究院首席科學(xué)家廖辰瀚博士對(duì)第一財(cái)經(jīng)市場(chǎng)調(diào)查研究員表示。
“實(shí)際上在整個(gè)解決實(shí)際問(wèn)題的過(guò)程中,人工智能建模所花費(fèi)的精力只占30%,而70%的精力都花費(fèi)在信息的獲取和處理數(shù)據(jù)上。用人工智能做風(fēng)控和模型的切入點(diǎn),首先是自動(dòng)化,即用人的思維和方式獲取數(shù)據(jù),提煉數(shù)據(jù),第二步才用到機(jī)器學(xué)習(xí)的算法將獲取的信息進(jìn)行關(guān)聯(lián)?!绷纬藉Q(chēng)。
對(duì)于大數(shù)據(jù)公司而言,高質(zhì)量的數(shù)據(jù)是根本。“目前對(duì)大數(shù)據(jù)市場(chǎng)造成困擾的還有一個(gè)主要方面就是,各家公司都在說(shuō)自己有上億數(shù)量級(jí)的數(shù)據(jù),但卻常常忽略這些數(shù)據(jù)的質(zhì)量?!壁w杰表示。
市場(chǎng)調(diào)查研究員從一位征信業(yè)內(nèi)人士處獲悉,近兩年大數(shù)據(jù)市場(chǎng)給人太多負(fù)面印象的原因在于,真正擁有高質(zhì)量數(shù)據(jù),且擁有數(shù)據(jù)分析能力和產(chǎn)品研發(fā)能力的公司數(shù)量非常有限。目前市場(chǎng)上有很多所謂的大數(shù)據(jù)公司,都是通過(guò)倒賣(mài)數(shù)據(jù)賺取差價(jià)的公司,而這些公司的數(shù)據(jù)來(lái)源,很多來(lái)自數(shù)據(jù)黑市。
“一些數(shù)據(jù)販子由于沒(méi)有任何加工能力,通過(guò)一些關(guān)系,掌握某類(lèi)數(shù)據(jù)源,在不做任何加工的情況下,直接賣(mài)裸數(shù)據(jù),賺取差價(jià)。由于這些數(shù)據(jù)通常都會(huì)不斷更新,不斷會(huì)有新的數(shù)據(jù)加入,也同時(shí)會(huì)有過(guò)期的數(shù)據(jù)失效,因此,只要稍加修改,又會(huì)變成一套全新的數(shù)據(jù)庫(kù),販子們重復(fù)販賣(mài),從中賺取差價(jià)?!鄙鲜稣餍艠I(yè)內(nèi)人士表示。
該人士稱(chēng),“在販賣(mài)的數(shù)據(jù)中,有些數(shù)據(jù)是合法的,有些數(shù)據(jù)是違法的。線上消費(fèi)的、網(wǎng)銀的、pos機(jī)的、信用卡的、運(yùn)營(yíng)商的、甚至是工商的數(shù)據(jù)都有人賣(mài)。除了一些企業(yè)本身會(huì)打包賣(mài)一些數(shù)據(jù),也會(huì)有企業(yè)內(nèi)部人員與外人勾結(jié)聯(lián)手倒賣(mài)數(shù)據(jù),即使是BAT里也有人出來(lái)賣(mài)數(shù)據(jù)。”
市場(chǎng)調(diào)查研究員還從相關(guān)知情人士處了解到,數(shù)據(jù)販子倒賣(mài)的數(shù)據(jù)很多都是臟數(shù)據(jù),由于數(shù)據(jù)通常按量出售,為了把量做上去,里面往往只有30%的數(shù)據(jù)是真實(shí)的,而70%都是造假充量的假數(shù)據(jù)?!叭绻讓拥臄?shù)據(jù)都是虛假、不準(zhǔn)確的數(shù)據(jù),再好、再先進(jìn)的分析模型也不可能解析出正確的結(jié)果?!壁w杰對(duì)市場(chǎng)調(diào)查研究員表示。
Maxent猛犸反欺詐CEO張克此前在接受第一財(cái)經(jīng)采訪時(shí)也表示,做數(shù)據(jù)能夠有優(yōu)勢(shì)的企業(yè),一定是控制了流量的公司,因?yàn)樗^的線上數(shù)據(jù)的來(lái)源都需要依靠線上流量,沒(méi)有流量就沒(méi)有數(shù)據(jù)源。而依靠買(mǎi)賣(mài)數(shù)據(jù)是肯定行不通的,只是在表層包了一個(gè)殼。
關(guān)注公眾號(hào):
華夏經(jīng)緯數(shù)據(jù)科技
更多調(diào)研資訊>>
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來(lái)源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場(chǎng)。 如涉及侵權(quán),請(qǐng)聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。