大數(shù)據(jù)時(shí)代來(lái)臨,你應(yīng)該具備的市場(chǎng)調(diào)研數(shù)據(jù)分析思維
時(shí)間:2018-07-20 11:06:00 閱讀:3721 整理:廣州市場(chǎng)調(diào)查公司
處于大數(shù)據(jù)時(shí)代的今天,我們應(yīng)該要了解一些統(tǒng)計(jì)學(xué)的常識(shí),具備一些市場(chǎng)調(diào)研大數(shù)據(jù)的思維,我們以以下四點(diǎn)來(lái)做簡(jiǎn)單描述:
1 相關(guān)性
混淆相關(guān)和因果,不能建立多元相關(guān)思維模型,簡(jiǎn)直是人們犯蠢的重災(zāi)區(qū)!
因果的意思是,A的發(fā)生必然會(huì)導(dǎo)致B,B的發(fā)生必然以A的發(fā)生為前提。相關(guān)則不一定,僅僅可能是A,B同時(shí)發(fā)生了。
比如暴飲暴食導(dǎo)致胃痛,就是一種因果關(guān)系。吃太多胃承受不了,必然會(huì)痛。胃之所以會(huì)痛,就是因?yàn)槟愠粤颂鄸|西進(jìn)去(控制其他變量的前提下)。
但名校畢業(yè)和賺很多錢(qián),這就不是因果關(guān)系。這只是一種相關(guān)關(guān)系,而且是一種多元的相關(guān)關(guān)系。
換句話說(shuō),賺錢(qián)這個(gè)事實(shí),不僅和學(xué)校學(xué)歷相關(guān),還和很多其他因素相關(guān),比如長(zhǎng)相、行業(yè)、冒險(xiǎn)精神等等。
現(xiàn)在明白我為什么說(shuō)上面那些問(wèn)題很蠢了吧。誰(shuí)告訴你清北畢業(yè)就一定可以去投行?同理,誰(shuí)告訴你,哈佛的學(xué)生就一定比咪蒙賺錢(qián)賺得多?
清北畢業(yè)和去投行,只是相關(guān)性,且只是相關(guān)因子當(dāng)中的一個(gè),同理,哈佛畢業(yè)和賺錢(qián)多,也是這個(gè)道理。
如果把一個(gè)結(jié)果稱為Y,諸多和它相關(guān)的因素稱為X,那么Y和X的關(guān)系應(yīng)該是:
Y=AX.
其中A=[a0,a1,a2...an], X=[x0,x1,x2…xn]’
以上是一個(gè)最基本的多元相關(guān)模型。比如,賺錢(qián)是Y,那它對(duì)應(yīng)的X,包括了學(xué)歷、起始資本(家庭背景)、努力程度、長(zhǎng)相,等等。
如果以多元相關(guān)模型來(lái)思考問(wèn)題,根本就不可能提出為什么一個(gè)哈佛的還不如咪蒙賺得多這種愚蠢的問(wèn)題。
明白了這一點(diǎn),你也不會(huì)再提憑什么奶茶長(zhǎng)得好看就可以搞定東哥,為什么美聯(lián)儲(chǔ)加息了股票反而上漲,名校畢業(yè)的不如技校畢業(yè)的賺得多,這一類愚蠢的問(wèn)題了。
簡(jiǎn)單來(lái)說(shuō),記住一點(diǎn):
事情的發(fā)生,往往都是一個(gè)復(fù)雜系統(tǒng)里,多因素共同作用的結(jié)果。
凡事都盡量避免用單因素模型去解釋。這是避免你變得很蠢的重要思維法寶。
2 樣本偏差
人們習(xí)慣通過(guò)很少的觀察值,就得出結(jié)論。這樣的結(jié)論,往往就存在樣本不足導(dǎo)致的偏差。
比如,你說(shuō)吸煙有害健康,勸身邊人戒煙。煙民們常用的借口是這樣的:
你看隔壁王大爺,都九十歲了,抽煙抽了一輩子,照樣健健康康的。張二蛋,煙酒不沾,三十歲就歸了西。所以呀,抽煙有害健康,都是扯淡騙人的!
比如,有人跟蹤過(guò)每年的高考狀元后來(lái)的職業(yè)發(fā)展路徑,最終發(fā)現(xiàn)這些狀元,絕大多數(shù)并沒(méi)有成為人中龍鳳,國(guó)之棟梁,于是他們得出結(jié)論:
高考狀元最終將走向平庸,高考對(duì)篩選人才并沒(méi)什么卵用!
再比如,幾個(gè)清北畢業(yè)的人,上知乎回答了個(gè)問(wèn)題,說(shuō)自己清北畢業(yè),也買(mǎi)不起學(xué)區(qū)房,甚至也在北京留不下來(lái),于是就有人得出結(jié)論:
清北的學(xué)歷不如學(xué)區(qū)房值錢(qián)!
以上的例子,統(tǒng)統(tǒng)犯了小樣本偏差的統(tǒng)計(jì)錯(cuò)誤。換句話說(shuō),考察的樣本太少,根本不可能得出可靠的結(jié)論。
看吸煙是否有害健康,應(yīng)該看的是整個(gè)煙民群體和非煙民群體的比較,光一個(gè)王大爺和張二蛋怎么能得出結(jié)論。
高考狀元的容量加起來(lái)不過(guò)幾百人,但非狀元人數(shù)上千萬(wàn),幾千萬(wàn)人當(dāng)中出現(xiàn)馬云馬化騰,當(dāng)然更正常。
說(shuō)清北畢業(yè)買(mǎi)不起房的,也只是發(fā)聲的少數(shù)人,而那些悶聲發(fā)大財(cái)?shù)那灞比?,看到這樣的結(jié)論,恐怕只會(huì)默默地罵一句SB。
說(shuō)到樣本偏差,就必須提到有名的「紅球?qū)嶒?yàn)」。
假設(shè)有兩個(gè)盒子:A和B.
A盒:2/3的紅球,1/3的藍(lán)球。
B盒:2/3的藍(lán)球,1/3的紅球。
現(xiàn)在我們把兩個(gè)盒子遮起來(lái),從中隨機(jī)抽取小球出來(lái)。換句話說(shuō),這個(gè)時(shí)候,你不知道哪個(gè)是A哪個(gè)是B,只知道盒子1和盒子2。
我們從盒子1當(dāng)中抽取了4個(gè)紅球和1個(gè)藍(lán)球,一共5個(gè)。從盒子2當(dāng)中,抽取了20個(gè)紅球,10個(gè)藍(lán)球,一共30個(gè)。也即是:
盒子1:4個(gè)紅球,1個(gè)藍(lán)球,共5個(gè)。
盒子2:20個(gè)紅球,10個(gè)藍(lán)球,共30個(gè)。
現(xiàn)在問(wèn),哪個(gè)盒子更有可能是A盒,是1還是2?
多數(shù)人的答案是1。因?yàn)?當(dāng)中紅球的概率是80%,而2當(dāng)中只有67%。A盒當(dāng)中的紅球概率更高,所以1是A盒。
但答案恰恰相反,盒子2才更有可能是A盒。因?yàn)樵诟嗟臉颖玖肯?,它保證了紅球的概率遠(yuǎn)高于藍(lán)球。
學(xué)過(guò)概率論的同學(xué)應(yīng)該馬上反應(yīng)出來(lái),這是一個(gè)典型的條件概率問(wèn)題,用貝葉斯公式可以很容易計(jì)算:
P(A|1)=P(A1)/P(1)=P(A1)/(P(A1)+P(B1))=0.89.
P(A|2)=P(A2)/P(2)=P(A2)/(P(A2)+P(B2))=0.99.
看不懂公式的同學(xué)可以略過(guò),你需要記住一點(diǎn)即可:
統(tǒng)計(jì)推斷,樣本量越大,越可靠。基于小樣本的結(jié)論,往往都存在問(wèn)題。
以后不要再很蠢地說(shuō),你看,名校畢業(yè)的也在北京買(mǎi)不起房,所以學(xué)歷沒(méi)什么卵用。
3 控制變量
控制變量的意思是,控制了這個(gè)因素,來(lái)看其他因素對(duì)事物發(fā)生的影響。最直觀的表達(dá)就是 “假設(shè)其他條件不變的情況下”,這種假設(shè),就是很典型的一種控制變量的假設(shè)。
回到我們之前討論的名校畢業(yè)掙錢(qián)不多的問(wèn)題,名校畢業(yè)照樣買(mǎi)不起學(xué)區(qū)房,很多人據(jù)此得出結(jié)論:
名校也沒(méi)什么卵用,甚至上大學(xué)也沒(méi)什么卵用,照樣買(mǎi)不起房,還不如王小二開(kāi)個(gè)煎餅攤子掙得多。
這個(gè)推理最大的問(wèn)題就是控制變量的不可比。
你在對(duì)比名校畢業(yè)生和開(kāi)早餐鋪?zhàn)拥耐跣《r(shí),隱含了一個(gè)極為重要的有關(guān)控制變量的假設(shè):
除去學(xué)歷這個(gè)因素,其他條件都是一樣,且不變的。
但很顯然,一個(gè)清北畢業(yè)生和沒(méi)上過(guò)大學(xué)的王小二,除去學(xué)歷的不同,在其他方面,也就是控制變量方面,也存在巨大的差異!
換個(gè)思路,不用橫向?qū)Ρ?,縱向來(lái)看,假設(shè)其他條件不變的情況下,一個(gè)清北畢業(yè)生,沒(méi)有清北的學(xué)歷,他會(huì)過(guò)得更好還是更慘?
這樣的比較才是有意義的。
同理,也只有比較具有類似家庭背景,長(zhǎng)相水平,努力程度的清北畢業(yè)生和一般學(xué)校甚至沒(méi)上過(guò)大學(xué)的人,他們誰(shuí)掙錢(qián)多,這樣的比較才是有意義的。
英文當(dāng)中有個(gè)很好的表達(dá)叫 Apple to Apple,就是比較對(duì)象要要一致??上覀兇蟛糠秩俗龅亩际荘ear to Apple這樣的比較,毫無(wú)意義。
再說(shuō)一遍,我們考察單一變量對(duì)結(jié)果的影響時(shí),一定要保持控制變量的不變且可比。不然這樣比較得出的結(jié)論,毫無(wú)意義。
你不能因?yàn)樘焯炝妹玫耐跛悸?,比天天工作十六小時(shí)的投行民工,錢(qián)更多,就據(jù)此否認(rèn)努力工作沒(méi)有用。你也不能因?yàn)橥瑢W(xué)有個(gè)好爸爸,就否認(rèn)平民家庭出身的人奮斗沒(méi)有意義。
在考察努力這一變量對(duì)成功的影響上,你和王思聰?shù)摹翱刂谱兞肯嗤钡募僭O(shè)并不成立。
反過(guò)來(lái),就你自己而言,控制其他變量不變,你不努力和努力的結(jié)果差異,一下子就會(huì)清晰起來(lái)。這才是思考問(wèn)題的正確方式。
不少反雞湯人士認(rèn)為,努力沒(méi)什么用,家庭出身決定一切,先天條件決定一切,時(shí)代大勢(shì)決定一切,這些論點(diǎn),統(tǒng)統(tǒng)都是愚蠢的,也是錯(cuò)誤的,因?yàn)樗麄兒雎粤丝刂谱兞康囊蛩亍?
4 系統(tǒng)思維
統(tǒng)計(jì)常識(shí)除了以上三點(diǎn),還有很多。比如假設(shè)檢驗(yàn),樣本和母體的關(guān)系,統(tǒng)計(jì)一類和二類錯(cuò)誤,置信水平等等,文章里沒(méi)辦法一一講述。
但我認(rèn)為,弄清本文的三個(gè)基本常識(shí),已經(jīng)可以幫你避免很多愚蠢的錯(cuò)誤。這些常識(shí)不是相互孤立的,在考察問(wèn)題的過(guò)程當(dāng)中,常常會(huì)同時(shí)運(yùn)用到它們。
比如還是說(shuō)名校畢業(yè)生買(mǎi)房的問(wèn)題。
首先要問(wèn),是不是真的清北畢業(yè)生就買(mǎi)不起學(xué)區(qū)房,這個(gè)樣本到底有多大?是不是小樣本偏差,或者幸存者偏差得出的這個(gè)結(jié)論?
其次我們要想,清北畢業(yè)生買(mǎi)不起學(xué)區(qū)房,是一件多么令人驚訝的事情嗎?當(dāng)然不是,因?yàn)閽赍X(qián)這個(gè)事情,本身并不只和學(xué)歷相關(guān),它還和很多其他因素相關(guān)。
也因此,名校畢業(yè)的同學(xué),也不要總覺(jué)得自己有什么了不起,你得清晰地意識(shí)到,收入水平和你的教育程度,并非因果關(guān)系。意識(shí)到這一點(diǎn),能讓你認(rèn)清真相,接受現(xiàn)實(shí),并更好得在其他方面去努力。
最后,因?yàn)槠渌矫娴囊蛩兀热缂彝コ錾?,比如行業(yè)影響,即使名校畢業(yè)真的也買(mǎi)不起房,你就要因此感到沮喪和否定名校教育帶給你的價(jià)值了嗎?當(dāng)然不應(yīng)該!
因?yàn)榭刂谱兞康乃枷敫嬖V你,其他條件不變的情況下,你讀不讀名校,收入的差異還是非常顯著的。
除了上面的四點(diǎn)之外,我們?cè)賮?lái)談一談學(xué)好統(tǒng)計(jì)好處:
第一,體驗(yàn)到一種與眾不同的思維方式。
最近朋友圈流行兩只大熊貓的萌對(duì)話,其中一只對(duì)另一只說(shuō),你看看我們,就知道這個(gè)世界非黑即白。另外一只大熊貓于是伸出了紅色的舌頭。這個(gè)笑話告訴我們,世界并非非黑即白。統(tǒng)計(jì)學(xué)的思維就是永遠(yuǎn)不肯定這個(gè)世界到底是什么樣子的。統(tǒng)計(jì)學(xué)永遠(yuǎn)是講概率的,就是可能性。莊子說(shuō),一尺之錘,日取其半,而萬(wàn)世不竭。這就是一種概率思維方式。所以,嗯,我喜歡宋冬野,他唱到:昨天晚上,我差一點(diǎn)就他媽地死了。他到底死沒(méi)死啊??赡苄?,是最值得人玩味的。
第二,學(xué)會(huì)看問(wèn)題,懂得數(shù)字的意義。
例如,新聞報(bào)道中經(jīng)常說(shuō)某市人均收入為1萬(wàn)元。每每出現(xiàn)這樣的報(bào)道,就有很多網(wǎng)友驚呼自己被平均了。為什么會(huì)造成這樣的認(rèn)知錯(cuò)覺(jué)呢?這是因?yàn)樾侣剤?bào)道并沒(méi)有告訴我們數(shù)據(jù)的分布是什么樣的。比方說(shuō),可能有20%的人掌握了80%的收入,余下80%的人掌握了總收入的20%,那這80%的人肯定覺(jué)得自己被平均了。所以,學(xué)過(guò)統(tǒng)計(jì)的人,當(dāng)看到這樣的數(shù)字的時(shí)候,就會(huì)多問(wèn)幾個(gè)為什么,就能明白數(shù)字背后的真實(shí)含義了。
此外,如果你學(xué)了統(tǒng)計(jì)學(xué)的抽樣原理,或許你會(huì)進(jìn)一步質(zhì)疑,這個(gè)人均收入是怎么算出來(lái)的。是統(tǒng)計(jì)了全市所有人口的收入數(shù)據(jù),還是只抽取了一部分人的收入數(shù)據(jù)。如果是抽取了一部分人,是按照什么原則抽取的?這些都會(huì)影響到數(shù)據(jù)的真實(shí)性與可信性。
第三,像佛那樣懂因果,知報(bào)應(yīng)。
統(tǒng)計(jì)學(xué)常常研究?jī)蓚€(gè)因素之間的關(guān)系,叫做因果關(guān)系。例如,你的學(xué)歷對(duì)你收入的影響。統(tǒng)計(jì)學(xué)家可能會(huì)說(shuō),學(xué)歷每提升一個(gè)層次,年收入將提高1.2萬(wàn)元。所以不要相信讀書(shū)無(wú)用論,你要相信概率。如果你相信自己能成為比爾蓋茨,那讀書(shū)對(duì)你確實(shí)沒(méi)意義,同樣,這只是小概率事件,基本不會(huì)發(fā)生在你身上。
第四,用數(shù)據(jù)說(shuō)話,讓你的說(shuō)服力要爆表。
當(dāng)你向領(lǐng)導(dǎo)匯報(bào)工作的時(shí)候。
新人甲是這么匯報(bào)的:
今年我們?cè)谌A東市場(chǎng)一共投入了100萬(wàn)元推廣費(fèi)用。我們做了很多有影響力的活動(dòng),產(chǎn)生了良好的品牌效果。用戶對(duì)我們的產(chǎn)品非常認(rèn)可,在使用后很多都成為我們的忠誠(chéng)的用戶。我們?cè)谌A東地區(qū)的市場(chǎng)占有率進(jìn)一步提升。我希望明年能加大在這一地區(qū)的投入,以便產(chǎn)生更好的市場(chǎng)效果。
新人乙是這么匯報(bào)的:
今年我們?cè)谌A東市場(chǎng)一共投入了100萬(wàn)元推廣費(fèi)用。其中,投放廣告50萬(wàn),落地活動(dòng)宣傳30萬(wàn),促銷(xiāo)樣品20萬(wàn)。共帶來(lái)3萬(wàn)新增用戶,提升市場(chǎng)占有率5個(gè)百分點(diǎn),預(yù)計(jì)在未來(lái)一年提升這一地區(qū)的銷(xiāo)售額500萬(wàn)元。
如果你是領(lǐng)導(dǎo),你會(huì)喜歡哪個(gè)匯報(bào)?
很顯然,大部分人會(huì)選擇后者。清晰的數(shù)據(jù)能傳達(dá)清晰的信息。那些非常、很多、進(jìn)一步寫(xiě)在公文里或許還可以,但是在市場(chǎng)匯報(bào)中,這種詞匯簡(jiǎn)直就是一團(tuán)漿糊。領(lǐng)導(dǎo)早晨在家里已經(jīng)挨訓(xùn)了,你就不要給領(lǐng)導(dǎo)添堵啦。
關(guān)注公眾號(hào):
華夏經(jīng)緯數(shù)據(jù)科技
更多調(diào)研資訊>>
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來(lái)源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點(diǎn),不代表華夏經(jīng)緯立場(chǎng)。 如涉及侵權(quán),請(qǐng)聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。