普林斯頓奇怪研究惹毛facebook
上個月底,美國普林斯頓大學(xué)發(fā)表了一篇十分有料的研究報告,報告上稱,按照普林斯頓研究人員的統(tǒng)計和計算,目前的社交網(wǎng)站龍頭老大facebook在三年內(nèi)將會流失百分之八十的用戶,面臨關(guān)門大吉的境地。這份報告寫得十分正式,一點也不像惡搞的玩笑,經(jīng)過各大媒體的瘋狂轉(zhuǎn)載,facebook終于怒了,幾天之后facebook的數(shù)據(jù)科學(xué)家們也發(fā)表了一份研究報告,用和普林斯頓研究員一樣的數(shù)學(xué)模型和數(shù)據(jù)獲取渠道,得到了更聳人聽聞的分析結(jié)果:普林斯頓大學(xué)學(xué)生將在2018年減少一半,到2021年將失去所有學(xué)生。
很明顯,facebook和普林斯頓的互掐在業(yè)界已經(jīng)成了一個段子,他們的分析結(jié)果顯然都是不靠譜的,但是他們所用的方法,卻是實實在在的大數(shù)據(jù)技術(shù)和嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)模型,難道,數(shù)據(jù)真的會說謊嗎?
分析算法和數(shù)據(jù)渠道選用不當(dāng),數(shù)據(jù)確實會說謊
之所以普林斯頓和facebook的研究報告會得出那樣離譜的結(jié)果,主要原因在于他們獲取數(shù)據(jù)的渠道以及分析數(shù)據(jù)所用的算法模型不當(dāng),在數(shù)據(jù)分析中,只要這兩個東西錯了,數(shù)據(jù)一定會“說謊”。
研究報告中,普林斯頓和facebook用于分析對方的模型都是“流行病學(xué)模型”,這個模型一般被用于預(yù)測某種傳染性疾病從爆發(fā)到消失的時間及規(guī)模,初步看來,普林斯頓大學(xué)和facebook的使用人群都符合“未感染”、“感染中”、“已痊愈”的三類劃分,與流行病模型確實有相似之處,但仔細(xì)一想?yún)s經(jīng)不起推敲,因為流行病會受到藥物及人體自身免疫系統(tǒng)的抵抗而消失,但facebook和普林斯頓大學(xué)卻不會,相反,社交軟件和高等學(xué)府是人們需要的東西。
除了分析模型選用錯誤,普林斯頓大學(xué)在獲取數(shù)據(jù)的渠道上,也存在選擇不當(dāng)?shù)膯栴},研究人員在統(tǒng)計facebook的使用度時,依靠的是谷歌上“facebook”詞條的搜索數(shù)量,并且由“facebook”詞條的搜索頻率越來越低就判斷出facebook正在流失用戶,這是非常武斷的。因為隨著移動技術(shù)的發(fā)展,越來越多的人會通過客戶端而不是網(wǎng)頁來登錄facebook,在這種趨勢下,谷歌上“fcebook”詞條的搜索頻率必然會越來越低,但這并不代表它的用戶數(shù)量也在減少。
普林斯頓和facebook的段子我們可以一笑而過,在數(shù)據(jù)分析時,準(zhǔn)確選用分析模型及數(shù)據(jù)來源的重要性由此也可見一斑,不然數(shù)據(jù)真說起謊來,可是一點也不好笑。