- 相關(guān)推薦
《大數(shù)據(jù)時(shí)代》讀后感心得2000字以上
凡是過(guò)去,皆為序曲是大數(shù)據(jù)業(yè)者最喜歡引用的語(yǔ)句。大數(shù)據(jù)是現(xiàn)在的潮流,《大數(shù)據(jù)時(shí)代》被認(rèn)為是了解大數(shù)據(jù)的初級(jí)讀物。近期連續(xù)讀了兩遍,第二遍是為了寫(xiě)這篇讀后感,總體而言,值得一看,但細(xì)節(jié)方面卻需要討論了。
維基百科對(duì)大數(shù)據(jù)的解釋:Big data,或稱巨量數(shù)據(jù)、海量數(shù)據(jù)、大資料,指的是所涉及的數(shù)據(jù)量規(guī)模巨大到無(wú)法通過(guò)人工,在合理時(shí)間內(nèi)達(dá)到截取、管理、處理、并整理成為人類所能解讀的信息。
有人說(shuō)現(xiàn)在是讀圖時(shí)代,除去小說(shuō)、心靈雞湯以外,現(xiàn)在的暢銷(xiāo)書(shū)基本都有圖片,這本書(shū)是一個(gè)特例(書(shū)里唯一的圖是出品方湛廬文化做的)
首先嘗試解析一下作者的三大觀點(diǎn),這三大觀點(diǎn)是大數(shù)據(jù)業(yè)者很喜歡引用的三句話:
1 不是隨機(jī)樣本,而是全體數(shù)據(jù)
我想所有人都能意識(shí)到對(duì)全體數(shù)據(jù)的分析優(yōu)于對(duì)隨機(jī)樣本的分析,但在現(xiàn)實(shí)中我們經(jīng)常拿不到全體數(shù)據(jù):一是對(duì)象的特性:比如炸彈的威力,你不可能把所有炸彈都炸掉來(lái)得到全體數(shù)據(jù);二是數(shù)據(jù)的收集方法,每一種方法都有適用的范圍,不太可能包羅萬(wàn)象;三是數(shù)據(jù)分析的角度,戰(zhàn)斗機(jī)只能統(tǒng)計(jì)到飛回來(lái)的飛機(jī)上的彈孔,而墜毀的則無(wú)法統(tǒng)計(jì),沃德通過(guò)分析飛回來(lái)的戰(zhàn)斗機(jī)得出來(lái)最易導(dǎo)致墜毀的薄弱點(diǎn);四是處理能力跟不上,就像以前的天氣預(yù)報(bào)太離譜是因?yàn)閬?lái)不及算那些數(shù)據(jù)。“采樣分析是信息缺乏時(shí)代和信息流通受限制的模擬數(shù)據(jù)時(shí)代的產(chǎn)物”,作者顯然只關(guān)注了一部分原因。
從語(yǔ)言的理解上看,什么是全體數(shù)據(jù),究竟是“我們需要的所有數(shù)據(jù)”,還是“我們能收集到的所有數(shù)據(jù)”,書(shū)中的很多商業(yè)案例中,處理的只是“我們能收集到的所有數(shù)據(jù)”,或者說(shuō)是“我們認(rèn)為的全體數(shù)據(jù)”。人對(duì)自然的認(rèn)識(shí)總是有限的,存在主義認(rèn)為世界沒(méi)有終極的目標(biāo)。書(shū)中舉例“Farecast使用了每一條航線整整一年的價(jià)格數(shù)據(jù)來(lái)進(jìn)行預(yù)測(cè)”,而“整整一年”就是一個(gè)采樣,或者是“我們需要的所有數(shù)據(jù)”。
從歷史的角度看,國(guó)外的托勒密建亞歷山大圖書(shū)館唯一的目的是“收集全世界的書(shū)”,實(shí)現(xiàn)“世界知識(shí)總匯”的夢(mèng)想,國(guó)內(nèi)的乾隆匯編四庫(kù)全書(shū),每個(gè)收集的過(guò)程都有主觀因素在里面,而他們當(dāng)時(shí)都認(rèn)為可以收集全部的書(shū)籍,到最后,我們也沒(méi)有得到那個(gè)夢(mèng)中的全體。
2 不是精確性,而是混雜性
既然我們過(guò)去總是在抽樣,那本身就是在一個(gè)置信水平下,有明確的容錯(cuò)度或者是偏差值。人類永遠(yuǎn)知道我們是在精確性受限的條件下工作。同時(shí),作者本身也承認(rèn) “錯(cuò)誤并不是大數(shù)據(jù)固有的特性,而是一個(gè)亟需我們?nèi)ヌ幚淼默F(xiàn)實(shí)問(wèn)題,并且有可能長(zhǎng)期存在”。那大數(shù)據(jù)的特征究竟是精確性還是混雜性?
由此衍生出一個(gè)問(wèn)題,大數(shù)據(jù)的品質(zhì)如何控制:一、本身就不要求精確,但是不精確到何種程度是需要定義的,否則就亂套了,換個(gè)角度,如果定義了容錯(cuò)度,那符合條件的都是精確的(或者說(shuō)我這句話還是停留在小數(shù)據(jù)時(shí)代?這里的邏輯我沒(méi)有理順)。就像品質(zhì)管理大師克勞斯比提出過(guò)零缺陷理論,我一直覺(jué)得是一個(gè)偽命題,缺陷是一定存在的,就看如何界定了;二、大量非結(jié)構(gòu)化數(shù)據(jù)的處理,譬如說(shuō)對(duì)新聞的量化、情感的分析,目前對(duì)非SQL的應(yīng)用還有巨大的進(jìn)步空間。
“一個(gè)東西要出故障,不會(huì)是瞬間的,而是慢慢地出問(wèn)題的”。“通過(guò)找出一個(gè)關(guān)聯(lián)物并監(jiān)控它,我們就能預(yù)測(cè)未來(lái)”。這句話當(dāng)然是很認(rèn)同,但不意味著我們可以放棄精確性,只是說(shuō)我們需要重新定義精確度。之于項(xiàng)目管理行業(yè),如果一個(gè)項(xiàng)目出了嚴(yán)重的問(wèn)題,我們相信,肯定是很多因素和過(guò)程環(huán)節(jié)中出了問(wèn)題,我們也失去了很多次挽救的機(jī)會(huì)。而我們一味的容忍混雜性的話,結(jié)果顯然是不能接受的。
3 不是因果關(guān)系,而是相關(guān)關(guān)系
這是本書(shū)對(duì)大數(shù)據(jù)理論的最大的貢獻(xiàn),也是最受爭(zhēng)議的地方。連譯者都有點(diǎn)看不下去了。
相關(guān)關(guān)系我實(shí)在是太熟了,打小就學(xué)的算命就是典型的“不是因果關(guān)系,而是相關(guān)關(guān)系”。算命其實(shí)是對(duì)趨向性的總結(jié),在給定條件下,告訴你需要遠(yuǎn)離什么,接近什么,但不會(huì)告訴你為什么那樣做。
我們很多時(shí)候都在說(shuō)科學(xué),然而,什么是科學(xué),沒(méi)有人能講清楚。我對(duì)科學(xué)的認(rèn)識(shí)是:一、有一個(gè)明確的范圍;二、在這個(gè)范圍內(nèi)樹(shù)立一個(gè)強(qiáng)制正確的公理;三、有明確的推演過(guò)程;四 可以復(fù)制。科學(xué)的霸道體現(xiàn)在把一切不符合這四個(gè)條件的事物都斥為偽科學(xué)、封建迷信,而把自己的錯(cuò)誤都用不符合前兩條來(lái)否決。從這個(gè)定義來(lái)看,大數(shù)據(jù)不符合科學(xué)。
混沌學(xué)理論中的蝴蝶效應(yīng)主要關(guān)注相關(guān)關(guān)系。它是指對(duì)初始條件敏感性的一種依賴現(xiàn)象,輸入端微小的差別會(huì)迅速放大到輸出端,但能輸出什么,誰(shuí)也不知道。
人類一旦放棄了對(duì)因果關(guān)系的追求,也就放棄了自身最優(yōu)秀的品質(zhì):意志力。很多人不愿意相信算命是擔(dān)心一旦知道了命運(yùn),就無(wú)法再去奮斗。即使我相信算命,也在探求相關(guān)關(guān)系中的因果要素。我放棄第一份工作的原因之一是厭倦了如此確定的明天:一個(gè)任務(wù)發(fā)出去,大概能預(yù)測(cè)到哪些環(huán)節(jié)會(huì)出問(wèn)題,只要不去 follow,這些環(huán)節(jié)十有八九會(huì)出問(wèn)題。
解析完這三大觀點(diǎn),下面是我對(duì)大數(shù)據(jù)理論的一些疑惑。大數(shù)據(jù)是目前風(fēng)行的反饋經(jīng)濟(jì)中的重要一環(huán),在金融、互聯(lián)網(wǎng)行業(yè)的應(yīng)用最為廣泛,而這些行業(yè)都是大家所認(rèn)為的高薪領(lǐng)域。很多時(shí)候我就在想,所謂無(wú)形的手所產(chǎn)生的趨勢(shì)究竟是不是無(wú)形的。比如幾家公司強(qiáng)推一個(gè)概念,說(shuō)這是趨勢(shì),不久就真的變成趨勢(shì)了。我們身邊活生生的例子就是天貓的雙十一和京東的618,一個(gè)巨頭開(kāi)路,無(wú)數(shù)人跟風(fēng),自然就生造出購(gòu)物節(jié),至于合理不合理,追究的意義也不大,因?yàn)楹芏嗍虑槭菦](méi)有可比性的。這和沒(méi)有強(qiáng)制控制中心的蜂群思維又不一樣。
1 數(shù)據(jù)獨(dú)裁。個(gè)人意志將受制于集體意志,個(gè)人的自由在哪里?用大數(shù)據(jù)預(yù)測(cè)來(lái)懲罰人的行為又確定的違反了無(wú)罪推定的原理。
2 所有數(shù)據(jù)都來(lái)源于過(guò)去,大數(shù)據(jù)分析出來(lái)的確定性結(jié)果是否意味著我們?cè)谥貜?fù)過(guò)去?拉普拉斯的決定論已經(jīng)被認(rèn)為是錯(cuò)誤的,愛(ài)因斯坦也說(shuō)過(guò)“上帝不會(huì)跟宇宙玩骰子”,但霍金不同意這句話。
3 在金融市場(chǎng)中,每個(gè)相關(guān)性都有對(duì)應(yīng)的利潤(rùn)空間。如果大家都基于同樣的數(shù)據(jù)(假設(shè)我們必須用全體數(shù)據(jù),那全體數(shù)據(jù)顯然是一樣的),最優(yōu)秀的數(shù)據(jù)算法師會(huì)得出同樣的結(jié)果,市場(chǎng)也會(huì)反應(yīng)得非常高效,導(dǎo)致相關(guān)性套利空間的減少和消失。歷次金融市場(chǎng)的危機(jī),也都是量化交易觸發(fā)了相同的交易方向,導(dǎo)致市場(chǎng)失控。就像大家都認(rèn)為明天會(huì)堵車(chē)而不開(kāi)車(chē),明天自然就不會(huì)堵了,海森堡的不確定性原理也這么說(shuō)。
4 涉及的隱私問(wèn)題,這點(diǎn)在書(shū)里寫(xiě)了一些,我始終覺(jué)得還欠缺什么,只是沒(méi)想好。
5 數(shù)字化之后的數(shù)據(jù)保存期限,在企業(yè)的ISO管理中有對(duì)保留時(shí)限的要求,這些數(shù)據(jù)基本都是原始數(shù)據(jù)。在大數(shù)據(jù)的背景下,分析后的數(shù)據(jù)是否也需要保存?因?yàn)檫@也屬于全體數(shù)據(jù)啊。順便列一下數(shù)據(jù)量級(jí)的縮寫(xiě):2的10次方是KB,20次方是MB,30次方是GB,40次方是TB,50次方是PB,60次方是 EB,70次方是ZB,80次方是YB。
6 資產(chǎn)價(jià)值,這點(diǎn)書(shū)里也寫(xiě)了,當(dāng)大數(shù)據(jù)真的被公眾接受的話,會(huì)計(jì)準(zhǔn)則如果調(diào)整也會(huì)是一個(gè)大問(wèn)題。
看完這本書(shū),總是覺(jué)得作者說(shuō)的過(guò)于絕對(duì),也許是我的認(rèn)識(shí)太淺了吧,所以最后用法演四戒做總結(jié):
勢(shì)不可以使盡,使盡則禍必至
福不可以受盡,受盡則緣必孤
話不可以說(shuō)盡,說(shuō)盡則人必易
規(guī)矩不可行盡,行盡則事必繁
【《大數(shù)據(jù)時(shí)代》讀后感心得字以上】相關(guān)文章:
大數(shù)據(jù)時(shí)代的創(chuàng)業(yè)趨勢(shì)06-12
大數(shù)據(jù)時(shí)代的績(jī)效管理03-05
大數(shù)據(jù)時(shí)代讀書(shū)筆記03-31
大數(shù)據(jù)時(shí)代網(wǎng)絡(luò)教育論文12-04
大數(shù)據(jù)時(shí)代讀后感1000字(精選7篇)05-30
大數(shù)據(jù)時(shí)代新聞傳播創(chuàng)新研究論文11-10
大數(shù)據(jù)時(shí)代信息安全與隱私保護(hù)論文06-26