結(jié)束了概率,下面開(kāi)始統(tǒng)計(jì)。這一篇,是統(tǒng)計(jì)的一個(gè)小介紹。
統(tǒng)計(jì)是研究數(shù)據(jù)的學(xué)科。它包括描述數(shù)據(jù),推測(cè)群體信息,判斷假設(shè)的真?zhèn)巍=y(tǒng)計(jì)是一門實(shí)用學(xué)科。人們利用統(tǒng)計(jì),尋找下一個(gè)NBA巨星,推測(cè)奧斯卡獎(jiǎng)項(xiàng),尋找自己的真心伴侶。在電影“點(diǎn)球成金”中,球隊(duì)的經(jīng)理就是利用統(tǒng)計(jì)思想,來(lái)搜尋球員,管理球隊(duì),最終造就了一支勁旅。
點(diǎn)球成金?
?
統(tǒng)計(jì)這件大事
如果說(shuō)最早有統(tǒng)計(jì)意識(shí)的人,那莫過(guò)于古往今來(lái)的“王霸”之人。精明的王者,早早的意識(shí)到數(shù)據(jù)的重要性,也因此從統(tǒng)計(jì)數(shù)據(jù)中獲得信息優(yōu)勢(shì)。劉邦占領(lǐng)咸陽(yáng)后,蕭何先去收集的,是王宮里的戶籍、地理、人口等手冊(cè)。后來(lái)楚霸王來(lái)了,則是燒殺搶掠一番。項(xiàng)羽在“大數(shù)據(jù)”意識(shí)上,就輸給了劉邦陣營(yíng)。
因數(shù)據(jù)而流傳千古的,還有征服者威廉。這位來(lái)自諾曼底的王者,以旺盛的精力統(tǒng)治著英格蘭。他派遣手下,走遍英格蘭的每個(gè)村莊,編纂成統(tǒng)計(jì)書 (Domesday Book),詳細(xì)的記錄了英格蘭每個(gè)地區(qū)的人口、地理和物產(chǎn),甚至于精確到每家養(yǎng)殖的牲口數(shù)目。無(wú)怪乎諾曼底王朝可以延續(xù)數(shù)百年。
Domesday Book
?
現(xiàn)代統(tǒng)計(jì)誕生于歐洲近代,主要服務(wù)于政府部門。統(tǒng)計(jì)部門的建立受益于啟蒙主義思想。政府管理從中世紀(jì)的影響中走出,開(kāi)始以理性和科學(xué)的方式,記錄國(guó)家發(fā)展。農(nóng)業(yè)社會(huì)向工業(yè)社會(huì)轉(zhuǎn)型,政府需要更高效的方式,了解國(guó)家的方方面面。概率的思想融入統(tǒng)計(jì)學(xué),統(tǒng)計(jì)從單純的數(shù)字記錄,向估計(jì)和推測(cè)發(fā)展。隨著現(xiàn)代統(tǒng)計(jì)的發(fā)展,許多以前難以精確獲得的數(shù)字,比如出生率,國(guó)民生產(chǎn)總值,戰(zhàn)爭(zhēng)耗費(fèi)等,都通過(guò)采樣估計(jì)的方式獲得。
管中窺豹
道瓊斯指數(shù)
北京的PM2.5指數(shù)
世界人口
這三者有什么共同之處呢?
?
首先,它們都一定程度代表了某個(gè)群體的狀況,比如美國(guó)股市,北京的空氣污染狀況,和世界的人口。其次,它們都是通過(guò)對(duì)群體
采樣
,來(lái)獲得的結(jié)果。道瓊斯指數(shù)包含了美國(guó)最重要的一些工業(yè)股,而不是所有的股票。PM2.5是北京的數(shù)個(gè)觀測(cè)站采集到的。世界人口,是通過(guò)各地采樣獲得的。
?
PM2.5
?
?
通過(guò)樣本(sample),來(lái)研究整個(gè)群體(population),是統(tǒng)計(jì)學(xué)的一大特征。這背后的哲學(xué)是,用部分來(lái)理解整體。利用統(tǒng)計(jì)工具,我們還可以推測(cè),樣本中信息與真正的整體信息,有多大的誤差。這個(gè)研究門類,被稱為
統(tǒng)計(jì)推斷
(statistical inference)。它實(shí)際上利用了概率論工具,根據(jù)采樣,對(duì)群體的狀況作出推論,并給出推論的不確定程度。
確定性的消失
我們希望結(jié)論靠譜,就不能忽視誤差。在日常生活中,我們也會(huì)不經(jīng)意的用統(tǒng)計(jì)的方式思考,但往往會(huì)忽視誤差。從一袋大米中抓出一把,我們會(huì)推測(cè)整袋大米的質(zhì)量。從認(rèn)識(shí)的北京朋友,我們會(huì)推斷北京人的性格特征。從身邊的程序員同事,推測(cè)碼農(nóng)的收入和氣質(zhì)。這樣很容易得到結(jié)論,但也很容易以偏概全,導(dǎo)致自己的結(jié)論大大偏離現(xiàn)實(shí)。嚴(yán)格的統(tǒng)計(jì)方法 需要說(shuō)明結(jié)果的可靠性。
從確定論到不確定論,是人類理性的一次大飛躍。在這一觀點(diǎn)下,自然科學(xué)發(fā)生了質(zhì)的變化。許多早期的科學(xué)結(jié)論,出現(xiàn)了問(wèn)題。比較典型的就是:“如果在某一時(shí)刻知道所有原子的運(yùn)動(dòng)狀況,就可以預(yù)測(cè)宇宙的未來(lái)”。觀測(cè)的數(shù)據(jù),如果沒(méi)有相關(guān)的誤差描述,不被認(rèn)為是有效的。更有信奉統(tǒng)計(jì)理念的狂熱者,比如拉普拉斯。他研究潮汐時(shí),給出優(yōu)美的理論。但他宣稱自己的理論不可信:由于自己的數(shù)據(jù)只有數(shù)千個(gè),達(dá)不到統(tǒng)計(jì)理論的健壯性。
?
?
從群體中抽取一個(gè)樣品,那么這個(gè)樣品究竟是群體的哪個(gè)個(gè)體,是一個(gè)隨機(jī)變量。統(tǒng)計(jì)學(xué)的不確定性由來(lái)于此。這也是統(tǒng)計(jì)學(xué)與概率論研究的結(jié)合點(diǎn)。結(jié)合我們對(duì)該隨機(jī)變量的特征有所了解,比如該隨機(jī)變量符合高斯分布,那么可以根據(jù)抽出的樣品,來(lái)計(jì)算分布的平均值和方差,從而得到群體的狀況。我們還可以對(duì)群體作出一些假設(shè)的理論,根據(jù)采樣結(jié)果,來(lái)判斷結(jié)論真?zhèn)蔚母怕省4_定性的消失令人不安,卻為統(tǒng)計(jì)學(xué)打開(kāi)了一扇大門。
大數(shù)據(jù)時(shí)代
大數(shù)據(jù)時(shí)代的一個(gè)有趣想像,是人們可以對(duì)一些數(shù)量巨大的群體進(jìn)行直接的運(yùn)算。比如,我們可以迅速的計(jì)算出所有股票的市值,F(xiàn)acebook的用戶發(fā)帖總數(shù)等等。曾經(jīng)的一些采樣統(tǒng)計(jì),在計(jì)算機(jī)的巨力面前,似乎顯得有些沒(méi)有必要。是啊,如果可以直接得到群體的信息,我們何必拘泥于惱人的不確定性呢?
姑且不論計(jì)算速度和數(shù)據(jù)采集速度的限制,許多問(wèn)題的本質(zhì),就阻止了我們美夢(mèng)。比如簡(jiǎn)單的連續(xù)方程積分,就無(wú)法真正的擺脫不確定性。自然測(cè)量的本質(zhì)的連續(xù)的,計(jì)算機(jī)運(yùn)算是離散的。用離散的系統(tǒng),只能盡力的趨近,卻無(wú)法真正精確。再者,許多數(shù)據(jù)是無(wú)法測(cè)量的。比如假設(shè)檢驗(yàn)、決策,乃至統(tǒng)計(jì)為基礎(chǔ)的機(jī)器學(xué)習(xí)。它們基于一個(gè)無(wú)法測(cè)量的真相:所有可能性中“最好”的那一個(gè)。這一所謂的“最好”,可能只是理論存在。即使有再多的計(jì)算機(jī),也無(wú)法采集這樣的數(shù)據(jù)。大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)非但沒(méi)有過(guò)時(shí),還找到了更大的舞臺(tái)。
統(tǒng)計(jì):概述