歡迎加入QQ討論群258996829
麥子學(xué)院 頭像
蘋果6袋
6
麥子學(xué)院

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解

發(fā)布時(shí)間:2018-04-10 17:07  回復(fù):0  查看:5082   最后回復(fù):2018-04-10 17:07  

機(jī)器學(xué)習(xí)本質(zhì)上是對(duì)條件概率或概率分布的估計(jì),而這樣的估計(jì)到底有多少是置信度?這里就涉及到統(tǒng)計(jì)學(xué)里面的置信區(qū)間與置信度,本文簡要介紹了置信區(qū)間這一核心概念,它有助于我們從直觀上理解評(píng)價(jià)估計(jì)優(yōu)劣的度量方法,一起來看看吧。

  本文將和大家一起討論統(tǒng)計(jì)學(xué)中的一個(gè)基本術(shù)語 :置信區(qū)間。盡管這個(gè)術(shù)語是非?;A(chǔ)的,但我們有時(shí)很難完全理解置信區(qū)間到底是什么,為什么我們需要它。

  假設(shè)你想知道美國有多少人熱愛足球。為了得到 100% 正確的答案,你可以做的唯一一件事是向美國的每一位公民詢問他們是否熱愛足球。根據(jù)維基百科,美國有超過 3.25 億的人口。與 3.25 億人談話并不現(xiàn)實(shí),因此我們必須通過問更少的人來得到答案。

  我們可以通過在美國隨機(jī)抽取一些人(與更少人交談)并獲得熱愛足球的人的百分比來做到這一點(diǎn),但是我們不能 100% 確信這個(gè)數(shù)字是正確的,或者這個(gè)數(shù)字離真正的答案有多遠(yuǎn)。所以,我們?cè)噲D實(shí)現(xiàn)的是獲得一個(gè)區(qū)間,例如,對(duì)這個(gè)問題的一個(gè)可能的答案是:「我 95% 相信在美國足球愛好者的比例是 58% 至 62%」。這就是置信區(qū)間名字的來源,我們有一個(gè)區(qū)間,并且我們對(duì)它此一定的信心。

  非常重要的是我們的樣本是隨機(jī)的,我們不能只從我們居住的城市中選擇 1000 人,因?yàn)檫@樣就不能很好地代表整個(gè)美國。另一個(gè)不好的例子是,我們不能給這 1000 個(gè)隨機(jī)用戶發(fā) Facebook 消息,這樣我們就會(huì)得到美國 Facebook 用戶的喜愛趨勢,因?yàn)椴⒉皇撬械拿绹穸际褂?nbsp;Facebook。

  因此,假設(shè)我們隨機(jī)抽取了 1000 個(gè)美國人的樣本,我們發(fā)現(xiàn),在 1000 人中有 63% 的人喜歡足球,我們能假設(shè)(推斷)出整個(gè)美國人口的情況嗎?

  為了回答這個(gè)問題,我希望我們以一個(gè)不同的方式來看待它。假設(shè)我們知道(理論上)美國人的確切比例,假設(shè)它是 65%,那么隨機(jī)挑選 1000 人只有 63% 的人喜歡足球的機(jī)會(huì)是多少?讓我們用 Python 來探索這個(gè)問題!

  love_soccer_prop = 0.65  # Real percentage of people who love soccer

  total_population = 325*10**6  # Total population in the U.S. (325M)

  num_people_love_soccer = int(total_population * love_soccer_prop)

  num_people_dont_love_soccer = int(total_population * (1 - love_soccer_prop))

  people_love_soccer = np.ones(num_of_people_who_love_soccer)

  people_dont_love_soccer = np.zeros(num_

  people_dont_love_soccer)

  all_people = np.hstack([people_love_soccer, people_dont_love_soccer])

  print np.mean(all_people)# Output = 0.65000000000000002

  在這段代碼中,我創(chuàng)建了一個(gè)表示 3.25 億人的 NumPy 數(shù)組,對(duì)于每個(gè)人,如果他/她喜歡足球,那么我會(huì)存儲(chǔ) 1,否則就是零。我們可以通過計(jì)算它的平均值來得到數(shù)組中的百分比,實(shí)際上它是 65%。

  現(xiàn)在,讓我們?nèi)捉M容量為 1000 個(gè)樣本的試驗(yàn),看看得到的百分比是多少:

  for i in range(10):

  sample = np.random.choice(all_people, size=1000)

  print 'Sample', i, ':', np.mean(sample)# Output:

  Sample 0 : 0.641

  Sample 1 : 0.647

  Sample 2 : 0.661

  Sample 3 : 0.642

  Sample 4 : 0.652

  Sample 5 : 0.647

  Sample 6 : 0.671

  Sample 7 : 0.629

  Sample 8 : 0.648

  Sample 9 : 0.627

  對(duì)于每組樣本,我們獲得了不同的值,但直覺(和統(tǒng)計(jì)理論)表示,大量樣本的平均值應(yīng)該非常接近真實(shí)百分比。讓我們這樣試試!我們?nèi)『芏鄻颖?,然后看看?huì)發(fā)生什么:

  values = []for i in range(10000):

  sample = np.random.choice(all_people, size=1000)

  mean = np.mean(sample)

  values.append(mean)print np.mean(values)

  # Output = 0.64982259999999992

  我們創(chuàng)建了 10K 個(gè)樣本,檢查了每個(gè)樣本中熱愛足球的人的百分比,然后取平均值,我們得到了 64.98%,這非常接近于實(shí)際值 65%。讓我們畫出我們得到的所有值:

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解

這里你看到的是我們得到的所有樣本值的直方圖,這個(gè)直方圖的一個(gè)很好的性質(zhì)是它和正態(tài)分布非常相似。正如我所說的,我不想在這里使用太多的統(tǒng)計(jì)術(shù)語,但假設(shè)如果我們這樣做了很多次(無限次),我們將得到一個(gè)非常接近正態(tài)分布的直方圖,我們可以知道該分布的參數(shù)。用更簡單的話來說,我們會(huì)知道這個(gè)直方圖的形狀,所以我們可以精確地知道在任意數(shù)值范圍內(nèi)有多少個(gè)樣本。

  下面是一個(gè)例子,我們會(huì)多次運(yùn)行這個(gè)模擬(試圖達(dá)到無窮大):

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解

首先,我們可以看到直方圖的中心(平均值)接近 65%,正如我們所預(yù)期的,但我們可以通過查看直方圖來得到更多信息,例如,我們可以說,一半樣本都大于 65%,或者我們可以說大約 25% 的樣本大于 67%,甚至可以說(大致)只有 2.5% 的樣本大于 68%。

在這一點(diǎn)上,很多人可能會(huì)問兩個(gè)重要的問題:「我怎樣才能取得無數(shù)的樣本?」和「它對(duì)我有什么幫助?」。

  讓我們回到我們的例子,我們抽取了 1000 人的樣本,得到了 63%,我們想知道,隨機(jī)抽樣的 1000 人中有 63% 的足球愛好者的概率是多少。使用這個(gè)直方圖,我們可以說有(大概)25%的概率,我們會(huì)得到一個(gè)小于或等于 63% 的值。該理論告訴我們,我們實(shí)際上并不需要得到無限的樣本,如果我們隨機(jī)選擇 1000 人,只有 63% 的人喜歡足球是可能發(fā)生的。

  實(shí)際上,為了找到不同數(shù)值范圍或區(qū)間的概率,我們需要知道或至少估計(jì)總體分布的標(biāo)準(zhǔn)差。因?yàn)槲覀兿氚咽虑樽兊煤唵我稽c(diǎn),因此現(xiàn)在先不討論它。

  讓我們回到現(xiàn)實(shí)和真正的問題,我不知道美國足球愛好者的實(shí)際比例,我只抽取了一個(gè)樣本,得到了 63%,這對(duì)我有什么幫助?

  所以,我們不知道在美國熱愛足球的人的實(shí)際比例。我們所知道的是,如果我們從總體分布取無數(shù)個(gè)樣本,它將如下所示:

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解、

 這里 μ 是總體分布的平均值(我們例子中足球愛好者的實(shí)際百分比),σ 是總體分布的標(biāo)準(zhǔn)差。

  如果我們知道這一點(diǎn)(并且我們知道標(biāo)準(zhǔn)差),我們可以說約 64% 的樣本會(huì)落在紅色區(qū)域,或者 95% 以上的樣品會(huì)落在圖中的綠色區(qū)域之外:

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解

 如果我們?cè)谥凹僭O(shè)的實(shí)際百分比 65% 上使用該圖,那么 95% 以上的樣本將在 62% 和 68% 之間(+ – 3)。

機(jī)器學(xué)習(xí)之置信區(qū)間與置信度詳解

當(dāng)然,距離是對(duì)稱的,所以如果樣本有 95% 落在在實(shí)際百分比 -3 和 +3 之間,那么真實(shí)百分比落在樣本百分比 -3 和 +3 之間的概率為 95%。

  如果我們抽取一個(gè)樣本,得到了 63%,那么我們可以說我們 95% 確信實(shí)際比例在 60%(63-3)和 66%(63 + 3)之間。

  這就是置信區(qū)間,區(qū)間為 63 + -3,置信度為 95%。

  我希望大家現(xiàn)在對(duì)置信區(qū)間有更好的理解,但這個(gè)介紹忽略了一些重要的技術(shù)性的部分。有很多文章包含了這些部分,因此讀者可繼續(xù)閱讀相關(guān)的材料加強(qiáng)理解。

 

來源:網(wǎng)絡(luò)

您還未登錄,請(qǐng)先登錄

熱門帖子

最新帖子

?