1.
機器學(xué)習(xí)意味著
從數(shù)據(jù)中學(xué)習(xí)
;而AI
則是一個時髦的詞。 機器學(xué)習(xí)并不像天花亂墜的宣傳那樣:通過向適當(dāng)?shù)膶W(xué)習(xí)算法提供適當(dāng)?shù)挠?xùn)練數(shù)據(jù),你可以解決無數(shù)的難題。把它稱之為
AI
吧,如果這有助于銷售你的
AI
系統(tǒng)的話。但你要知道,
AI
只是一個時髦的詞,這只代表了人們對它的期望而已。
2.
機器學(xué)習(xí)主要涉及到數(shù)據(jù)和算法,但最主要的還是數(shù)據(jù)。機器學(xué)習(xí)算法特別是深度學(xué)習(xí)的進步,有很多令人興奮的地方。但數(shù)據(jù)是使機器學(xué)習(xí)成為可能的關(guān)鍵因素。機器學(xué)習(xí)可以
沒有復(fù)雜的算法,但不能沒有好的數(shù)據(jù)
。
3.
除非你有大量的數(shù)據(jù),否則你應(yīng)該堅持使用簡單的模型。機器學(xué)習(xí)根據(jù)數(shù)據(jù)中的模式來訓(xùn)練模型,探索由參數(shù)定義的可能模型的空間。如果參數(shù)空間太大,就會對訓(xùn)練數(shù)據(jù)過度擬合,并訓(xùn)練出一個不能使自己一般化的模型。如果要對此做詳細解釋的話,需要進行更多的數(shù)學(xué)計算,而你應(yīng)該把這一點當(dāng)作為一個準則,讓你的模型盡可能得簡單。
4.
機器學(xué)習(xí)的質(zhì)量與訓(xùn)練所用數(shù)據(jù)的質(zhì)量強相關(guān)。俗話說
“
你往計算機輸入一堆垃圾,輸出的一定也是一堆垃圾數(shù)據(jù) ”
,雖然這句話的出現(xiàn)早于機器學(xué)習(xí),但這恰恰是機器學(xué)習(xí)存在的關(guān)鍵限制。機器學(xué)習(xí)只能發(fā)現(xiàn)訓(xùn)練數(shù)據(jù)中存在的模式。對于監(jiān)督機器學(xué)習(xí)任務(wù)來說(例如分類),你需要一個健壯的、正確標記的、豐富的訓(xùn)練數(shù)據(jù)集。
5.
機器學(xué)習(xí)只有在訓(xùn)練數(shù)據(jù)具有代表性的前提下才會起作用。正如基金招股說明書警告的那樣
“
過去的表現(xiàn)不能保證未來的結(jié)果
”
。機器學(xué)習(xí)也應(yīng)該發(fā)一個類似的警告申明:它僅能基于與訓(xùn)練數(shù)據(jù)相同分布的數(shù)據(jù)才能工作。因此,需警惕訓(xùn)練數(shù)據(jù)和生產(chǎn)數(shù)據(jù)之間的偏差,并經(jīng)常性地重復(fù)訓(xùn)練模型,這樣才能保證其不會過時。
6.
機器學(xué)習(xí)大部分的工作是數(shù)據(jù)轉(zhuǎn)換。在機器學(xué)習(xí)技術(shù)天花亂墜的宣傳下,你可能會認為機器學(xué)習(xí)所做的主要是選擇和調(diào)整算法。但現(xiàn)實卻是平淡無奇的:你大部分的時間和精力都將花在數(shù)據(jù)清理和特征工程上,也就是將原始特征轉(zhuǎn)換為能更好地代表數(shù)據(jù)信號的特征。
7.
深度學(xué)習(xí)是一場革命性的進步,但并不是靈丹妙藥。由于機器學(xué)習(xí)在很多領(lǐng)域都得到了應(yīng)用與發(fā)展,因此深度學(xué)習(xí)也被宣傳得天花亂墜。此外,深度學(xué)習(xí)促使一些傳統(tǒng)上通過特征工程進行的工作變得自動化,特別是對于圖像和視頻數(shù)據(jù)。但深度學(xué)習(xí)并不是靈丹妙藥。沒有現(xiàn)成的可以讓你使用,你仍然需要投入大量的精力去清理和轉(zhuǎn)換數(shù)據(jù)。
8.
機器學(xué)習(xí)系統(tǒng)很容易受到操作員錯誤的影響。向
NRA
道歉,
“
機器學(xué)習(xí)算法不會殺人,是人在殺人
”
。當(dāng)機器學(xué)習(xí)系統(tǒng)出現(xiàn)故障時,很少是因為機器學(xué)習(xí)算法存在問題。更有可能的情況是人為的錯誤被引入了到訓(xùn)練數(shù)據(jù)中,從而產(chǎn)生偏差或其他的系統(tǒng)錯誤。我們應(yīng)始終持懷疑的態(tài)度,并采用適用于軟件工程學(xué)的方式來對待機器學(xué)習(xí)。
9.
機器學(xué)習(xí)可能會在無意中創(chuàng)造了一個自我實現(xiàn)的預(yù)言。在機器學(xué)習(xí)的許多應(yīng)用中,你今天所做的決策會影響明天收集的訓(xùn)練數(shù)據(jù)。一旦機器學(xué)習(xí)系統(tǒng)將偏差融入到模型中,它可以會繼續(xù)生成偏差增強了的新訓(xùn)練數(shù)據(jù)。 而且,
一些偏差可能會毀掉人們的生活
。請負責(zé)任一點:不要創(chuàng)造自我實現(xiàn)的預(yù)言。
10.AI
不會自我覺醒、造反并毀滅人性。相當(dāng)多的人似乎是從科幻電影中得到有關(guān)人造智能的概念的。我們應(yīng)該從科幻小說中得到啟發(fā),但并不能這么傻,把小說誤認為是現(xiàn)實。從有意識的邪惡人類到無意識的有偏差的機器學(xué)習(xí)模型,有太多的現(xiàn)實和危險需要擔(dān)心。所以你可以不用擔(dān)心
SkyNet
和“
superintelligence ”
(譯者注:
SkyNet
和
superintelligence
分別是科幻電影和科幻小說)。
機器學(xué)習(xí)涉及到的內(nèi)容遠遠超過我上面提到的十點說明。希望這些介紹性的內(nèi)容對非專業(yè)人士有用。
來源:
云棲博客