Tag: 剖析深度學習


剖析深度學習 (4):Sigmoid, Softmax怎麼來?為什麼要用MSE和Cross Entropy?談廣義線性模型

Posted on March 14, 2020 in AI.ML. View: 24,988

學習一段時間深度學習的你是不是有一個疑惑:Activation Function為什麼要用Sigmoid和Softmax?Loss Function為什麼要用MSE和Cross Entropy?其他狀況要用什麼?當然你可以把它們看作是個合理定義,但是學習深度就端看你是不是可以用最少的定義表示最多的東西,如果你仔細google一下就會發現有一個相關的名詞—廣義線性定理,但是大部分的文章和教材都沒辦法將它講的很清楚,原因是因為沒有先介紹「充分統計量」的概念。在本講你會學到如何用「充分統計量」來說明在廣義線性定理中的Canonical Link Function,進而推導出Activation Function,你會學到如何藉由MLE和MAP來推導出Loss Function,學完以後你會對Activation Function和Loss Function有更深的認識。


Continue reading

剖析深度學習 (3):MLE、MAP差在哪?談機器學習裡的兩大統計觀點

Posted on March 07, 2020 in AI.ML. View: 19,008

本講主要探討統計的兩大學派(頻率學派和貝氏學派)對於機器如何學習的觀點。頻率學派主張Maximum Likelihood Estimation (MLE),會提到這等同於最小化data與model之間的Cross Entropy或KL Divergence。而貝氏學派則主張Maximum A Posterior (MAP) ,會提到這會等同於極大化Likelihood並同時考慮Regularization Term,我們也可以在本講看到L1和L2 Regularation Term是怎麼被導出的。


Continue reading

剖析深度學習 (2):你知道Cross Entropy和KL Divergence代表什麼意義嗎?談機器學習裡的資訊理論

Posted on February 25, 2020 in AI.ML. View: 37,523

在深度學習裡面,尤其是分類問題,常常會用到Cross Entropy,教學上通常會從Maximum Likelihood推導而來,但是Cross Entropy其實具有更廣義的涵義,甚至不限於分類問題使用。還有學習過程也經常會出現KL Divergence這樣既熟悉又陌生的東西,甚至到了GAN會用到更多種類的Divergence,例如:JS Divergence。這全部都與資訊理論息息相關,這一講讓我們來搞清楚Entropy、Cross Entropy、KL Divergence和f-Divergence到底具有什麼涵義。


Continue reading

剖析深度學習 (1):為什麼Normal Distribution這麼好用?

Posted on February 18, 2020 in AI.ML. View: 13,009

如果你已經學了好一陣子的機器學習或深度學習,應該對於Normal Distribution不陌生,但是你真的懂Normal Distribution嗎?本講會詳細的探討Normal Distribution,並且引入中央極限定理(Central Limit Theorm)來解釋為何自然界的隨機誤差大都呈現Normal Distribution,再來介紹Entropy,並且利用Entropy揭示Normal Distribution具有最少先驗知識(Prior Knowledge)的特性。


Continue reading