Menu

Welcome to YC Note

一個資料煉金術師的修煉之路

About Me

大家好!我是YC,是一名資料科學家,熟悉機器學習和深度學習的各類技術,以及大數據分散式系統; 同時,我也是一名街頭藝人和部落客。我總是嘗試各種生命的可能性,因為我深信:人生的意義在於體驗一切身為人的經驗。

  • Bridgewell, Data Scientist & Software Engineer (2018-2020)
  • TSMC, Photo Lithography Software R&D Engineer (2015-2018)
  • Ur Warm Pet Cafe, Resident Singer (2017-2018)
  • National Taiwan University, Master of Physics (2012-2014)
  • National Sun Yat-Sen University, Bachelor of Physics (2009-2012)

AI領域日新月異,在這領域的玩家應該要持續的跟上最前沿的知識和技術,本篇文章整理了相關學術研討會、部落格,讓讀者可以輕易的接觸到可靠的新資源。(也歡迎讀者補充更多資訊)(持續更新)

學習一段時間深度學習的你是不是有一個疑惑:Activation Function為什麼要用Sigmoid和Softmax?Loss Function為什麼要用MSE和Cross Entropy?其他狀況要用什麼?當然你可以把它們看作是個合理定義,但是學習深度就端看你是不是可以用最少的定義表示最多的東西,如果你仔細google一下就會發現有一個相關的名詞—廣義線性定理,但是大部分的文章和教材都沒辦法將它講的很清楚,原因是因為沒有先介紹「充分統計量」的概念。在本講你會學到如何用「充分統計量」來說明在廣義線性定理中的Canonical Link Function,進而推導出Activation Function,你會學到如何藉由MLE和MAP來推導出Loss Function,學完以後你會對Activation Function和Loss Function有更深的認識。

本講主要探討統計的兩大學派(頻率學派和貝氏學派)對於機器如何學習的觀點。頻率學派主張Maximum Likelihood Estimation (MLE),會提到這等同於最小化data與model之間的Cross Entropy或KL Divergence。而貝氏學派則主張Maximum A Posterior (MAP) ,會提到這會等同於極大化Likelihood並同時考慮Regularization Term,我們也可以在本講看到L1和L2 Regularation Term是怎麼被導出的。

在深度學習裡面,尤其是分類問題,常常會用到Cross Entropy,教學上通常會從Maximum Likelihood推導而來,但是Cross Entropy其實具有更廣義的涵義,甚至不限於分類問題使用。還有學習過程也經常會出現KL Divergence這樣既熟悉又陌生的東西,甚至到了GAN會用到更多種類的Divergence,例如:JS Divergence。這全部都與資訊理論息息相關,這一講讓我們來搞清楚Entropy、Cross Entropy、KL Divergence和f-Divergence到底具有什麼涵義。

如果你已經學了好一陣子的機器學習或深度學習,應該對於Normal Distribution不陌生,但是你真的懂Normal Distribution嗎?本講會詳細的探討Normal Distribution,並且引入中央極限定理(Central Limit Theorm)來解釋為何自然界的隨機誤差大都呈現Normal Distribution,再來介紹Entropy,並且利用Entropy揭示Normal Distribution具有最少先驗知識(Prior Knowledge)的特性。

Get In Touch

想要隨時關注新文章,想要更多AI的資訊,請按讚加入本網站的粉絲專頁: Facebook