close
                                                                               
http://mmdays.wordpress.com/2007/02/25/randomness/
                                                                               
Posted by Mr. Saturday
                                                                               
瀑布中的一滴水滴,你知道它最終會流過河川、匯入大海,但是此時此刻,你卻難以精確
地預測這個水滴下一秒鐘會是在河流或是瀑布中的什麼位置。這個觀察告訴了我們,我們
可以看得見長期的趨勢,但是微觀的下一秒鐘,我們卻怎麼樣也難以窺見其變化,因為需
要考慮的因素太多:水的流量、地形的細微變化、氣候、溫度等等都讓我們對於一個水滴
走向的預測無法精準。當因素太多太多,以至於我們無法掌握時,水滴在某一個瞬間的走
向對我們來說就是隨機的。我們只知道:不管這個水滴現在怎麼走,最終它會進入大海。
這就是Mr. Saturday這邊想要淺談的隨機現象。隨機現象在我們生活中處處可見,而且深
深影響我們的生活,很多不同科學領域的尖端研究,現在都是在對付隨機現象。研究物理
的人研究到量子的層次,會發現這個穩固的世界居然是由一些隨機亂跑的粒子所堆砌而成
。研究電腦科學的人,會發現隨機方法竟然可以用來設計出簡潔易懂的演算法,研究數學
的人,會發現機率模型竟然可以相當程度上幫助我們做出生活中的決策。那麼隨機現象對
於我們現實生活中的啟示又什麼呢?以下Mr. Saturday先舉出一個電腦科學界的例子來闡
述。
                                                                               
機器學習(Machine Learning)這一個有關人工智慧的學門是電腦科學界最近相當熱門的一
個研究領域,主要研究的方向和重點是結合演算法和統計資料,擷取出這些資料之內所隱
含的一些資訊,然後用這些擷取出來的資訊讓電腦去對一些事情做預測,以此模擬出類似
學習的行為。Machine Learning在近年來取得了巨大的成功,讓曾經一度委靡不振的人工
智慧研究又開創了許多新的契機。市面上的各種搜尋引擎就有應用相當多機器學習的技巧
在裡面,讓這些搜尋引擎好像真的有智慧,去猜測你要搜尋甚麼東西,然後回傳精準的搜
尋結果給你。在這個研究領域中,有一個很重要的現象是每個剛剛學習機器學習的人都會
接觸到的:這個現象叫做Overfitting。要講解這個現象之前,我們先舉一個最簡單的例
子來介紹機器學習。
                                                                               
如果你要教電腦去找出一個公式,用來計算出身高與體重的關係,那麼你的第一件事情就
是收集很多人身高與體重的資料(data),然後跑一個線性迴歸分析 (Linear Regression)
,在身高與體重的平面上找出一條直線去match這些data,這條直線電腦就拿來當作是計
算身高體重的公式:你給了電腦身高,電腦就算出體重給你,反之亦然。這是機器學習最
簡單的一個例子。電腦所做的事情不過就是從資料看出身高與體重之間的大略關係。之所
以說是大略關係,是因為我們讓電腦假設身高與體重的關係完全是線性的,所以我們找了
一條直線去當作身高和體重的model:身高越高,體重就越高。但是大家都知道身高和體
重不可能剛好是線性的關係,有些人很高但是體重卻很輕,有些人很矮但是體重卻很重。
所以當我們用一條直線來解釋這些資料的時候,實際上我們會有一些誤差存在。但是我們
知道,以統計上來講,這個趨勢是對的,身高越高的人通常體重會比較重,所以當我們知
道了某個人的身高,然後用這條直線去預測那個人的體重時,大部分的時候我們預測出來
的結果不會差太遠。
                                                                               
現在有人覺得直線不是一種預測身高體重很好的model,所以想要用比較複雜的曲線來fit
這些data,結果他找出了一條完美的曲線來解釋這些 data,這條曲線毫無誤差,可以在
平面上完全穿過所有資料點。但是這個曲線會出現一個大問題:這條曲線完全沒有辦法拿
來預測一個人的體重:你有一個人的身高,然後拿這條曲線去預測這個人的體重,你會發
現大部分的時候算出的體重都是相當離譜。而且這條曲線看起來會彎彎曲曲,完全沒有辦
法看出身高與體重大致上是呈現線性的關係。這種現象就稱為Overfitting,從字面上的
意思來看就是:我們對於資料做了過多的解釋。Overfitting這個現象,在統計學習理論
上已經可以用數學來量化,在這邊我們就略過不談。Overfitting給我們最大的啟示就是
,不要對你的資料和你看到的現象做過多的解釋。
                                                                               
研究哲學的人都知道Occam’s Razor這個原則:當你對一個現象有許多種解釋時,記得選
擇最簡單的那一個。這個指導原則在機器學習領域是相當重要的一個概念,很多統計學家
和經濟學家會建構相當複雜的模型來詮釋他們的資料,試著去預測以後很多事物的走向。
舉例來說 LTCM想要做的就是這種事情,兩個諾貝爾獎得主搞出了一套模型,可以保證長
期下來,他們的投資絕對穩賺不賠,這群經濟學家以為自己掌握了世界每一秒的趨勢,世
界的金錢已經操弄在他們的經濟模型之中,結果最後他們突然倒掉了。為什麼?原因很簡
單:因為他們沒有料到蘇聯會忽然解體。就這麼一個他們沒有料到的因素(其實當時誰又
料得到呢?),就讓他們的模型整個崩潰了。同樣地,搞出越複雜的模型,你就會發現常
常這個模型對於解釋新的現象時是不管用的。
                                                                               
反應在我們的生活之中,炒股票的人和那些老師,整天都在跟你講明天股票是會漲還是會
跌,他們在做的事情,就是在跟你講瀑布中的水滴下一秒鐘會流到什麼地方。你覺得他們
猜得準嗎?你還會相信他們嗎?一群自稱是趨勢專家的人在電視上講得口沫橫飛,說出千
萬個理由分析給你聽,要你去買什麼什麼股票。在我看來,他們只是用極有限的知識在跟
隨機現象對抗。像預測趨勢這種連那些科學家和統計學家都還做不好的事情,你覺得這些
老師做得好嗎?一家公司的股價圖對於人類現在有限的認知而言,完全就是隨機的,你不
可能準確預測下一秒鐘準確的走向。股市甚至於連長期的趨勢都難以預測,還記得我們的
水滴例子嗎?如果你連長期的趨勢都看不清楚,想要微觀地分析更是難上加難。即使這個
世界上沒有真正隨機的事情,一切都是命中注定的,以人類現在有限的知識和電腦的運算
能力來說,也還是無法完全掌握的。
                                                                               
同樣的,在股票市場上你會常常看到一些靠股市成為百萬或是千萬富翁的人出書大談自己
的投資經,說明自己如何致富,講得真是天花亂墜。我現在舉一個簡單的運算給大家看:
假設以你現在的資本,在股市連續賭一支股票十次漲跌,十次都成功,你就可以成為百萬
富翁,這樣的機率是多少?既然你每次都是閉上眼睛瞎猜,所以每次的成功率都是一半,
連續十次成功就大約是千分之一。看起來連續十次成功真的很難,不過換個角度想,如果
台灣有兩百萬人同時做這樣的事情呢?你會發現平均來說,會有兩千人在這十次賭博之中
成為百萬富翁,如果這兩千人之中有一些人跑來出書或是上節目大談自己的投資經驗呢?
沒錯,他們就變成老師了。隨機現象讓這些人成為百萬富翁,然後這些人以及週遭的人開
始用過度解釋和吹捧的方式來大談他們賺錢的成功,最後的結果就是:大家都被隨機現象
給唬了。連這些老師自己都相信自己真有一套本領能在股市呼風喚雨。就像是現在發達的
無名小站一樣,被過度解釋成台灣資訊界傳奇,甚至連交大的校刊都特地寫了一篇矯情的
專文來吹捧無名小站。而我對於無名小站今天的發展只有一個的解釋:運氣。
                                                                               
曾經有一些學者找來一群猩猩做實驗,這些學者把華爾街日報的股票版釘在牆上,讓這些
猩猩對那些股票名稱射飛鏢,當作是猩猩建議他們買的股票。結果矇著眼睛的猩猩,朝報
紙股票版擲飛鏢所射中的股票,並不比投資專家們的選股遜色。看到這個實驗結果,你作
何感想呢?
                                                                               
講了以上這麼多例子,並不是要告訴大家這個世界是隨機的,所以我們做出再多努力也是
枉然。人類真正可貴的地方,就在於對這些不確定性所做出的努力,能夠讓人類的智識更
推進一步,讓我們更加了解這個世界。談隨機現象只是要提醒大家,很多我們想盡辦法解
釋的現象,其實往往都是隨機的結果,這是這個世界運作的機率,確確實實存在,支撐著
量子力學,也支撐著我們的現實生活。我們應該做的,是去看整體的趨勢,而不是對於一
個短期的現象,鑽牛角尖地想盡辦法去解剖它。解剖的結果就會讓你像量子物理學家一樣
,困惑地發現井然有序的世界,竟然是由一些到處亂跑的粒子組成。長期的趨勢是可以透
過努力研究在一定程度上達到預測的效果,短期趨勢是誰也說不準。
                                                                               
隨機現象本身是一個相當深奧的議題,談到最後往往都會淪為「上帝究竟丟不丟骰子?」
的哲學議題,人類也許永遠都無法了解這個世界是不是一切都命中注定,抑或是人總是可
以隨時透過外在力量改變一些事物的隨機世界。無論是怎麼樣,努力之後得來的果實永遠
都是甜美的。只是要記住,別被一些人解釋隨機現象的嘴砲所唬了,好像這些隨機現象真
的像他們講的那樣完全可以預測。
                                                           

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 yolandayuan 的頭像
    yolandayuan

    我在北京......

    ntrain 發表在 痞客邦 留言(1) 人氣()