如何看待已經發生的事件,應該認為期望還是看作機率最高的事件?如何根據隨機抽樣的結果推算整體的情況?
This is about Estimation。 Your teacher gave a Maximum Likelihood Estimation and it is reasonable。
The answer for argmax{((200-x)/200)^6 * x/200} is also x=200/7, so that is just what you expect。
老師那句話的完整表述是:
根據抽樣調查結果,有xx%的可能,貴班同學會做這題的機率落在
之間。
(其中xx%通常可以是99%,95%,90%, 每個xx%對應一個0。yy,xx%越接近1,說明你越有信心,0。yy也就越大)
鑑於你沒有聽懂老師的話,說明你還沒有弄懂最基本的概念。
我有99%的把握說,在提問當天,你的機率弱爆了。
——————————————————————
思考題:
一個女人要睡過多少無良男人,才能有95%的把握說,男人沒一個好東西?(好男人<5%)
可以參考
http://
tw。myblog。yahoo。com/96k
mu-emha/article?mid=60&prev=61&l=f&fid=5
這是一個典型的引數估計問題。可以抽象成這樣一個問題:200個小球裡有n個黑球,其餘的都是白球。現在做不放回的取球,第七次的時候第一次抽到黑球。根據這一資訊估計n的取值。一般的點估計方法有矩估計和最大似然估計,這裡都能使用,所以方法不唯一。不過由於這個相當於是僅僅根據一個樣本的估計,所以精確度不高,不同方法可能估計結果不同。近似用幾何分佈來估計的話應該是接近七分之一的。
我們看看能不能這樣來理解這個問題
如果我們假設全班做對這道題的比例為p
當人數足夠多的時候,每次抽樣不改變比例p
那麼本次抽樣(6個答錯,1個答對)的機率
我們認為這次抽樣運氣是比較好的,抽樣是最大機率的結果
那麼求F的最大值,
即
再將
代入F,得到
第一名的答案用到了一些bayesian inference的思想,而且很明顯的用到了後驗分佈的估計,但是可惜沒有系統地寫出來,我試試整理一下。
首先如果我們用機率的思路來看這個問題,要設定一些假設:
學生透過與否符合一個二項分佈,即對每個學生
,且每個學生彼此之間保持獨立分佈。
上個式子中
表示引數,物理含義就是學生透過的機率。
知道,
問你
是多少,或者說
,再或者說是
是多少
題主提到的演算法叫做
最大似然估計(Maximum Likelihood Estimation,MLE)
,什麼意思,就是說,機率的引數應該滿足已經發生的機率出現的可能性最大。
在這個問題裡面:
上面的式子裡,
就表示,這個問題的“
似然函式
”,可以看到,就是,你把
固定成一個數之後,那麼已經發生的事情再現的機率,就是這個值。這個值是關於
的一個函式。我們估計引數就是找到
使得
最大。找的辦法一般是取對數然後求導算導數為零的點。總之算出來使得
最大的值,肯定是
好了,這裡面的問題就是,這個估計的假設就是,引數需要滿足已經出現的事情再現的機率最大。實際是這麼一回事嗎?@豬小寶 的答案做了一個分析,假設,
,算出來似然是5。079%,似乎也在可以接受的範圍之內,如果上面最大似然的假設不成立,怎麼辦?
機率裡面還有一種辦法,叫做,
最大後驗估計(Maximum A Posteriori estimation,MAP)
。就是說,找到
,滿足:
左邊那個分佈叫做
後驗分佈
。上面這個公式就是貝葉斯公式的基本定義。看這個形式,直觀意思就是說,給定7個人,找到一個
使得根據這個資料觀察到的
的機率最大。
這裡面就有一個基本的假設,那就是,
,它本身,
是有一個機率分佈的,是個隨機變數
最大似然估計裡,它沒有這個假設,
是一個確定的數。
上面後驗分佈的式子中,分母和
無關,在估計引數的時候一般略去。
最大後驗估計等同於如下式子:
在二項分佈中,引數的分佈
一般定義為beta distribution。公式形式比較複雜,不展開說了。
順便再說說,上面這個式子,仔細看和最大似然估計其實只差了
這一項而已,要是樣本數量大了,比如說取樣採了十萬個人,80000個人做出來了,20000個人沒做出來,那麼這兩個估計其實怎麼估計也差不多。
總之,估計出來:
其中
是beta分佈的引數,一般都取2。
不管是最大似然估計還是最大後驗估計,這裡面都有一個隱含的假設:
,就是說,首先確定出引數
是什麼,然後,用
去估計下一次是什麼。但仔細想想,我們要求的,就是這個式子左邊這個機率分佈,然後把它化簡成了式子的右邊而已。把這種化簡的思想在進一步擴充套件展開,在
是隨機變數的前提下,左邊的式子可以寫成:
就是說,把所有
的可能性都考慮進去,這個機率應該這麼算。這叫做
bayesian inference(我不會翻譯...)
題主這個式子的答案我懶的求了,總之各種辦法可以算吧。
上面說了三種估計的辦法,那種靠譜呢?
從理論層面上:我們知道大數定理,簡單的那就是隨機變數觀察到的數量越多,它的分佈就越靠譜。
所以題主你7個樣本怎麼估計都不靠譜的
。多麼不靠譜,你可以用大數定理去算。
從實驗層面上:你最後要得出結論,需要對估計的結果進行驗證。那就是,你分別用6/7和7/9去試試,哪個離後面193個學生的分佈更接近,哪個就靠譜。實際做實驗應該是把7個人的樣本再拆開,一部分估計引數,用剩下的做驗證。
最後,我們假設這是二項分佈,每個樣本(學生)彼此獨立,是這麼一回事嗎?你拿到六個學生,其實是一個學生牛逼過了,剩下五個抱大腿作弊抄的,剩下194個全不會,這也不一定啊。你要不是標準二項分佈,根據模型的不同假設,你可以設計更復雜的混合模型,把我說的情況考慮進去。不管如何假設,都可以按照最大似然,最大後驗或者bayesian inference估計出來分佈的結果。