先就百分位數的定義來解釋何謂百分位數
在一群資料中至少有k%的數據小於或等於第k百分位數且至少有(100-k)%的數據大於或等於第k百分位數
舉個簡單的例子來說明:
如上圖,如果有一組已經由小到大排列好的數據(10個)
我們要求第42百分位數(P42)跟第70百分位數(P70)
P42:
至少有10*42%=4.2(5)個數據小於或等於P42 → P42=5th~10th
至少有10*(100-42)%=5.8(6)個數據大於或等於P42 → P42=1st~5th
為同時滿足上述兩個條件可以得知P42=5th
P70:
至少有10*70%=7個數據小於或等於P70 → P70=7th~10th
至少有10*(100-70)%=3個數據大於或等於P70 → P70=1st~8th
為同時滿足上述兩個條件可以得知P70=7th或8th
當P70可以同有兩個可能時,我們取P70=(7th+8th)/2(即7th與8th的平均)
從上述例子可以看出由定義來求百分位數其實相當麻煩
所以由結果可以歸納出較簡單的計算方式:
如果算出結果1.非整數(如P42:10*42%=4.2) → 取下一個整數(5) → 即5th 2.為整數(如P70:10*70%=7) → 取此數與下一個數的平均(7&8) → 即(7th+8th)/2 |
上面是書上介紹的百分位數及其算法
我們可以用另外一種方式來解釋或許較為淺顯易懂
如上圖,將一組資料均分成100等分,共有99個等分點
而第1個等分點就是第1百分位數(P1)
第2個等分點就是第2百分位數(P2)...
第k個等分點就是第k百分位數(Pk)...
最後第99個等分點就是第99百分位數(P99)
用這種方式重新來解釋上面所舉的例子
如下圖,P42即第42個等分點所在的數據,恰好是第5個數據(同計算方式中的1.)
P70即第70個等分點所在的數據,恰好落在第7及第8個數據間,故取此兩數平均(同計算方式中的2.)
如此一來,百分位數的算法就變得既直覺又不用死記公式了^^