雖然直方圖是柱狀圖的一種(畢竟乍眼看都是很多柱子的樣子),但是其實它倆一個喜歡數多少,一個喜歡比大小。

直方圖展示資料分佈

直方圖(Histogram)

是一種視覺化在連續間隔,或者是特定時間段內資料分佈情況的圖表,經常被用在

統計學

領域。簡單來說,

直方圖描述的是一組資料的頻次分佈

,例如把年齡分成“0-5,5-10,……,80-85”17個組,統計一下中國人口年齡的分佈情況。

直方圖有助於我們知道資料的分佈情況,諸如眾數、中位數的大致位置、資料是否存在缺口或者異常值

(注:

眾數

是指一組資料中出現次數最多的資料值,眾數可能是一個數,但也可能是多個數。中位數是指可將

數值集合

劃分為相等的上下兩部分的數。)

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

根據資料分佈狀況不同,直方圖展示的資料有不同的模式,包括

對稱單峰

、偏左單峰、偏右單峰、

雙峰

、多峰以及對稱多峰。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

直方圖的資料模式來源:Wikipedia

直方圖的百年曆史

一般認為,直方圖最早是由數理統計學家Karl Pearson引入的,1891年他在文章“Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material”中,運用直方圖展示了均質材料中的偏差。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

Karl Pearson

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

Contributions to the Mathematical Theory of Evolution II: Skew Variation in Homogeneous Material Karl Pearson

隨後,他也統計了歐洲250位君主的在位長度,以每3年為一個區間,發現在位時間在9-12年的君主數量最多(眾數)。除此之外,我們也能看到沒有人的在位時間是在51-54年,整體來說,在位時間長的君主很少。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

圖片來源:Statistical Approaches to Length of Reign

直方、柱狀大不同

直方圖和柱狀圖最讓人迷惑的地方,就是它們長得非常相似。實際上,直方圖和柱狀圖無論是在圖表意義、適用資料上,還是圖表繪製上,都有很大的不同。

1.直方圖展示資料的分佈,柱狀圖比較資料的大小。

這是直方圖與柱狀圖

最根本的區別

。舉個例子,有10個蘋果,每個蘋果重量不同。如果使用直方圖,就展示了重量在0-10g的蘋果有多少個,10-20g的蘋果有多少個;如果使用柱狀圖,則展示每個蘋果的具體重量。

所以直方圖展示的是一組資料中,在你劃分的區間裡,這些資料的

分佈

情況,但是我們不知道在一個區間裡,單個數據的具體大小。下圖展現了遊客在

博物館

的遊覽時間,其中,將近40%的遊客僅逗留了0-10分鐘。但是我們無法知道這些遊客中,每個人具體的遊覽時間是多少。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

圖片來源:A Histogram is NOT a Bar Chart

而在柱狀圖裡,我們能看到的是每個資料的大小,並且進行比較。下圖就比較了在12次展覽中,參觀者參觀時間的中位數,我們能夠知道參觀的具體用時。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

圖片來源:A Histogram is NOT a Bar Chart

2.直方圖X軸為定量資料,柱狀圖X軸為分類資料。

由圖表的原理就決定了,X軸在直方圖與柱狀圖中的用法是不一樣的。在直方圖中,X軸上的變數是一個個連續的區間,這些區間通常表現為數字,例如代表蘋果重量的“0-10g,10-20g……”,代表時間長度的“0-10min,10-20min……”。而在柱狀圖中,X軸上的變數是一個個分類資料,例如不同的國家名稱、不同的遊戲型別。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

圖片來源:www。mathsisfun。com

因此,直方圖上的每根柱子都是

不可移動的

,X軸上的區間是連續的、固定的。而柱狀圖上的每根柱子是可以隨意排序的,有的情況下需要按照分類資料的名稱排列,有的則需要按照數值的大小排列。

3.直方圖柱子無間隔,柱狀圖柱子有間隔

因為直方圖中的區間是連續的,因此柱子之間

不存在間隙

。而柱狀圖的柱子之間是存在間隔。還有一個值得注意的地方,在直方圖中,第一根柱子應該和Y軸有一定的間隔,即使都是從“0”這個值開始的。因為X軸與Y軸上“0”的意義不同,而且很多直方圖上的區間並不是從0開始的。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

4.直方圖柱子寬度可不一,柱狀圖柱子寬度須一致

柱狀圖柱子的寬度因為沒有數值含義,所以寬度必須一致。但是在直方圖中,柱子的寬度代表了區間的長度,根據區間的不同,柱子的寬度可以不同,但理論上應為單位長度的倍數。

例如,美國人口普查局(The U。S。 Census Bureau)調查了12。4億人的上班通勤時間,由於通勤時間在45-150分鐘的人數太少,因此區間改為45-60分鐘、60-90分鐘、90-150分鐘,其他組距則均為5。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

通勤資料來源:Wikipedia

可以看到,Y軸的資料為“人數/組距”,在這種情況下,每個柱子的面積相加就等於調查的總人數,柱子的面積就有了意義。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

通勤時間直方圖來源:Wikipedia

當上圖的Y軸表達的是“區間人數/總人數/組距”,這個直方圖就是我們初中學習的“

頻率分佈直方圖

”,頻率指的是“區間數量/總數量”。在這樣的直方圖中,所有柱子的面積相加就等於1啦。

使用直方小竅門

1.注意組距

組距會影響直方圖呈現出來的資料分佈,因此在繪製直方圖的時候需要多次嘗試改變組距。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

組距較大的直方圖

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

組距較小的直方圖

2.X軸上為左閉右開區間

一般來說,X軸上的區間遵循“左閉右開”的原則,即在一個“a-b”的區間裡,資料x應為“a≤x<b”。

3.注意Y軸所代表的變數

Y軸上的變數可以是頻次(資料出現了多少次)、頻率(頻次/總次數)、頻率/組距,不同的變數會讓直方圖描述的資料分佈意義不同。

隱藏在身邊的直方圖

生活中,我們接觸比較多的的應該是

RGB直方圖

,這種直方圖常出現在在PS、相機等場景中。

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

在RGB模式下,圖片的顏色與紅(Red)綠(Green)藍(Blue)組成,各自的數值範圍均為0-255。其中,紅色直方圖就描述了0-255這個數值範圍內,畫素的分佈情況。但這種直方圖的X、Y軸沒有具體數值,我們只能資料分佈模式大致判定照片情況。

從今往後,你就能一眼找到那個在柱狀圖海洋的直方圖啦!當然你也可以選擇登陸鏑數圖表,煉煉你的火眼金睛!如果你有遇到有趣的直方圖,歡迎在評論跟大家分享喔~

能分清直方圖和柱狀圖,你就是圖表屆的“頭號”玩家

如果還想知道圖表的相關知識,可參看往期圖表家族