Pandas可視化綜合指南:手把手從零教你繪制數據圖表
活用Pandas參數,也能畫出美麗圖表
曉查 編譯整理
量子位 出品 | 公眾號 QbitAI
數據可視化本來是一個非常復雜的過程,但隨著Pandas數據幀plot()函數的出現,使得創(chuàng)建可視化圖形變得很容易。
在數據幀上進行操作的plot()函數只是matplotlib中plt.plot()函數的一個簡單包裝 ,可以幫助你在繪圖過程中省去那些長長的matplotlib代碼。
最近,一位來自印度的小哥以2019年世界幸福指數的數據為例,詳細講述了在Pandas中plot()函數的各種參數設置的小技巧,熟練掌握這些技巧后,你也能繪制出豐富多彩的可視化圖表。
導入數據
在繪制圖形前,我們首先需要導入csv文件:
import pandas as pd df=pd.read_csv(‘./world-happiness-report-2019.csv’) df.head(3)
這個csv圖標的內容是各個國家按照不同維度評價的幸福指數(數據下載地址見文末):
數據幀中一些列的名稱比較冗長,可以重命名使其更加簡潔:
df.rename(columns={“Country (region)”: “Country”, “Log of GDP\nper capita”: “Log_GDP_per_capita”, “Healthy life\nexpectancy”:”Health_life_expect”},inplace=True) df.columns
繪制柱狀圖、散點圖等常見圖形
從最近簡單的柱狀圖開始,只統(tǒng)計腐敗程度、自由度、寬容度、社會支持等幾個維度
%matplotlib tk df1=df[:5] df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘bar’)
嫌直接寫名稱太麻煩?沒關系,我們也可以用所在列的數字來繪制,比如上述4個列分別為7、6、8、5:
%matplotlib tk df1=df[:5] df1.plot(‘Country’,[7,6,8,5],kind = ‘bar’)
在上面的代碼中kind = ‘bar’,所以繪制的圖形是柱狀圖,如果我們把參數改成kind = ‘line’,畫出的就是線狀圖。
df1=df[:5] df1.plot(‘Country’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’],kind = ‘line’)
同樣的,如果把參數改成kind = ‘line’,還能繪制出箱形圖:
df[:5].plot(x=’Country’,kind=’box’)
對于散點圖,設置kind=’scatter’,繪制出腐敗程度與自由度之間的關系,用color=’R’將點定義為紅色:
df.plot(x=’Corruption’,y=’Freedom’,kind=’scatter’,color=’R’)
此外,Pandas中還有一個輔助函數pandas.plotting.table,它創(chuàng)建一個來自數據幀的表格,并將其添加到matplotlib Axes實例中。
from pandas.plotting import table df1=df[:5] df1=df.loc[:5,[‘Country (region)’,’Corruption’,’Freedom’,’Generosity’,’Social support’]] ax=df1.plot(‘Country (region)’,[‘Corruption’,’Freedom’,’Generosity’,’Social support’], kind = ‘bar’, title =’Bar Plot’,legend=None) table(ax, np.round(df1.describe(), 2),loc=’upper right’)
坐標軸的設置
取值范圍
使用xlim和ylim兩個參數可設置x和y軸的范圍。在折線圖中,我們要將x軸設置為0到20,y限制為從0到100。
df1=df[:20] df1[‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100))
x、y軸刻度
有時候坐標軸上的刻度并不理想,我們希望在上面標上我們喜歡的數值。
比如對于x軸,我們想要標上0、10、15和20幾個值;對于y軸,我們想要標上0、50、70、100幾個值,可以在xticks和yticks參數中悉數列出。
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,15,20]),yticks=([0,50,70,100]), title = ‘xticks’)
但是用列表來制定坐標刻度的方法,在數值太多的時候就比較麻煩了,因此我們還能通過指定刻度間隔的方法來繪制坐標軸,比如指定x軸間隔是1,y軸間隔是10:
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([w1 for w in range(20)]),yticks=([w10 for w in range(40)]))
如果我們不希望在坐標軸上看到數字,而是想要設置標簽。我們還可以將x軸標簽更改為文本標簽“低、中、高”這種樣式。
ax=df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,20),ylim=(0,100),color=’red’,xticks=([0,10,20]),yticks=([w*30 for w in range(40)])) ax.set_xticklabels([‘Low’,’Med’,’High’])
對數坐標
如果數據的跨度范圍非常大,橫跨好幾個數量級,那么用線性坐標就無法很好地展示數據。這時候我們需要用到對數坐標,設置方法是將logx或者logy的值設置為Ture。
如果我們只想設置x軸為對數坐標,y軸仍保持線性坐標,那么
df[:20][‘Freedom’].plot(kind=’line’,xlim=(0,1000),ylim=(0,100),color=’red’,logx=True)
其他高階用法
可以使用stacked參數來繪制帶有條形圖的堆疊圖。在這里,我們繪制堆疊的水平條,stacked設置為True。
將grid參數設置為True,可以給圖表加入網格。
有了subplot參數還可以繪制子圖,根據需要指定行數和列數以及繪圖的數量。
在上面的子圖中,我們沒有給子圖添加標題。當subplot 設置為True 時,在設置一組title的值,即可在列表上方加入標題。
原文鏈接:
表格下載地址:
https://www.kaggle.com/PromptCloudHQ/world-happiness-report-2019/version/1
— 完 —
- 腦機接口走向現實,11張PPT看懂中國腦機接口產業(yè)現狀|量子位智庫2021-08-10
- 張朝陽開課手推E=mc2,李永樂現場狂做筆記2022-03-11
- 阿里數學競賽可以報名了!獎金增加到400萬元,題目面向大眾公開征集2022-03-14
- 英偉達遭黑客最后通牒:今天必須開源GPU驅動,否則公布1TB機密數據2022-03-05