數據可視化技巧

從部分到整體的有效推論方式——推斷統計

推斷統計學(inferential statistics)是研究如何根據樣本資料推斷總體特徵的方法,是在對樣本資料進行描述的基礎上,對統計總體的未知數量特徵做出概率形式表述的推斷。推斷統計包括總體參數估計和假設檢驗。相比之下,描述統計學(descriptive statistics)研究資料反映客觀現象的特點,並通過圖表形式對樣本資料進行加工處理和顯示,得出規律性數量特徵。 總體(population)是研究物件的整個群體。樣本(sample)是從總體中選取的一部分資料。樣本數量是指有多少個樣本。樣本大小(又稱樣本容量)是指每個樣本包含多少個體。統計量(statistic)指的是關於樣本的測量,而參數(parameter)指的是關於總體的測量。概率樣本的置信區間(confidence interval)是對該樣本的某個總體參數(例如均值)的區間估計,展示的是這個參數的真實值以一定概率落在測量結果周圍的程度。置信區間給出的是被測量參數的測量值的可信程度,即前面所要求的“一定概率”。這個概率即為置信水準,亦稱置信度。置信度b與顯著性水準a之間的關係為b=(1-a)´100%。例如,95%置信度的置信區間意味著,如果你以完全相同的方式用一個新樣本重複研究100次,你可以預期估計值在指定的值範圍內的次數達到95次。以上是相關統計學概念的簡介。下面談一下總體參數估計和假設檢驗。 總體參數估計是指通過樣本對總體特徵進行估計,即如何從局部結果推論總體情況。總體參數估計可分為點估計(point estimate)和區間估計(interval estimate)。點估計是在用樣本統計量估計總體參數時,估計的結果以一個點的數值表示。點估計總是存在誤差的,並且無法指出對總體參數給予正確估計的概率有多大。因此,點估計只能作為一種不精確的大致估計,更好的辦法是對總體參數進行區間估計。區間估計是根據樣本統計量,利用抽樣分佈原理,用概率表示總體參數可能落在某數值區間內的推算方法。在區間估計中,給定置信度,根據估計值確定真實值可能出現的區間範圍,該區間通常以估計值為中心。區間估計的種類有很多,主要包括總體平均值的區間估計、總體百分數的區間估計、標準差和方差的區間估計、相關係數的區間估計等。從構造估計值的方法來看,包括矩法估計、最小二乘法估計、最大似然估計、貝葉斯估計等。區間估計通常需要處理兩個問題:(1)求出參數的估計值;(2)在一定置信度下指出所求估計值的精度。精度用估計值與被估參數之間的接近程度或誤差來度量。例如,由於發動機產品投試樣品的數量通常較少,造成可靠度估計帶有較大的不確定性。使用帶有置信區間或給定置信度(例如90%)的可靠度區間估計方法比使用僅具有50%置信度的可靠度點估計方法更為重要。 在統計學中,通過樣本統計變數得出的差異做出一般性結論,判斷總體參數之間是否存在差異,並且判斷樣本與樣本、樣本與總體的差異是由抽樣誤差(sampling error)引起的還是由本質差別造成的。這種推論過程稱為假設檢驗(hypothesis testing,又稱統計假設檢驗)。抽樣誤差是測量樣本值與真實總體參數值之間的差值,其產生的原因是由於樣本的大小總是小於總體的大小,所以樣本資料無法捕獲一些總體特徵。在假設檢驗中,給定置信度,根據真實值的假設值確定估計值可能出現的區間範圍,該區間通常以假設值為中心。如果計算得到的估計值在此區間範圍內,則接受原假設,否則拒絕原假設。例如,在10個地點進行森林間伐後,樹木的生長速度提高了25%,而在另外10個地點沒有進行森林間伐,要求使用推論統計決定增長率的增加是出於偶然還是真實的。如果假設森林稀疏對樹木生長速率沒有影響,那麼這種假設被稱為零假設。假設檢驗分為參數核對總和非參數檢驗。若進行假設檢驗時總體的分佈形式已知,需要對總體的位置參數進行假設檢驗,稱其為參數假設檢驗。若對總體分佈形式所知甚少,需要對未知分佈函數的形式及其他特徵進行假設檢驗,稱之為非參數假設檢驗。顯著性檢驗是假設檢驗中最常用的一種方法,也是一種最基本的統計推斷形式。其基本原理是先對總體的特徵做出某種假設,然後通過抽樣研究的統計推理,對應該拒絕此假設還是接受做出推斷。常用的假設檢驗方法有Z檢驗、t檢驗、卡方檢驗、F檢驗等。 綜上所述,推斷統計是廣泛用於生物醫學和可靠性工程等概率性(非確定性)分析問題的常用方法,也是學術素養中資料處理方法的重要組成部分。在學術論文中運用推斷統計時,需要注意在“材料與方法”部分對相關概念和假設的應用給出完整嚴謹的論述。  

11種示意圖在學術論文中的用法

所謂示意圖是指不具備定量(quantitative)資料關係而僅具備定性(qualitative)內容的插圖。示意圖與資料圖構成了插圖的全部種類。理工農醫類學科的絕大部分科研成果均使用資料圖或資料表的形式展示,這與這些學科通常需要使用定量資料描述客觀規律的科研特徵有直接關係。相比之下,文史哲等學科則更多地使用示意圖或示意表。實際上,示意圖在日常工作計畫中和任何學科的科研成果展示中都非常重要。本文簡述示意圖的作用、工具和使用原則。 資料圖與資料表的主要區別在於資料圖偏重展示資料之間的比較關係和走向趨勢,而非強調顯示資料的具體數值,雖然數值也能夠被標記在資料圖上。資料表則偏重展示資料的具體數值,或展示比較不同類別或不同單位的資料,例如在同1個表格中開列6列具有不同單位的資料。而帶有這麼多不同單位的資料如果用圖來展示,則需要使用很多張圖。 文字或表格與圖之間的區別在於文字或表格不夠直觀,而圖由於具有在形狀、色彩、線條、指向和位置關係等方面的優勢而非常直觀,能夠讓讀者用最短的時間將內容理解得最為透徹。這就是為什麼人們常說“一幅好的插圖勝過千言萬語”。 示意圖與資料圖之間的最大區別在於示意圖能夠在表達思路或概念方面擺脫數字的束縛。因此,在日常工作中和發表論著時,只要遇到無需展示精確數位的場合,都可以考慮使用示意圖來直觀有力地表達,達到精簡文字描述的目的。正是由於沒有精確數位的束縛,示意圖被方便快捷地廣泛用於工作方案的策劃和討論中,即人們常說的草圖。但是,需要注意的是,示意圖並不等於潦草或不成熟。很多正式的學術成果、方法和概念恰恰需要使用不帶數位的示意圖來表達,因為示意圖具有資料圖所不具備的特殊優點。 雖然有很多軟體能夠製作示意圖,但是對於絕大多數科研人員來講,PowerPoint軟體中的示意圖功能已經能夠基本滿足多數需求,包括流程圖、邏輯關係圖、層級關係圖、迴圈關係圖等。因此,有必要重點介紹PowerPoint中的SmartArt的功能。在Microsoft Office 2007版出現之前,繪製示意圖很麻煩,通常需要在PowerPoint中使用線條、方框、箭頭等基本元素逐個拼接作圖,並在統一格式和對齊位置等美工細節方面耗費大量時間。自Microsoft Office 2007版開始,在PowerPoint、Word、Excel中,在“插入”功能表下均增加了一類極為方便的示意圖,稱為SmartArt圖形,使使用者能夠使用大量的預置範本輕鬆創建清單、流程、迴圈、層次結構、關係、矩陣、金字塔圖表這7類圖形。而且,每種類型均包括很多種不同風格的佈局格式供用戶選擇。在SmartArt圖形的左側顯示有文本視窗,使用者能夠輸入和修改示意圖中想要顯示的文字或數位。 清單(Blocks)類型的SmartArt圖形能夠用合適的顏色和幾何形狀展示非有序區塊或分組區塊。這對於總結論文的論點或內容提要非常有用。 流程(Flowchart)類型的SmartArt圖形能夠用各種箭頭和長方塊展示流程,顯示工作任務流中的順序步驟。使用者再也不需要去花費時間拼接箭頭和色塊位置。這對於介紹論文所用的科研方法和試驗步驟非常有用。 迴圈(Circulation)類型的SmartArt圖形能夠用各種箭頭和色塊展示具有迴圈性質或反覆運算性質的流程。 層次(Hierachy)結構類型的SmartArt圖形能夠用各種組織結構形式或邏輯結構形式展示層級關係或平行關係。這對於介紹組織結構或事件的邏輯推理非常有用。 關係(Relationship)類型的SmartArt圖形能夠用各種匯總、分解和比較的邏輯關係形式展示各因素之間的關係。這對於論文的結果總結部分和討論部分的邏輯推理非常有用。 矩陣(Matrix)類型的SmartArt圖形能夠用四個象限的形式表達二維平面上的元素邏輯關係,或顯示部分與整體的關係。這對於使用排列組合方法介紹論文中的邏輯分類非常有用。…

SCI中稿技巧: 提升研究資料的說服力

在研究論文的投稿過程中,除研究主題和關鍵成果的新穎性以外,手稿結構、資料呈現和整體的可讀性也是期刊關注的重點。

為期刊手稿建立圖像的十大訣竅

研究數據的意義只能在發表時顯現,將研究結果可視化、以圖像或科學圖表傳達,是最有效的方式。建立這些圖像或圖表頗為耗時,年輕的研究人員可能不知從何入手,且每家學術期刊都有自己的規格要求,作者須確保符合繁雜的投稿規定。 這裡列10項實用的訣竅,供您為投稿作圖時參考。  

用甘特圖來強化你的研究專案管理

無論在那一個產業,都要推動一個接一個的計劃,面對專案如麻,必須要有好的專案管理;計劃能否如期達成目標,與專案管理的品質脫離不了關係,專案管理最常見的現象是無法掌控時間,造成進度落後,成本也跟著失控。在學術界也是如此,研究者需推動一個接一個的研究計劃,尤其是需要團隊分工時,有的人需負責主要項目,有的人只占部分人力,參與研究的每位成員什麼時候必須及時配合,這時候,好的專案管理變得很重要。典型的研究計劃之專案管理包括研究目標、時間、風險和成本,專案管理品質左右了研究計劃的成功決定因素;尤其學術研究經常是面對一個未知的領域,對於未發生的事情經常難以掌握,所以更需要一個很好的專案管理模式來加以控管。   專案管理的展開,首先需要制定周詳的計劃,缺乏周詳的計劃可能會阻礙每個工作項目的進行,每個工作項目都是環環相扣,幾乎所有項目都互相牽制,其中最重要的兩個因子是時間和資源。專業經理人(計畫主持人)要以實用的工具來控制時間、拿捏進度,而最常被使用的工具就是甘特圖(Gantt charts)。甘特圖是一種可視化的指南(visual guide),能為專案經理人節省時間和金錢。內部政策、資金來源、組織運作決定了專案計畫的方式,使專案在推動時能夠發揮作用,而專案管理為計劃提供了成功的保證。   甘特圖根據時間表展開研究計劃。先定義出目標時間,按時間點列出項目活動(activity)或任務(task),定出里程碑(milestone)。除了可以快速繪製,更能輕鬆更新。因此經常運用於各行各業的專案計劃。活動時間表是一個非常重要的元素,每個任務的時間必須切合實際,給予團隊成員充分的資源和足夠的時間。甘特圖通常以條狀圖來呈現:橫軸代表時間,縱軸代表工作項目,條線則代表工作項目開始與完成的時間,甘特圖可以一目瞭然的呈現出時程。如下圖所示: 典型的甘特圖 項目 時間 Week 1 Week 2 Week…

如何善用圖表?

從事科學性寫作時,總免不了要處理龐大的實驗數據,或是統計分析資料,這些數字或文字看來令人眼花撩亂,除了設計與從事實驗的當事人,恐怕外人很難瞭解這些資料與研究主題的相關性。雖然繁雜,但這些數據與資料卻是構成整體研究成果的重要基礎,正因為有了足夠數據與資料的佐證,才能得出「科學性」的客觀結論。 為了方便閱讀並進行比較,圖表成為表現這些數據與資料的好幫手。一般而言,根據文章的長短,取決圖表的多寡,例如:一篇上萬字的學位論文,當然可以按照不同的討論角度,整理出各種相對應的圖表;而一篇發表的期刊論文,則礙於頁數限制,必須精簡出最重要的圖表放入正文中,省略次要或過於詳細的背景資料,或是把這些資料放在附件(請見文末 Appendix:某試驗開始時,野外調查三種植物個別覆蓋率的「真實」百分比。由於試驗設計原本就是按照「目測」的覆蓋率來選定樣區,因此「真實」的調查值是為補充資料,所以放在附件提供讀者參考即可)。 再來是關於製作圖表的技巧。最常用的作圖製表軟體應該莫過於 Excel,不但可以進行運算、排列、簡易的統計,還能繪製常見的直方、長條、曲線及散佈圖等,視需要也可輕鬆加上誤差範圍或變異數等標示(如下圖所示)。不過在繪圖時請注意,務必把握清楚表現出「差異性」的原則,例如下列兩張長條圖,從第一張圖發現,13 種處理的土壤 pH 值(Y 軸)差異大約介於 4-5 之間,因此縮減 Y 軸範圍,修改得出第二張圖,Y 軸範圍僅介於 3-5…