學術圖表是指論文或著作中的插圖和表格。插圖和表格之間的主要區別在於表格可以展示具體數值,而插圖利於展示資料趨勢。引用自己過去發表過的或別人已經發表的圖表,不僅需要獲得出版社的版權許可,而且必須注明出處。插圖分為數據圖和示意圖,各有其目的。資料圖則是理工科論文結果部分的主要展示手段,無論對於揭示新的科學發現還是展示新的科研方法,都具有關鍵性作用。因此,策劃資料圖在本質上就是規劃科研成果的在完整性(深廣性)方面的具體內容。本文論述科研成果的核心內容——資料圖的策劃方法。 能夠從資料圖上有效準確讀取資料的最大維度是二維,即一個由橫軸(x)和縱軸(y)圍成的平面。如果維度再多,就讀不准了。如果維度再少,則沒有充分利用人眼能夠準確讀取資料的全部空間潛力,即沒有將資料擺放到極致數量。零維是一個點。一維是一條線。二維是一個平面。三維圖(或稱立體圖)由於具有傾斜的透視效果,並不利於準確讀取資料。因此,人們通常將三維圖壓扁轉化為二維等值線圖,將原本屬於在立起來的第3根軸(z)上的數據投射到x-y二維平面上,用一圈圈的曲線表示z方向的等值資料。因此,資料圖的策劃目的就是如何使用x-y曲線圖和x-y-z等值線圖用滿二維平面所能發揮的表達潛力。 任何一個系統,都可以用“輸入-關聯-輸出”來表徵其科學內涵關係。學術論文的目的通常就是揭示輸入如何影響輸出,以及如何描述關聯。例如,對於發動機系統,輸入是燃料流量和環境溫度。輸出是功率和尾氣排放。關聯是發動機硬體或代表發動機硬體的性能計算模型。輸入參數稱為因數(factor)。輸出參數稱為回應(response)。因數通常用x1、x2、x3、…、xk表示,稱為k維因數,構成k維空間。因數中包括可控因數和雜訊因數(noise factor,即不可控因數)。回應通常用y1、y2、y3、…、ym表示,稱為m個回應。回應參數中包括優化目標和約束條件。 如果一個系統是穩態的,不隨時間變化,那麼這個系統的因數和回應就都是與時間無關的狀態參數。但是,很多系統都是具有動態變化的瞬態系統,即與時間有關的動力學系統。這時,時間(t)便成為一個獨特的因數,經常佔據資料圖的橫軸。這就導致在二維平面只能再放另外一個因數。這就是為什麼瞬態系統在資料表達方面非常困難的原因。 如果一個系統可以用確定性假設來描述,那麼它的因數就可以具有幾個離散的水準值。例如,發動機的燃料流量可以是10、20、30等。但是,如果一個系統必須用非確定性即概率性來描述,那麼它的因數就必須使用諸如正態分佈等概率分佈函數來表徵,例如某個參數的製造誤差或發動機的環境溫度變化規律。概率分佈用概率密度函數(probability density function,簡稱pdf)表徵,橫軸是參數取值,縱軸是pdf值,概率分佈曲線上的每一個點表徵該取值出現的機會大小。對於概率性資料,由於pdf值需要佔據一根坐標軸,這也導致在二維平面只能再放另外一個因數。這就是為什麼概率性系統在資料表達方面也非常困難的原因。 大多數的科研工作是穩態和確定性的,這意味著這些工作可以策劃將兩個因數放在二維平面。這時,有兩種作圖方式。第一種方式可以用Microsoft Excel作圖,將x1放在橫軸,將回應放在縱軸,做出一條曲線,此時x2必須固定某個取值。然後,將x2取3~5個水準值,分別做出3~5條曲線。這就是著名的“五線圖”。第二種方式需要用MATLAB作圖,將x1放在橫軸,將x2放在縱軸,將回應值標記在等值線上。這兩種作圖方式都稱為參變數掃值法(parametric sweeping)。它們的特點是將兩個變數像席捲掃描一樣囊括所有因數水準值的組合,這稱為全析因設計(full factorial design)。參變數掃值法對於應付一個或兩個因數是非常簡單、有效和準確的,而且可以從做出的資料圖中直接觀察和讀取最優值,即某個響應作為優化目標時的最大值或最小值,以及對應的一個或兩個因數的取值。 當因數數量超過兩個時,如果仍然使用參變數掃值法做全析因設計,不僅作圖表達會變得非常繁瑣,而且回應參數的計算量也隨著因數數量和因數水準值數量的增加而快速急劇增加,導致實際上無法執行全析因設計。這時,就需要使用部分析因設計(partial factorial…
4 years ago