學術出版上,資料檢查和資料共用兩個概念有什麼不同?
在帶有互聯網數位化技術深刻烙印的資訊時代,學術出版業正在經歷兩個重要的運動,一個稱為開放獲取(Open Access,簡稱OA),另一個稱為資料共用(Data Sharing)。瞭解這兩個運動的原因和關係,對於廣大科研人員具有重要的現實意義。 從系統工程的觀點來講,一個產品或事物通常可以用品質和成本衡量其屬性。例如,發動機產品包括四大屬性,分別是性能、耐久性、封裝性、成本。前三個屬性綜合起來即構成品質。成本加上利潤就構成價格。縱觀學術出版這一事物,它的所有運動其實也都是圍繞品質和價格這兩個元素進行的。運動不一定就是正確的,它只是代表一種時代聲音或潮流。正確辨析學術出版運動中的正確因素和錯誤,瞭解它們的來龍去脈,是每個科研人員應當具備的能力。 當出版行業產生了壟斷集團和價格暴漲現象後,就爆發了開放獲取運動,即期刊訂閱用戶由於不滿訂閱價格的持續巨幅增長和出版商利潤的暴增而奮起反抗,以拒絕繳費訂閱的方式抗議,並宣導期刊免費向公眾開放。這一行為造成出版商從訂閱用戶那裡收不到錢,轉而向作者收取OA期刊的昂貴版面費(或稱論文處理費),給廣大論文作者造成了不公平的境遇。 當學術出版中頻繁出現資料造假或無法實現可再現性時,為了增強出版品質,期刊要求作者補充資料和方法資訊,以便讓同行評議審稿人和讀者檢查監督,這稱為資料檢查(Data Checking)運動。遺憾的是,作為期刊品質控制的資料檢查運動莫名其妙地被資料共用運動所混淆,以至於目前所謂的“資料共用”其實包含兩方面含義:資料檢查,資料共用。實際上,這兩方面的目的截然不同,應當視為兩個不同的運動。 資料檢查運動的目的是為了便於審稿人檢查資料而防止資料造假,以及便於讀者找到充足的資料和方法資訊而能夠重現論文的結果和結論。由於資料檢查運動的目的是提高期刊論文品質,期刊有權強制性要求作者上傳提供充足的資料備查。多數作者也對這一合理要求表示理解並能夠予以配合。至於備查的資料格式和說明,如果在論文裡面已經標記注釋清楚,對於作者來講並不是很大的資料管理負擔,例如期刊要求作者上傳全部圖表對應的Excel格式的資料。有證據表明,帶有資料檢查要求的論文比沒有這種要求的論文能夠獲得更多的被引用次數,原因大概是由於人們認為經過補充資料檢查的論文更加可信。 資料共用運動的目的是為了把論文中沒有發表的資料拿出來給別人用,以便全世界不再為相同或相似的科研專案支付經費而節省資金,或者以便讓別人有機會做出自己尚未做出或沒有能力做出的科研結論。資料共用運動的這兩個目的在正當性上是非常有爭議的。而且,在不談資料共用報酬或回報的情況下奢談這兩個目的,就是在假設每個人都具備非常崇高的覺悟和全世界沒有科研競爭的壓力。因此,目前的資料共用運動基本上就是一個無法實現的、脫離實際的、烏托邦式的狂想。 下面仔細分析資料共用運動的這兩個目的。在全球範圍內為了實現科研經費節約而共用資料,其主要論據是“所有納稅人有權利使用當初用納稅人的錢資助產生的科研資料”。申請科研經費的目的是為了創造資料。對於公共基金資助的科研專案,杜絕科研經費重複使用和浪費當然是一個美好的想法。但是,要想實現它,需要以下四個機制予以保障,才能讓人敢用、能用、自覺用、用得起。 共用的資料必須具有防偽造篡改的協力廠商監督認證資質,以便所有人都能夠放心使用而不會無辜背負學術造假的惡名。 共用的資料必須具有標準完整的說明,包括試驗方法、材料、設備、流程、輸入和輸出的參數數值、假設條件等,以便所有人都能夠像資料產生者那樣準確無誤地使用資料。這要求共用資料的提供者必須具有源動力、自覺性和紀律性以及可遵循的標準化流程。源動力和自覺性來自共用資料後能夠獲得報酬、作者署名或致謝。紀律性來自科研專案驗收時對共用資料的檢查機制。 需要建立一個全球化檢索系統,查找經費申請人所申請的科研專案是否過去已經被別人發佈過共用資料。發佈過的就不予經費支持。這就好比論文查重,能夠防止用過和沒用過共用資料的人去申請重複的科研經費。 消除資料共用的儲存成本。將資料(尤其是大規模原始資料)儲存在公開資料庫的費用可能很高。在版面費高居不下的今天,向作者身上強加資料共用儲存費用,無疑是雪上加霜和不道德的。有人提出作者通過貢獻共用資料來換取版面費的豁免。但是,有些期刊沒有版面費,而有版面費的期刊從賺取版面費改為售賣資料,會在期刊、作者、讀者之間形成一個新的複雜收費——共用資料使用費。 由此可見,這四個機制目前在國內外是完全缺失的,而且構造的難度極大。因此,與其總是呐喊空談資料共用,不如腳踏實地多談一些如何逐步建立這四個保障機制。上述分析是針對公共基金資助的科研專案的資料共用。對於私有資金(例如企業資金)支持的科研項目和政府的機密專案,當然不能實現資料共用,而必須強調資料保密。…