中國歷代人物傳記資料庫(CBDB)使用手冊¶
Michael A. Fuller
修訂版 3.6
2024 年 7 月 26 日
© China Biographical Database Project: Harvard University, Academia Sinica, Peking University
使用手冊前言¶
Peter K. Bol / 包弼德
中國歷代人物傳記資料庫(CBDB)是一個關聯式資料庫。它既能回應簡單查詢(例如:某地出身者有哪些人),也能回應更複雜查詢(例如:在某一時段內,由某地透過科舉入仕者之間的社會與親屬關係為何)。使用者可透過 CBDB 網站上的線上資料庫進行查詢(見 https://cbdb.hsites.harvard.edu/),也可下載完整資料庫,連同查詢表單與網絡/空間分析匯出工具,在任何安裝 Microsoft Access 的電腦上使用。我們另提供 SQLite 格式版本,供量化研究者與 Mac 使用者使用。本手冊主要說明可下載之獨立版本資料庫的結構與操作。
CBDB 是關聯式資料庫,將中國歷史人物(男女皆含)生命史中的多種面向加以分類、編碼。閱讀與使用本手冊時,建議先掌握以下幾點。
在脈絡中理解「人」的方法。 CBDB 不只是生命史建模工具,也是一種組織資訊的思考方式。資料庫主體雖是「社會中的人」,但我們把人視為與親屬、社會關係、居住與工作地點、生活時段與行動時點、名號、著作、入仕或入機構方式,以及社會區辨方式互相連結的實體。相對於敘事式傳記,CBDB 更把人理解為可被量化與分析的關係網絡。
時間範圍。 CBDB 超過九成資料涵蓋自唐代(618-907)至二十世紀初。以 2019 年 1 月資料為例,庫內約有 472,000 位人物,另有超過 100,000 位人物資料正在整理中;已入庫人物的補充資料也持續增加。隨著更早時期人物逐步納入,地名與官職的資料表與樹狀結構仍需擴充。
「事實主張」與「事實」。 與其他地區的集體傳記資料庫相同,CBDB 多半處理的是「事實主張」(factoid),亦即史料中對某事實的陳述(例如「蘇軾為眉山人」)。CBDB 記錄的是史料中的陳述本身;若出現互相矛盾的說法,也會併存,而不直接替使用者判定孰真孰偽。但這不代表所有來源權重完全相同。
主要資料來源。 CBDB 起於已故 Robert Hartwell 對中國歷史中期人物研究的成果。此後持續整合多種來源:出版索引(如王德毅《宋人傳記資料索引》修訂版及同類工具書)、線上資料庫(如中研院明清檔案人名權威資料庫、京都大學唐代人物知識ベース、麥吉爾大學 Grace Fong 主持之明清婦女著作資料庫)、墓誌銘等文獻整理成果、地方志官員名錄與任命紀錄,以及正史傳記。哈佛與北京大學團隊也持續嘗試自其他來源擷取資料;目前主要來源尚未完全窮盡。
文字探勘。 目前最有效率的資料擴充方式,是以計算式文字探勘技術,從可檢索數位文本中擷取事實主張。這些文本由中研院史語所提供,或由 CBDB 專案自行建立。相關工作起於美國國家人文基金會(NEH)資助下與資訊科學團隊的合作。哈佛編輯團隊(先後由陳松教授、陳世培博士領導,目前由王宏甦先生主責,並有徐力恆博士、Merrick Lex Berman 先生、Edith Enright 女士協力)負責中文史料適用的正規表示式與資料整合流程;北京大學編輯團隊負責標記文本審校,管理團隊再完成最終編碼入庫。此流程不能保證所有可能事實主張全被找出,但可確保入庫內容忠實反映已探勘來源。
誤差邊際。 機器在大量資料篩檢上通常比人穩定,但不具詮釋與學術判斷能力,因此資料庫仍可能出錯:史料本身可能有誤,標記可能漏失,編碼時也可能未妥善區分同名異人。使用者應評估查詢結果數量是否足以承受誤差而不動搖結論可信度。早期來源資料與 CBDB 原始資料間曾有顯著差異,後續投入大量校訂;採用計算方法後,差異看來已降至 1% 以下。換言之:1000 筆中 10 筆錯誤的結論,通常仍優於僅 10 筆中 1 筆錯誤的推論。
資料庫不是辭典。 CBDB 可作為個別人物事實主張的查詢入口,某些關係面向甚至比傳統人物辭典更完整;但辭典追求的是各面向的完整正確,資料庫追求的則是:案例範圍廣、數量大,足以支持有意義分析。
CBDB 由北京大學中國古代史研究中心、中央研究院歷史語言研究所、哈佛大學費正清中國研究中心共同合作。哈佛端由定量社會科學研究所 (Institute for Quantitative Social Sciences) 提供行政支持,並由跨國學者與合作夥伴組成指導委員會。使用手冊作者 Michael A. Fuller 參與並設計了資料庫各階段版本。
自 2005 年以來,CBDB 獲得哈佛大學文理學院與亞洲中心、中研院史語所、北京大學中國古代史研究中心、美國國家人文基金會、唐代研究基金會、唐代研究學會、亨利.盧斯基金會、蔣經國國際學術交流基金會、加拿大社會科學與人文研究委員會、Robert Hartwell 遺贈予哈佛燕京學社之款項,以及與 ChineseAll.com 授權合作等多方支持。在中國,CBDB 資料並結合大量二十世紀人物資料,透過 ChineseAll.com 提供之引得系統(https://www.inindex.cn)以訂閱方式提供。多年來也有許多學者赴哈佛參與專案,所有參與者皆列名於 CBDB 網站。
本手冊將說明 CBDB 作為關聯式資料庫的邏輯、內容結構、主要查詢介面,以及不同作業系統下的安裝流程。另請參閱本手冊附錄 E,以掌握資料庫與使用者介面的近期重要更新。