DMCT. Database of medieval Chinese texts

中古寫本資料庫 (DMCT)
Start - End 
2015 - 2027 (ongoing)
Department of Languages and Cultures
Other institution(s) 
Chung-hwa Institute of Buddhist Studies (Taiwan)
Research Period 
Research Region 
Research Language 
Research Methodology 
Additional tags 
Dunhuang manuscripts
Chinese historical linguistics
Buddhist hybrid Chinese
Buddhist Chinese
Chinese Buddhism
Chinese manuscripts
Digital humanities



In the beginning of 2014, a new collaborative project on the analysis of the syntax of Medieval Chinese was initiated in the framework of the Ghent Centre for Buddhist Studies and a Pegasus Marie-Curie Grant. The focus is on manuscript texts from Dūnhuáng and also includes the production of high-quality digital editions in collaboration with the Chung-hwa Institute of Buddhist Studies (DILA, Taiwan). Since 2015, the project receives funding from the BOF.

The Database’s main focus is currently on the period of ca. 700-1100 CE, with an emphasis on the analysis of semi-vernacular (and other) texts from the Dūnhuáng corpus, in addition to a selection of texts dating from the Five Dynasties and early Sòng period.

**A first public Beta-version has been released here:**

The DB is designed as a flexible set of interconnected modules and XML data collections (in an eXist environment). The modules and sub-databases/collections are continuously adapted to specific research questions (including the design and adaptation of the input masks). The basic modules are “Syntax” (registering basic information of function words) and “Sentence Analysis” (featuring a Tree Generator and Sentence Parsing of example sentences). Connected to the DB is a growing number of TEI compatible marked-up digital editions of Dūnhuáng manuscripts, as well as a large bibliography.

The flexible and expandable structure of the DB aims at accommodating different needs of various users:

  • Research tool

    The data registered is the basis of original research on grammatical phenomena of Medieval Chinese. In addition, the data collected will be the basis of a monograph on the grammar of MC (Anderl, Christoph: A Grammar of Late Medieval Chinese. Brill Handbook Series. Leiden, planned for publication in 2018). In addition, the DB is adjusted to the research requirements of specific Ghent University PhD projects on Chinese historical linguistics and Buddhist studies (e.g., from 2016-2020, BOF will fully fund a PhD project on phonetic loan characters in Dūnhuáng texts).

  • Reference tool

    The DB aims at developing into a useful tool for reading/translating/analyzing MC texts.

  • Learning/teaching

    The “Syntax” collection is organized in the form of “chapters” and “subchapters”; as such, grammatical phenomena can be studied systematically. In addition, the Tree Generator and Sentence Parsing tools can be used in classroom.

  • Training of advanced students

    Since Autumn 2015 Ghent master students will be able to do their obligatory internships (1-3 months at a company or institution) at the Ghent Center for Buddhist Studies, being trained in and working on aspects DB. Currently, two master students are doing their internship at the GCBS.



  • Project director/contact: Christoph Anderl (
  • Project co-director (digitization and manuscript mark-up): Marcus Bingenheimer (Temple University)
  • Project co-director: Joey Hung 洪振洲 (DILA, Taiwan)
  • Manuscript mark-up: Lín Jìnghuì / Lin Ching-hui 林靜慧 (Main encoder; research graphical variants)
  • Manuscript mark-up / Text input / Variant character editing: Laurent Van Cutsem [LVC]
  • Manuscript mark-up (advisor): Zhāng Bóyōng 張伯雍 (encoder; research graphical variants)
  • Programmers: Christian Bell and Jan Schrupp 
  • Expert advisors: Neil Schmid (Dunhuang Academy), Imre Galambos (Cambridge University), Christian Wittern (Kyoto University)
  • Internships: 2016: Ruth Vervaet, Satsuki Harada; 2019: Julie Dewaele; 2020-2021: Shao Jun, Qu Lichen, Pieter Weyens, Wu Taoyu, Yang Yuting, Zino Horemans; 2021-2022: Zhou Sitong, Zhou Xiaodi, Zhang Longyu 


Collaborating institution

  • Chung-hwa Institute of Buddhist Studies (Taiwan)


Funding agencies / administrative support

  • FWO
  • BOF (Special Research Fund)
  • DILA (Dharma Drum Institute of Liberal Arts)
  • Tianzhu Foundation
  • Frogbear Project: "From the Ground Up: Buddhism and East Asian Religions"





  「中古佛教寫本資料庫編碼」專案(DMCT)是一個的合作案,由根特大學佛學研究中心(Christoph Anderl主持)與中華佛學研究所(洪振洲合作主持)合作,林靜慧執行,Marcus Bingenheimer、張伯雍擔任顧問。

「中古佛教寫本資料庫編碼」專案(從2015開始)是一個持續進行的專案,雖然資料並不完全,但我們還是決定先把資料庫試用版公開。資料庫的內容主要是至今為止已被標記過的敦煌寫本數位版與所見異體字資料庫,另外還有一些研究結果將會陸續公佈,包括:中古漢語的文法與句子分析(目前已從700個例句中,分析統計出750 個LMC功能詞)、敦煌寫本方言的通假字資料等等。

除了由弗蘭德研究基金會、根特大學、中華佛學研究所/DILA與天竺基金會等單位提供資助,由林靜慧執行完成的資料庫(DMCT)之外,Marcus Bingenheimer也提供了他主持的「敦煌漢文佛教寫卷點校」專案的研究成果(2014-2017,Chan Buddhist Texts form Dunhuang,由中華佛學研究所資助,張伯雍執行),其中四種文獻已出版成書:《早期禪宗文獻四部 —— 以 TEI 標記重訂敦煌寫卷:楞伽師資記,傳法寶紀,修心要論,觀心論》[1],關於該專案的詳細說明,可以參見這裡


在寫本數位版中,異體字有三種呈現方式:第一種,異體字為Unicode已錄之字,則記錄在「數位文字摹本」,而將正字放在「標準字體化版」的相對位置上。第二種,異體字為台灣《異體字字典》(Dictionary of Chinese Character Variants)已錄之字,則在「數位文字摹本」的連結視窗中引用其字型。第三種,異體字為專案新增之字,則在「數位文字摹本」的連結視窗中呈現截取自寫本之字型圖。Chan Buddhist Texts form Dunhuang與DMCT是各自進行的專案,前者為了出版成書,所以在處理專案新增之字時,採用的是該專案模仿寫本繪製的楷體字圖。




本資料庫的文檔皆是採用TEI標準來標記的XML檔,它們的呈現方式是「數位文字摹本」與「標準字體化版」對照的HTML檔。「數位文字摹本」保留了寫本的文字特徵,例如:異體字、塗改字、重文符號、簡寫符號等;「標準字體化版」呈現的是乾淨清楚、加上現代標點、較容易閱讀的模式。在「數位文字摹本」中,只要指鼠標指到標有淺橙色的字,它的異體字就會出現在螢幕右上角的浮動視窗中。這個視窗裡的異體字,主要是引用《異體字字典》(Dictionary of Chinese Character Variants),還有一些是截取自寫本的專案新增異體字。另外還有一些標記的呈現方式,在每個頁面的開頭都有詳細說明。

本資料庫中的某些標記版本,已被作為新版本的材料或是翻譯的底本而出版(關於〈破魔變〉的出版計畫[2] ,可以參見這裡),還有一些相關的研究論文也已經或即將出版。[3]

本專案將敦煌寫本的異體字放在「Database / Variants」,這個程式的設計與編寫是由Christian Bell和Jan Schrupp負責。本專案希望將寫本數位化編碼的同時,盡可能的將寫本中的異體字收集起來,並開發一種工具,可以幫助讀者閱讀富含少見異體字的敦煌寫本。我們希望在研究敦煌文獻時,這個資料庫可以成為有用的工具。目前,我們還在資料庫中安裝高級的搜索功能(在「Database/ Bibliography」中已經完成),以及導入William H. Baxter / Laurent Sagart提供的關於文字的歷史知識。

本資料庫是一個正在進行的專案,其中必定會有錯誤的解讀或是其他問題,為此,我們打算在資料庫中加進「互動」的功能,以便能夠記錄讀者的註解與改正。目前,讀者已經可以在「comment box」的框中加入註釋。在此之前,讀者必須先在本網站註冊為用戶。已註冊的用戶,將可以收到更新的訊息。






  在DMCT的專案中,我們採用TEI的標準,對敦煌寫本進行數位化編碼。本專案基本上沿用Marcus Bingenheimer在「敦煌漢文佛教寫卷點校」專案制定的框架,並做了一些調整。

使用oXygen 進行編碼工作(上圖為Pelliot 2187〈破魔變〉的一小部分)





以寫本Pelliot 2634第一行的編碼與轉檔方式為例:

(1) 紅色的框表示寫本複印圖片的第一行;

(2) 顯示的是在oXygen上的XML檔:使用TEI標記,將第一行進行編碼;

(3) 紅色的框表示XML轉成HTML所呈現的網頁:保留了寫本文字特徵的「數位文字摹本」;

(4) 紅色的框表示XML轉成HTML所呈現的網頁:將寫本文字正規化之後的「標準字體化版」,這個版本是進一步研究寫本的基礎,例如:註釋、翻譯、語法分析等等。



  • 在早期的資料庫版本,我們使用eXist 資料庫來儲存所有的XML檔案,但是在大約一年前,我們改用MySQL。MySQL是一種由資料表格組織而成的關聯式資料庫;

  • MySQL可以使用各種不同的儲存引擎;我們針對不同的資料表格分別使用InnoDB或MyISAM;

  • 對於為全文搜索而設計的表格,我們使用MyISAM。其他如使用者管理等資料表則使用InnoDB;

  • 程式邏輯方面使用PHP實做,使用物件導向程式設計(OOP)以及其他如PDO等新介面;

  • 網頁呈現使用CSS來設計;

  • 使用HTML5以及JavaScript支援網頁更深層的設計;

  • 由於我們要處理XML檔案,但是資料庫本身並不儲存XML檔,所以我們做了XML檔的匯入與匯出功能;

  • 舊資料庫所有的功能在新系統中都已經建置完成,此外還增加了一些新的功能,例如:異體字模組,所有模組都有的註解功能,複雜的輸入遮罩(Input Masks),還有更先進的用戶管理,多個搜索功能(包括全域搜尋)。

  • 新系統明顯更快、更穩定,而且更容易增加新功能(例如:輸入遮罩、分析模組)以及除錯;

  • 開發過程已經過優化:程式原始代碼使用版本控制系統(Subversion)進行管理,部署上線程序也已自動化。





Christoph Anderl



  • [1] Bingenheimer, Marcus (馬德偉) and Chang Po-Yung 張伯雍 (eds.): Four Early Chan Texts from Dunhuang – A TEI-based Edition 早期禪宗文獻四部 —— 以TEI標記重訂敦煌寫卷:楞伽師資記,傳法寶紀,修心要論,觀心論. Taipei: Shin Wen Feng 新文豐. 3 Vols. Vol. 1: Facsimiles and Diplomatic Transcription 摹寫版 (ISBN: 978-957-17-2274-0), Vol. 2: Parallel, Punctuated and Annotated Edition 對照與點注版 (ISBN: 978-957-17-2275-7), Vol. 3: Calligraphy Practice 抄經版 (ISBN:  978-957-17-2276-4).

  • [2] 林靜慧, Anderl, C., and 洪振洲. <破魔變>中英對照校注 [Pò Mó Biàn Critical Edition with Annotated Translations into Modern Chinese and English]. Taipei: Fagu wenhua 法鼓文化, 2017.

  • [3] For example: Anderl, C. 2018. “Linking Khotan and Dūnhuáng: Buddhist Narratives in Text and Image.” Entangled Religions 5: 250-311. Anderl C. and Sørensen, H. Northern Chán and the Siddhaṁ Songs. Forthcoming in Dūnhuáng and Beyond: Texts, Manuscripts, and Contexts – In Memory of John McRae, edited by C. Anderl and C. Wittern. Numen Series. Leiden: Brill. Anderl, C. Metaphors of ‘Sickness and Remedy’ in Early Chán Texts from Dūnhuáng. In Reading Slowly: A Festschrift for Jens E. Braarvig, edited by L. Edzard, J. W. Borgland, and U. Hüsken, pp. 27-46. Wiesbaden: Harrassowitz.





Phd Student(s)


Neil Schmid

Dunhuang Academy 敦煌研究院

Ching-hui 靜慧 Lin 林

Christian Wittern

Kyoto University

Imre Galambos

Cambridge University

Joey 振洲 Hung 洪

DILA (Dharma Drum Institute of Liberal Arts, Taiwan)

Jan Schrupp

Christian Bell

Marcus Bingenheimer

Temple University