4月15日,記者從吉首大學(xué)獲悉,以陳炳權(quán)老師為主導(dǎo)的秦簡數(shù)智化科研團(tuán)隊正緊鑼密鼓完善國內(nèi)首個面向深度學(xué)習(xí)任務(wù)的秦簡字符與文本大規(guī)模數(shù)據(jù)庫,擬待時機(jī)成熟時上線發(fā)布。該數(shù)據(jù)庫名為“Deepseek-QinjianDatabaseV1.0”。據(jù)悉,該數(shù)據(jù)庫是國內(nèi)首個專門用于秦簡數(shù)智化全方位研究的大規(guī)模數(shù)據(jù)庫,一旦成功上線發(fā)布,將大幅提升我國古文字學(xué)家、歷史學(xué)家、考古學(xué)家對秦代文字、歷史和考古研究效率。
該數(shù)據(jù)庫是由吉首大學(xué)陳炳權(quán)老師科研團(tuán)隊花費近6年時間構(gòu)建而成,該庫涵蓋了湖南、湖北、甘肅、北京、四川等國內(nèi)所有出土的秦簡文獻(xiàn)資料,目前還在不斷豐富與完善中。與此同時,陳炳權(quán)老師已聯(lián)合相關(guān)國內(nèi)考古研究院與出版社,擬采用邊建邊發(fā)布邊推出邊上線方式,共同構(gòu)建國內(nèi)首個面向深度學(xué)習(xí)任務(wù)的秦簡數(shù)智化線上大規(guī)模數(shù)據(jù)庫。截至發(fā)稿日期,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”共包含17269張文本圖像,共標(biāo)注115996個字符,涵蓋2847個古文字類別。該數(shù)據(jù)庫按照秦簡字符對應(yīng)于現(xiàn)代漢字聲母順序排列,如同新華字典一般,可以通過聲母拼音查詢到不同字形對應(yīng)的不同秦簡文字圖像與所在文本字符,為我國秦簡數(shù)字化、數(shù)據(jù)化和數(shù)智化保護(hù)、傳承研究提供了系統(tǒng)、全面、可靠、標(biāo)準(zhǔn)的數(shù)據(jù)資源支持。隨著湖南省里耶秦簡考古工作的持續(xù)進(jìn)行,越來越多的秦簡將重見天日,該數(shù)據(jù)庫的真實單字字形容量有望突破100萬樣本大關(guān),其真實文本容量突破20萬條,將徹底滿足目前深度學(xué)習(xí)大模型對訓(xùn)練、測試、驗證樣本數(shù)量的要求。該項工作由吉首大學(xué)秦簡研究院和通信與電子工程學(xué)院以陳炳權(quán)老師為主導(dǎo)的秦簡數(shù)智化科研團(tuán)隊開展實施,由相關(guān)出版社與考古研究院提供相關(guān)電子數(shù)據(jù)資源支持。屆時,擬將邀請西北師范大學(xué)、安陽師范大學(xué)等古文字?jǐn)?shù)字化相關(guān)專家參與上線發(fā)布指導(dǎo)工作。
秦簡是中國秦代記錄文字、歷史、政治、經(jīng)濟(jì)等信息的重要載體,主要包括木牘、竹簡、絲帛等,其歷史可追溯至戰(zhàn)國時期的秦國以及中國第一個大一統(tǒng)的封建王朝——秦朝。由于簡牘長期深埋在潮濕的地下,部分甚至長年浸泡在水井之中,字跡模糊、字符殘損等問題十分普遍,嚴(yán)重影響到我國考古工作者、文字學(xué)專家和歷史學(xué)專家對秦簡文字識別與歷史還原工作的開展。而現(xiàn)有的古文字?jǐn)?shù)字化技術(shù)雖在甲骨文、蒙文、西夏文字、維吾爾語等文字領(lǐng)域取得系統(tǒng)性突破,但在秦簡字符識別、修復(fù)、釋義、生成、分析理解等方面仍缺乏高質(zhì)量、標(biāo)準(zhǔn)化、完整性的數(shù)據(jù)庫支撐,嚴(yán)重地制約著深度學(xué)習(xí)技術(shù)在該領(lǐng)域的進(jìn)一步研究與廣泛應(yīng)用。
“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”的構(gòu)建與擬發(fā)布正是為了解決這一問題。吉首大學(xué)秦簡數(shù)字化研究團(tuán)隊一直堅守“里耶秦簡數(shù)智化研究,賦能文化保護(hù)傳承”這一初心,耗費近6年時間構(gòu)建了國內(nèi)首個秦簡文字與文本數(shù)據(jù)庫,填補國內(nèi)目前無標(biāo)準(zhǔn)性、全面性、規(guī)范性、系列性秦簡數(shù)據(jù)庫的空白。該數(shù)據(jù)庫由國內(nèi)知名秦簡古文字專家與吉首大學(xué)秦簡數(shù)字化科研團(tuán)隊聯(lián)合共同標(biāo)注,確保字符與文本釋讀準(zhǔn)確性和機(jī)器可讀性。此外,“Deepseek-QinjianDatabaseV1.0數(shù)據(jù)庫”的構(gòu)建與設(shè)計考慮到秦簡通假字、異體字、底紋復(fù)雜、殘簡斷簡素簡居多等復(fù)雜因素,采用數(shù)字化處理與深度學(xué)習(xí)技術(shù)對其進(jìn)行提質(zhì)與擴(kuò)容,使得該數(shù)據(jù)庫具備良好的深度學(xué)習(xí)模型泛化能力與自適應(yīng)性。此舉對推動人工智能在秦簡文字、歷史、考古等研究領(lǐng)域的應(yīng)用具有重要的現(xiàn)實意義,對于深挖秦簡的文字價值、歷史價值、政治價值、學(xué)術(shù)價值、時代價值、科學(xué)價值具有重要的理論指導(dǎo)意義。
“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫經(jīng)過無死角全覆蓋采集(包括人工采集)、清洗、標(biāo)注、分類、篩選、排序、專家校準(zhǔn)等系列環(huán)節(jié),其數(shù)量與質(zhì)量已達(dá)到深度學(xué)習(xí)任務(wù)基本要求。在此數(shù)據(jù)庫基礎(chǔ)上,吉首大學(xué)以陳炳權(quán)老師為主導(dǎo)的科研團(tuán)隊已產(chǎn)出包括國家自然科學(xué)基金、科技與學(xué)位論文、發(fā)明專利、國際學(xué)術(shù)交流會議論文在內(nèi)近30項各類科研階段性成果,并培養(yǎng)了12名具有文博人才素養(yǎng)的碩士研究生,其中6名畢業(yè)生均在國內(nèi)高校、科研院所、國企、央企等單位順利就業(yè),成為所在單位人才培養(yǎng)與技術(shù)研發(fā)的骨干力量。
據(jù)報道,2025年2月19日,湖南省社科研究基地“里耶秦簡研究院”在吉首大學(xué)揭牌成立,展現(xiàn)出湖南省在深入挖掘秦簡歷史價值、推進(jìn)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化與創(chuàng)新性發(fā)展方面邁出的堅定步伐。該校陳炳權(quán)老師從今年全國兩會期間湖南省代表團(tuán)的11個議案中獲悉,在譽為“秦簡之都”的湖南成立“中國簡牘中心”這一議案引發(fā)全國各界熱議,而該數(shù)據(jù)庫將會為“中國簡牘中心”落戶湖南提供全方位、寬領(lǐng)域、強有力的基礎(chǔ)數(shù)據(jù)與技術(shù)支持。未來,以陳炳權(quán)老師為主導(dǎo)的秦簡數(shù)智化科研團(tuán)隊將進(jìn)一步豐富完善該數(shù)據(jù)庫,爭取早日線上推出“Deepseek-QinjianDatabaseV1.0”數(shù)據(jù)庫,讓秦簡文化“活”在當(dāng)下,“走”向未來,“奔”向世界,讓“冷門”絕學(xué)“熱”起來“火”起來,堅守簡牘文化自信。
本網(wǎng)站的信息及數(shù)據(jù)主要來源于網(wǎng)絡(luò)及各院校網(wǎng)站,本站提供此信息之目的在于為高考生提供更多信息作為參考,由于各方面情況的不斷調(diào)整與變化,敬請以權(quán)威部門公布的正式信息為準(zhǔn)。