西北師大發(fā)布DeepJiandu數(shù)據(jù)集:AI解密簡牘 全球與眾共享
中新網(wǎng)蘭州3月28日電 (丁思 劉玉桃)為破解智能化簡牘文字識別與內(nèi)容理解這一重大難題,近日,西北師范大學聯(lián)合甘肅簡牘博物館推出了DeepJiandu數(shù)據(jù)集,全球與眾共享。
DeepJiandu數(shù)據(jù)集,是在該校簡牘學術(shù)資源數(shù)據(jù)共享平臺的基礎(chǔ)之上,研究發(fā)布的全球首個專門用于復雜場景下簡牘字符檢測與識別的大規(guī)模數(shù)據(jù)集。該數(shù)據(jù)集的發(fā)布,極大促進人工智能技術(shù)對簡牘文獻信息的理解,為簡牘學搭上AI技術(shù)快車提供有力支撐。

該工作由西北師范大學簡牘研究院、甘肅省簡牘智能計算與數(shù)字人文工程研究中心張強教授團隊負責開展,甘肅簡牘博物館、上海中西書局、甘肅文化出版社、西南大學等單位參與了該項工作。
據(jù)張強介紹,在紙張普及前的千余年中,簡牘是中國古代記錄歷史信息的重要媒介,承載了戰(zhàn)國、秦、漢、魏晉等時期的典籍、律令、契約等,形成了完整的文明記憶鏈條,簡牘是文字傳播的核心媒介。
然而,簡牘因竹木材質(zhì)易受腐蝕,尤其在出土后易出現(xiàn)氧化、變色或粘連問題;同時由于簡牘材料的脆弱性,長期埋藏環(huán)境導致字符模糊、字跡缺損、產(chǎn)生畸變等問題,使得人工識別與整理這些珍貴文獻極為困難?,F(xiàn)有的數(shù)字化技術(shù)雖在甲骨文、東巴文、古彝文、古希臘銘文、古埃及象形文字、瑪雅文字等相關(guān)文獻資料等領(lǐng)域取得突破,但在簡牘文獻資料的智能化處理與分析程度不高,特別缺乏高質(zhì)量的數(shù)據(jù)集,制約了人工智能技術(shù)在該領(lǐng)域的應(yīng)用。

“DeepJiandu數(shù)據(jù)集的構(gòu)建正是為了解決這一問題?!睆垙娊榻B說,研究團隊通過高光譜成像、圖像增強、多光譜融合等技術(shù),確保了高質(zhì)量的數(shù)據(jù)構(gòu)建。數(shù)據(jù)集涵蓋2242種字符類別,并由簡牘學專家與計算機專家合作標注,確保數(shù)據(jù)的專業(yè)性與準確性。此外,數(shù)據(jù)集的設(shè)計考慮到簡牘中字符的殘損、異形字、多種布局等復雜場景,有效提升了模型對歷史文獻的適應(yīng)能力。
DeepJiandu數(shù)據(jù)集的發(fā)布,填補了歷史文獻數(shù)字化與人工智能結(jié)合的空白,為簡牘整理與自動識別提供了重要支持,提升考古學者對簡牘文獻的解讀效率。此外,結(jié)合計算機視覺與歷史語言學,該數(shù)據(jù)集還將推動文博機構(gòu)的數(shù)字化轉(zhuǎn)型,為多模態(tài)文化遺產(chǎn)保護提供新的技術(shù)路徑。
張強表示,隨著DeepJiandu數(shù)據(jù)集的推廣,研究團隊預計將有更多深度學習、計算機視覺領(lǐng)域的研究者加入簡牘文獻的數(shù)字化處理研究,并推動人工智能在歷史文獻解析、文化遺產(chǎn)保護等多學科交叉領(lǐng)域的應(yīng)用。未來,團隊將繼續(xù)優(yōu)化數(shù)據(jù)集,并探索多模態(tài)融合等前沿技術(shù),為數(shù)字人文研究提供更強大的技術(shù)支持。
目前,DeepJiandu數(shù)據(jù)集已載入西北師范大學簡牘學術(shù)資源數(shù)據(jù)共享平臺。該平臺已開發(fā)了實物庫、釋文庫、字形庫、著錄庫、文獻庫和專家?guī)炝鶄€庫,利用人工智能、大數(shù)據(jù)分析、虛擬現(xiàn)實等先進技術(shù),完成了對4萬枚西北漢簡的數(shù)字化收錄,不僅為專家學者提供了便捷的研究工具,也向公眾展示了簡牘文化的獨特魅力。該平臺現(xiàn)擁有千余名國內(nèi)外在線用戶,覆蓋了國內(nèi)外384個科研、文化機構(gòu)和高等院校。(完)


教育新聞精選:
- 2025年03月31日 09:41:34
- 2025年03月29日 15:17:16
- 2025年03月25日 03:08:56
- 2025年03月22日 13:16:00
- 2025年03月14日 06:27:46