華南理工大學發(fā)布新成果 AI不僅能譯古文還會斷句

  來源:科技日報葉青,華軒2023-11-07
打印本文
核心提示:科技日報訊 (記者葉青 通訊員 華軒)古籍文獻是中國傳統文化的載體,但由于語言的演變,理解古籍文獻的難度較大。11月4日,記者從華南理工大學獲悉,該校電子與信息學院金

科技日報訊 (記者葉青 通訊員 華軒)古籍文獻是中國傳統文化的載體,但由于語言的演變,理解古籍文獻的難度較大。11月4日,記者從華南理工大學獲悉,該校電子與信息學院金連文教授所在的“深度學習與視覺計算實驗室”近日發(fā)布了通古大模型、古籍文檔分析與識別系統、彝文文檔分析識別系統等多項成果,借助人工智能(AI)技術讓古籍更易讀懂,為中國古籍文物數據挖掘、知識發(fā)現、智能化開發(fā)與利用提供了技術支撐。

據介紹,團隊憑借在古籍領域長期積累的豐富大數據資源,加以自動生成的對話模板,通過大模型指令微調技術訓練,構建出數字人文模型“通古大模型”。該大模型可智能實現文白翻譯、句讀標點和古籍檢索等功能,有助于讓大眾更便捷地了解中華傳統文化。

團隊還開發(fā)出古籍文檔分析與識別系統,該系統集成了團隊自主研發(fā)的古籍句讀和文本翻譯兩大功能。用戶只需提供一張古籍圖片,系統就能自動定位并識別其中所有的文本,將識別出的文本按照正確的閱讀順序排序,隨后為其添加標點符號并將之翻譯為白話文。

“我們進行了算法優(yōu)化,使古籍文檔分析與識別系統能夠應對現實場景中古籍文檔可能出現的諸如書本彎曲、傾斜、文字密集以及圖片分辨率低等各種挑戰(zhàn)?!苯疬B文介紹,該系統兼具實用性和穩(wěn)健性,為推動古籍數字化工作提供了有力支持。

此外,團隊還開發(fā)了彝文文檔分析識別系統,該系統能自動精確定位并辨識圖片中的彝文文字。該識別系統采用的彝文編碼,基于團隊今年早些時候與上海大學、上海合合信息科技股份有限公司聯合發(fā)布的業(yè)界首個古彝文基礎編碼數據庫打造。

(編輯:月兒)


華南理工大學發(fā)布新成果 AI不僅能譯古文還會斷句

 

免責聲明:

1、本網內容凡注明"來源:315記者攝影家網"的所有文字、圖片和音視頻資料,版權均屬315記者攝影家網所有,轉載、下載須通知本網授權,不得商用,在轉載時必須注明"稿件來源:315記者攝影家網",違者本網將依法追究責任。
2、本文系本網編輯轉載,轉載出于研究學習之目的,為北京正念正心國學文化研究院藝術學研究、宗教學研究、教育學研究、文學研究、新聞學與傳播學研究、考古學研究的研究員研究學習,并不代表本網贊同其觀點和對其真實性負責。
3、如涉及作品、圖片等內容、版權和其它問題,請作者看到后一周內來電或來函聯系刪除。