您的位置: 首頁 > 廣告

合合信息發(fā)布行內(nèi)首個古彝文編碼“大字典”用AI為古文字開啟“煥新”之路

出處:北京商報 網(wǎng)編:劉浩天 2023-09-26

數(shù)字化技術(shù)已成為傳統(tǒng)文化保護(hù)與傳承的新途徑。近年來,以甲骨文AI識別、敦煌數(shù)字藏經(jīng)洞為代表的項目,讓更多優(yōu)秀的民族文化被世界看見。

文字是文化的重要載體,古彝文承載了深遠(yuǎn)的彝族歷史內(nèi)涵,蘊含著豐富的文化信息。近期,合合信息聯(lián)合上海大學(xué)、華南理工大學(xué)針對現(xiàn)有的《西南彝志》、云貴一帶字符,以智能圖像處理、智能文字識別等AI技術(shù)開展統(tǒng)一編碼,并于近期發(fā)布了業(yè)內(nèi)首個古彝文基礎(chǔ)編碼數(shù)據(jù)庫。

據(jù)團(tuán)隊成員表示,該項目有望幫助高校研究人員、文化工作者、興趣愛好者等人群快速找到古彝文在字典中的讀音、漢語釋義、用法,降低古彝文書籍、文獻(xiàn)閱讀的門檻,通過數(shù)字化的形式,讓這門傳承了千年的神秘語言不再遭受歲月的侵蝕,在融入現(xiàn)代社會的過程中煥發(fā)新的生命力。

圖片來源:企業(yè)供圖
合合信息旗下掃描全能王上線公益活動入口,用古彝文為用戶獻(xiàn)上祝福 

古彝文保護(hù)背后的困境與難點

彝文是云南、貴州、四川等地的彝族人使用的文字,而“古彝文”專指在民間流通使用的原生態(tài)彝文。古彝文傳承至今已有數(shù)千年歷史,是世界上最古老的文字之一。根據(jù)《滇川黔桂彝文字集》,古彝文多達(dá)87046字,比《康熙字典》還要多,是記錄少數(shù)民族歷史沿革、管理制度、民風(fēng)民俗的重要載體。

目前,行業(yè)技術(shù)廠商主要通過AI、OCR等數(shù)字化技術(shù)對古籍進(jìn)行保護(hù),古籍識別項目主要專注于對漢字及其各種變體的識別。傳統(tǒng)的古彝文來源于巖書、布書、竹簡等不同類型,文檔排版復(fù)雜不規(guī)范,年代久遠(yuǎn),圖像質(zhì)量低,給識別帶來極大難度。

受制于數(shù)據(jù)樣本的稀少、字形的復(fù)雜多變,原生態(tài)彝文的數(shù)字化是一項大工程。項目技術(shù)負(fù)責(zé)人、華南理工大學(xué)電子與信息學(xué)院教授金連文表示,原生態(tài)彝文此前沒有被系統(tǒng)性地進(jìn)行數(shù)字化編碼,古彝文沒有公開數(shù)據(jù)集,標(biāo)注困難,所以從最初語料的收集開始,就需要做大量的前置工作。再者,古彝文異體字繁多,每個字的異體寫法少則兩三種,多則幾十種,且字體間風(fēng)格差異大。

金連文認(rèn)為,建立一個專門的數(shù)據(jù)庫,通過基礎(chǔ)編號將不同樣式歸納,可以“破解”古彝文“一對多”的關(guān)系,解決文字查詢問題。

多方合力為古彝文打通“數(shù)字化”之路

此前,在中國西南多家高校的共同努力下,規(guī)范和通用彝文的數(shù)字化工作取得了重要突破。2022年12月,合合信息與上海大學(xué)、華南理工大學(xué)共同開啟以國家珍貴古籍《西南彝志》為中心的貴州古彝文圖像識別及數(shù)字化校對項目,引入AI技術(shù)提升古籍識別效率,從異體字、變體字、誤用字和混用字中提煉出編碼。在對7萬6千字符的樣本進(jìn)行訓(xùn)練后,團(tuán)隊近期成功建立了包含上千個古彝文基礎(chǔ)編碼的數(shù)據(jù)庫,堪稱古彝文編碼“大字典”。

為了推進(jìn)古彝文“大字典”項目的順利進(jìn)行,在收集語料收集的過程中,研究人員使用了合合信息旗下掃描全能王“智能高清濾鏡”功能,高效解決古彝文識別的版式檢測、圖像處理和文字識別等難題,對于污漬、殘破的彝文古籍,只需通過“智能高清濾鏡”輕輕一掃,即可得到一張清晰、平整的圖片。

“智能高清濾鏡”通過算法大模型,讓AI代替人去“思考”,達(dá)成圖像識別、檢測、分析、研判、結(jié)論的全鏈路閉環(huán),最終為用戶自動選擇出最優(yōu)處理方案。“智能高清濾鏡”的智能研判主要基于精準(zhǔn)的圖像感知,通過深度學(xué)習(xí)模型,進(jìn)行圖像特征獲取,感知到圖像特征并對應(yīng)進(jìn)行圖像處理,應(yīng)對各種復(fù)雜文檔,達(dá)成場景化的決策效果。

古彝文“大字典”的面世,并非合合信息在傳統(tǒng)文化保護(hù)領(lǐng)域的首次嘗試。近年來,合合信息在甲骨文、鐘鼎文等古文字識別項目中接連實現(xiàn)新的突破。在對甲骨文、鐘鼎文的處理過程中,合合信息通過智能圖像處理技術(shù)解決了曲面、模糊、陰影、非常規(guī)文字影響下的識別難題,也為古彝文的數(shù)字化奠定了實踐基礎(chǔ)。

技術(shù)融合煥新傳統(tǒng)文化

相較于甲骨文和金文,因年代久遠(yuǎn)、字形復(fù)雜,古彝文識別挑戰(zhàn)更大,也更具備世俗意義:甲骨文和金文從某種意義上說都屬于消亡類文字,但古彝文至今依舊保留了古代固有形制,在中國大西南地區(qū)仍有應(yīng)用。古彝文的數(shù)字化不僅作用于民族文化記憶的留存,也能通過互聯(lián)網(wǎng)及各大知識平臺,讓廣大人民認(rèn)識、理解這一悠久、優(yōu)美的語言,創(chuàng)造有底蘊、有故事的民族文化活動,讓傳統(tǒng)文化煥發(fā)新的生命力。

古彝文數(shù)字化項目發(fā)起人、上海大學(xué)人類學(xué)民俗學(xué)研究所講師邵文苑曾在項目啟動時表示,“傳統(tǒng)也和人一樣有生老病死的過程,并和人一樣有通過后代延續(xù)生命的能力。我們一起為之努力的數(shù)字化,可能是彝文古籍的‘傳統(tǒng)的新生命周期’的開始”。

伴隨著小康社會的發(fā)展,國家對于傳統(tǒng)文化保護(hù)、傳承的重視程度正在不斷加強(qiáng)。2022年,中辦、國辦印發(fā)的《關(guān)于推進(jìn)實施國家文化數(shù)字化戰(zhàn)略的意見》明確提出“中華文化全景呈現(xiàn),中華文化數(shù)字化成果全民共享”的目標(biāo),要求強(qiáng)化中華文化數(shù)據(jù)庫數(shù)據(jù)入庫標(biāo)準(zhǔn)。

古彝文編碼“大字典”的發(fā)布,是校企聯(lián)合,以數(shù)字化手段助力傳統(tǒng)文化傳承的一次示范。邵文苑認(rèn)為,古彝文數(shù)據(jù)庫的發(fā)布并非一個最終的研究結(jié)果,而是一項非常重要的基礎(chǔ)性工作。“基礎(chǔ)編碼的發(fā)布,意味著這些文字在數(shù)字社會里從此擁有了‘身份證號碼’,能夠被更多地展現(xiàn)在網(wǎng)絡(luò)空間上,被更廣泛的人群看見、認(rèn)識、研究,文化保護(hù)還需要全社會的參與。”邵文苑說。

右側(cè)廣告
新聞排行

本網(wǎng)站所有內(nèi)容屬北京商報社有限公司,未經(jīng)許可不得轉(zhuǎn)載。 商報總機(jī):010-64101978 媒體合作:010-64101871

商報地址:北京市朝陽區(qū)和平里西街21號 郵編:100013 法律顧問:北京市中同律師事務(wù)所(010-82011988)

網(wǎng)上有害信息舉報  違法和不良信息舉報電話:010-84276691 舉報郵箱:bjsb@bbtnews.com.cn

ICP備案編號:京ICP備08003726號-1  京公網(wǎng)安備11010502045556號  互聯(lián)網(wǎng)新聞信息服務(wù)許可證11120220001號