【環球網科技報道 記者 鄭湘琪】華夏五千年的歷史長河留下了浩如煙海的古籍。作為中華民族歷史記憶、思想智慧和知識體系的載體,古籍見證著中華優秀傳統文化的傳承發展。當下,在人工智能(AI)等技術的助力下,越來越多書寫在古籍里的文字正從泛黃的紙頁里走出來、活起來……
《西南彝志》是創作于清代的歷史文獻,較全面系統地呈現了彝族古代社會的經濟、政治、文化生活。因此,《西南彝志》也被稱為“彝族古代社會的百科全書”,對研究彝族歷史具有重要意義。
(資料圖)
近日,合合信息與上海大學社會學院簽署校企合作協議,宣布雙方將合力完成以國家珍貴古籍《西南彝志》為中心的“貴州古彝文圖像識別及數字化校對項目”,共同探索用智能文字識別技術賦能海量古彝文原籍數字化的道路。
AI讓古籍中的文字“活”起來
如今在古籍資源的數字化建設歷程中,AI為古文研究打開了廣闊的想象空間。對于一些出土的拓片、竹簡等一手材料,通過引入智能文字識別技術,經過快速訓練,可以讓機器識別出材料上的文字內容,省去了許多文獻查找的核對步驟,從而提升考古學家的研究效率。
此外,通過自然語言處理等技術的應用,AI可以“讀懂”古文,像一位資深學者那樣給古文加“句讀”。在2022年的世界人工智能大會上,合合信息就展示了AI對西周鐘鼎文的識別斷句效果。比如像“克曰穆朕文且師華父悤譲氒心寧靜于猷淑哲氒”這句話,即便從金文被翻譯成簡體字,還是晦澀難懂,但對于AI而言卻是一道可以“秒解”的題。
然而,不可否認的是,古籍數字化并非一蹴而就,一項項研究成果的背后往往伴隨著一系列的困難與挑戰。以古彝文研究為例,合合信息智能技術平臺事業部副總經理郭豐俊表示,“從技術層面講,在合合信息與上海大學的古彝文識別項目中,漢文古籍所面對的挑戰彝文古籍數字化項目中全部存在,且彝文古籍還具備幾項漢文古籍所沒有的挑戰,其識別難度是漢文古籍的許多倍?!?
比如在版式方面,漢文與彝文古籍的各類原稿的排版風格都不統一,字符間距和行距有密有疏,彝文古籍雖然沒有大小字混排、雙列夾字的校注傳統,但也時常出現加字、替字、整句倒置和文字方向不統一等現象,這樣會給文字定位造成挑戰。
郭豐俊坦言,彝文古籍研究還面臨著手寫識別困難,圖像質量退化,筆畫相近、識別難度大,異體字眾多等瓶頸?;诖?,合合信息與上海大學各自發揮優勢,共同克服挑戰。
“上海大學古彝文研究專家及其所在院系深厚的人文社科學術底蘊,以及前期積累的編碼工作成果,有助于合合信息技術研發團隊準確掌握文字研究方面的痛點,細化目標拆解,建立更精準、更符合研究需求的彝文古籍電子數據庫?!惫S俊說。
同時,在過去的十幾年中,合合信息以智能文字識別技術為核心,在圖像的復雜版式識別、結構化智能理解層面做了大量的研究,學術成果在CVPR、AAAI、ACL等頂會上發表,并取得優秀的應用效果,這為上海大學的研究提供了技術支持。
原生態古彝文典籍走向數字化
此前,在中國西南多家高校的共同努力下,規范和通用彝文的數字化工作取得了重要突破,而上海大學攜手合合信息推進的古彝文數字化項目,更側重于對原生態彝文識別的攻堅克難。
據悉,此次項目的開展基于上海大學古彝文研究員設計的四字節編碼系統,引入合合信息智能文字識別技術,對異體字、變體字、誤用字和混用字等進行標注、識別、比對,并由此建立起精確的彝文古籍電子數據庫,在古彝文研究領域屬于首創。
事實上,由于古彝文尚未取得預留的Unicode編碼區段,數字化工程還處于起步階段,所以在印刷出版時,需由一位彝文繕寫員先將彝文字和國際編碼抄寫在書頁的左側,再將已輸入電腦的漢文譯文打印、剪切后粘貼在相應彝文字的右側,形成目前常見的“四行體”彝漢文對譯,過程相對繁瑣。
據古彝文數字化項目發起人、上海大學人類學民俗學研究所的邵文苑博士介紹,《滇川黔桂彝文字集》中所列的彝文由各地專家集中謄寫,每個義項下面沒有使用案例,若想要找到某個字在一本古籍里的全部樣例,手動查閱需要耗費一整天。而此次“原生態古彝文”項目不僅能夠提高研究人員閱讀、理解原典的速度,而且可以原汁原味保留古籍傳承的用字規律和繕寫員的審美意識。
邵文苑告訴記者,“上海大學彝文研究員正在研制的四字節編碼,理論上可描述四省區所有異體字、變體字之間的細微差異,為每一個彝文字分配一個編碼,好像每個人都有獨一無二的身份證號那樣。在此基礎上建立的數據庫,能較容易地找出誤用字和混用字;輸出平臺將保留原稿與編碼的聯系,可以方便地定位某位繕寫員的書法,為將來開發多樣化的字體做準備?!?
數字技術賦能傳統文化傳承
對珍貴古籍的保護、修復和活用,關乎中華文脈的延續與傳承。從“加強文物古籍保護利用”寫入2022年《政府工作報告》,到《關于推進新時代古籍工作的意見》印發,古籍保護工作越來越受重視。作為古籍再生性保護的一種,數字化讓許多古籍面向更多人展露“真顏”,使讀者從中華優秀傳統典籍中汲取精神力量,并促進了學術研究和古籍知識推廣。
“傳統也和人一樣有通過后代延續‘生命’的能力,這種理論被稱為‘傳統的生命周期’?!鄙畚脑繁硎荆悄芪淖肿R別技術“牽手”傳統典籍研究,會是古彝文“傳統的新生命周期”的開始。希望能通過現代化的手段降低古彝文的準入門檻,讓更多人領略到這其中的無限精彩。
郭豐俊也告訴記者,古文的研究,是合合信息用智能文字識別技術促進中華文化傳承、文化保護的社會責任體現,這也對提高技術整體識別率,賦能更廣泛的大眾應用非常有價值。事實上,此前合合信息便在甲骨文、金文領域進行研究,并基于“AI+OCR”融合下的智能文字識別技術,在解決古籍版式檢測、圖像處理和文字識別難題上取得了亮眼成果。
“合合信息前期在甲骨文、金文中所作的研究,也讓古彝文識別成為一件水到渠成的事情。”郭豐俊表示,古漢文和古彝文追溯源頭都屬于以圖形表意的文字,文字間的識別有相通之處,一定程度上降低了古彝文識別模型建立及訓練的時間成本。
面向未來,郭豐俊透露,合合信息還將重點關注自然語言處理領域,不斷精進AI“讀懂”古文的能力,去實現更多理解層面的事情,以此更好地促進學術研究效率提升,并通過降低古文理解門檻,在文旅、文創領域觸達更廣泛的社會群體,讓傳統文化煥發新的生機。
責任編輯:Rex_04