數據是人工智能技術發展和場景應用的重要基礎,也是近年來諸多開展全面數字化智能化轉型的關鍵要素。7月6日,2023 世界人工智能大會在滬揭幕,除了大模型外,“產業數據價值化”也成為了熱議話題。
數據是 AI 機器學習、大模型訓練的原材料,而隱私保護和高效流通被看作是數據價值化的關鍵之舉。 聯合國工業發展組織副總干事兼執行干事鄒刺勇在現場講到的,“我們需要保護數據隱私,從而讓大家更好地信任人工智能技術。”
【資料圖】
扎牢數據基礎,提高數據質量
最新預測數據顯示,2022年中國大數據市場總體IT投資規模約為170億美元,并在2026年增至364.9億美元,實現規模翻倍。與全球總規模相比,中國市場在五年預測期內占比持續增高,有望在2024年超越亞太(除中日)總和,并在2026年接近全球總規模的8%。
在當前大模型引領的智能時代,數據的質量很大程度上決定了模型的應用廣度和性能,尤其在細分領域的垂直大模型訓練工作中,產業數據和知識的獲取和治理是重要基礎。如何進行高質量的數據集建設和治理,就顯得格外重要。
在智能汽車領域,以動力為核心的汽車已經轉向了算力競爭。“我們公司不到2000人,70%以上都與人工智能軟件算力有關。”智己汽車聯席 CTO 劉濤介紹說,一輛車每天在路上行駛時所帶來的數據量是驚人的,智己每天的數據吞吐量超過 1400 萬公里,智己通過在車端布置高效的篩選器,讓真正有利于迭代自動駕駛算法模型的數據上傳到云端的數據工廠。
作為一家科技公司,螞蟻集團數字科技副總裁余虎表示,螞蟻集團數字科技通過開發數據質量和數據價值的評估技術,已經能夠實現在線狀態和離線狀態下,通過模型效果來反向評估數據的質量。此外通過與高校合作開發基于區塊鏈技術的大規模分布式數據的可信治理技術。通過可信治理,能夠確保數據在整個過程中的安全和可信。
有人做數據管理,也有人給數據搭基建,以降低數據獲取的成本。晶泰科技聯合創始人馬健介紹,其自主研發的自動化實驗室以高效并行的機器人實驗,能快速且規模化地生成來自真實世界的高質量數據,進一步提高晶泰科技預測并驗證藥物候選的能力,“晶泰科技打通了智能算法與機器人實驗的數據閉環”。
強化數據隱私和標準,促進數據流轉
數字資源是重要的生產要素,而與此同時數據泄露事件也在頻發,加上數據應用場景的復雜化與數據本身廣泛性、分散性、復雜性、多樣性的特點,進一步加劇了數據資產發現和梳理、數據分級分類、權限管控、合規分析、AI 預測分析等數據安全難題。
“數據流轉問題核心是缺少數據安全和數據信任的保障。”螞蟻集團余虎表示,由于這種信任機制的缺失,就沒辦法讓數據的所有者、持有者、開發使用者及運營者之間形成可信協作機制,從而阻礙公共數據的共享開放和流轉。余虎提出,區塊鏈和隱私計算能夠形成可信的信任基礎設施,促進產業數據流通。
利用區塊鏈技術可以實現數據的授權使用、溯源及保護;利用隱私計算可以報證數據可用不可見,保護數據隱私。兩項技術充分融合,可以促進數據流轉,激活數據價值。
螞蟻集團在數據要素流轉所依賴的區塊鏈、隱私計算、數據安全合規等技術領域處于行業領先水平。據了解,螞蟻開發了隱私協作平臺 FAIR,深度融合隱私計算和區塊鏈這兩項技術的優勢:協作流程由智能合約驅動,數據流轉由隱私計算引擎來解決,并通過區塊鏈技術確權,登記和交易共識。該平臺已經在杭州國際數字交易中心、四川省港投集團、國家工業信息安全發展研究中心等機構得到應用。
去年12月,杭州國際數字交易中心揭牌成立。截至2022年12月,杭數交已與215家企業建立合作關系,上架產品428件,實現457筆數據業務交易,累計實現交易金額超13億元。這背后正是螞蟻集團的數據要素流通技術和產品進行全面支撐。
IDC在《隱私計算全景研究2022》報告指出,展望5-10年之后的數據要素市場,區塊鏈等相輔相成的技術能力將顯得不可或缺。目前,“區塊鏈+”的技術方案已經成為行業共識,被看作是數據要素流通的標準化方案。
科技企業利用數字技術保護數據隱私,傳統企業率先將數據實現了標準化“生產”。上海鋼聯植根大宗商品數據服務業23 年,對大宗商品幾乎全覆蓋。作為中國第一家通過國際證監會組織(IOSCO)認證的大宗商品數據服務商,上海鋼聯構建了龐大而專業的數據采集體系,在上海數交所相繼完成了“大宗商品價格”、“大宗商品產業大數據”及“大宗商品數據應用服務(數據終端)”三個系列產品掛牌。
上海鋼聯董事長朱軍紅表示,為提高數據的流通效率,上海鋼聯已經針對大宗商品數據建立了一套完整的標準,包括采集、檢驗、治理等,讓傳統行業的數據實現標準化流轉。
關鍵詞:
責任編輯:Rex_06