如今大模型之于技術變革,為“行業”和“領域”在有限范圍內落地,提供了很大的可能性,在新的AI商業化敘事里,人們或主動、或被動地加入資源競賽狂潮中。
【資料圖】
身處這場競賽中的特斯聯 CTO 華先勝,也給出了自己關于大模型的冷靜思考與破局答案。
大模型不是智能涌現的終點
在大模型“智能涌現”之后短短一年,物理世界與信息的生產方式發生革命性變化,映射到更廣泛的城市空間,也必然帶來新一輪的革新。對此,華先勝表示,“雖然大模型的確取得了很大的進展,但不要迷信大模型,它有它的局限。”
據華先勝回憶,去年 ChatGPT 出來之后,他非常地關注并且第一時間去試用了。不可否認的是,它確實是一個巨大的突破,一方面,驚嘆它能力的大幅度提升,但也發現它不如我們想象般的強大,哪怕是稍微深入一些的問題,它的表現都不夠好。
“過去深度學習剛誕生時,大家也覺得它可以解決一切問題,可以用足夠復雜的模型和足夠多的數據去建立現實世界各種問題的模型。但在實戰中,其實需要深入行業才能真正解決問題。今天的大模型并沒有改變這一規律,仍然需要深入領域去了解對應的流程、數據等,才能解決行業的問題。”華先勝提到。
今天,在特斯聯的超級智慧園區里,軟體機器人隱身于園區的各大屏幕里,對園區的事情了如指掌,你可以向它問路、獲取需要的信息,也可以使用它執行操作。人與機器共存的背后,是大模型與 IoT 硬件通過語義對齊,實現人、物聯網設備和城市之間的高度智能化,這與特斯聯一貫以來堅持城域 AIoT 領域為技術核心的戰略非常吻合。
那么,當 AIoT 遇見大模型,將會碰撞出怎樣的火花呢?華先勝給出了他的思考:AI 是 AIoT 的靈魂, IoT 是它的感知和控制,像它的“手腳”,當然也包括為其提供“身體”的物理基礎,也即算力資源。
LLM(大語言模型)的出現,推動 AI 能力向更通用的目標邁進了一步:首先,大語言模型可以直接作為 AIoT 系統的交互界面。其次,AIoT 數據天生就是多模態的,多模態大模型有望解決過去很多需要通過 “AI + 規則”來解決的問題。
在華先勝眼中,目前提到 AIoT 大模型,主要有兩條路線:第一種是將過去 AI 所做的事情用大模型進行升級、再做一遍,這是大部分人的做法;第二種是真正意義上大規模的 AIoT 大模型,將 AIoT 里的多模態異構數據真正使用起來,放入大模型當中去。
“不過,這種真正意義上的AIoT大模型未來也可能會很快出現,也可能需要很長時間。”華先勝說。
他認為,現階段 AIoT 行業里所使用的大模型、仍處于他^_^第一種技術路線,也即基于語言或語言加視覺的“偽”AIoT 大模型。在“偽”AIoT 大模型出現前,AIoT 設備之間的連接和協同完全基于人類專家預定義的規則,這些規則是固定的、不完備的和不自我進化的,不一定能直接理解和遵循人類指令。但有了大模型后,根據高度多樣的 Context(任意季節、時間、人物、指令等),我們可以自動地、動態地構建物體間連接和協同規則,提供自適應的、多樣的、深入的、融合人類指令的智能場景體驗。
華先勝還表示,“無論哪條路線,眼下特別典型的全域 AIoT 大模型還沒有出現。”
立體感知,精準控制
真正的AIoT大模型應該具備什么能力呢?華先勝認為,AIoT 與其他行業有兩大差異。首先是異構數據多,大量的傳感器收集了天氣、溫度、濕度、電量、降水量等各種各樣的數據,信息更豐富;其次,IoT 設備不只是感知設備,還可以反向控制環境。更豐富的感知維度,更強大的行動力,這是 AIoT 大模型所應該具備的。
回到場景下去賦能 AIoT 領域,僅依靠一個通用的、又有很多局限的大模型是很難實現。因此,AIoT 大模型還要滿足幾個特性:
第一,專業性。它一定是專業的,能夠解決領域內更專業的相關問題。今天的大模型看上去很厲害,但并不具備足夠的領域專業信息,無法在園區里真正使用。
第二,可靠性。模型對所關注的場景要非常了解,一方面通過引入新知識讓它懂得足夠多;其次,還需要一些約束的方法讓輸出結果高度可靠,不出現“一本正經胡說八道”的“幻覺”。
第三,性能和成本的平衡。從訓練成本出發,一個特別大的通用模型不是一個常規創業公司所能承受的;其次在推理時,如果用戶量或訪問量過大,也會導致大模型服務撐不住。因此,簡化模型是一個好的選擇。我們不需要它是一個百事通,只要能解決我所關注的問題,且具備一定的常識就可以。
第四,系統打通。這個大模型不只有知識,更要同園區的系統深度耦合,以獲取實時信息,還能在被授權的前提下去實時地反控園區。
當提及近期備受關注的具身智能技術,華先勝指出,“我們提出的AIoT大模型,是現有大模型技術的具身化。AIoT 設備既是我們的眼睛和耳朵,也是我們的手和腳。目前,我們更多地聚焦于交互和場景聯動,后面我們也會將感知和控制也替換成大模型。特別是,我們的超級 IoT 設備和機器人,在無縫聯合的服務器端能力(物聯網和大模型)和機器人側能力(感知、規劃、行動和交互)的支持下,本身就是具身智能的體現,只不過特斯聯的機器人具身智能是機境協同的具身智能,不只是機器人本身的直接能力。”
AIoT 大模型的多模態挑戰
關于 AIoT 大模型落地的難點,華先勝認為,其難點主要有幾個方面,除了滿足上述提到的專業性、可靠性、性能和成本的平衡、以及系統打通外,落地對實時性要求也會高很多,因為它是一個真正起效果的 AIoT 系統;此外,它在能力上的演化,不僅是大模型自身的更新,還涉及數據積累、記憶迭代等。總的來說,AIoT 大模型落地最大的難點在于多模態。
他進一步指出,長期來看,將 IoT 數據統一融入 AIoT 大模型中是有可能的,也許是以文本/圖片為中心、其他 IoT 數據和中心對齊的方式,這是需要的。但由于AIoT 數據的異構和多模態,將不同類型的數據整合和有效地利用,需要克服數據表示和對齊的挑戰。
首先,在數據表示上,各類傳感器數據應該以何種形式建模,是參考文本作為序列輸入、還是參考圖像作為矩陣輸入、還是一種新的建模形式?對此,目前無論是學術界和工業界都暫無定論。
此外,在數據對齊上,語言模型從語言中學習、又生成語言,這是人類能理解的,而AIoT領域有很多沒有標簽和信息標注的數據,其本身的上下文也大多不具備顯性的語義,無法將語義與數據進行對應,這使得它生成的數據、信息無法被理解,需要再加工建立 AIoT 數據和自然語言的語義對齊,才能賦予這些數據以意義。
大模型不是 AGI 唯一途徑,“模型+系統”才是正解
面對 AIoT 等各個領域 A I落地面臨的困境,如何實現真正意義上的AGI?華先勝認為目前有三條可能的路徑:
[if !supportLists]·
第一條路徑是大模型持續演化和進步,不斷地增大模型的規模、增加數據的量和模態來產生一個超級大模型以實現 AGI。
第二條路徑是變革當前的連接主義,研究新的模型框架使得更接近于人腦或人心的工作模式,在低功耗的前提下,具備強大的分析、推理、發現和創新的能力。
第三條路就是我們所提出來的“模型+系統”的方法;不同于第一條路以大模型系統為核心,這里所講的系統更廣泛,有大小模型的融合和演化,有模型與規則的融合,有規則和模型的相互轉化等。通過系統和模型融合的方法,我們會構建一個更復雜的、可以不斷自我成長的智能體。
華先勝以 AIoT 領域為例表示,大語言模型本身是 AIoT 的擴充,將大語言模型作為一個具有強大理解能力的“大腦”,再通過系統連接 AIoT 設備來給它配上“眼睛”、“鼻子”、“耳朵”、“手”和“腳”,使其具備多元的感知、分析、決策和控制能力,從而實現更強的智能。當模型+系統使用得越來越多,積累了更多數據,才有可能真正實現多模態、異構數據的“大一統”AIoT 大模型。
關鍵詞:
責任編輯:Rex_02