本報記者 吳曉璐
ChatGPT一經問世便在人工智能應用領域掀起了一陣新的浪潮并引起了全球轟動,僅僅兩個月內其注冊用戶就突破1億。
“ChatGPT的主要魅力在于,它利用從互聯網獲取的海量訓練數據開展深度學習和強化學習,可以給用戶帶來全新的‘人機對話’體驗。海量訓練數據可謂是維系ChatGPT進化的核心要素之一。”中國證監會科技監管局局長姚前在《中國金融》雜志撰文表示。
姚前表示,有研究預測,按照目前的發展速度,到2026年ChatGPT類大模型的訓練將耗盡互聯網上的可用文本數據,屆時將沒有新的訓練數據可供使用。因此,算力瓶頸之外,訓練數據將成為大模型產業化的最大掣肘之一。從更深層次考慮,大模型在訓練數據方面還存在各種治理問題,比如數據采集標注費時費力成本高、數據質量較難保障、數據多樣化不足難以覆蓋長尾和邊緣案例、特定數據在獲取與使用分享等方面存在隱私保護、數據偏見等問題。由此可見,人工智能產業的高質量發展離不開高質量的訓練數據,訓練數據的安全合規使用是大模型人工智能長期健康發展的基礎。
姚前認為,數字經濟高質量發展的關鍵是數據,抓住高質量數據這一“牛鼻子”,就能有效應對以數據為核心的科技創新和產業變革。當前AIGC(AI Generated Content,人工智能自動生成內容)和ChatGPT充分展現了高質量訓練數據在產業價值創造中疊加倍增作用,大模型訓練數據及其輸出結果將會是未來社會和生產中的一種重要的數據資產,其有序流轉并合規使用也是發展數字經濟的應有之義。通過合理的機制理順市場中各參與方的數據權益關系和分配格局,并加強訓練數據的依法合規監管,是促進大模型人工智能產業健康發展的關鍵。
為此,姚前提出三點建議:
一是重點發展基于AIGC技術的合成數據產業。以更高效率、更低成本、更高質量為數據要素市場“增量擴容”,助力打造面向人工智能未來發展的數據優勢。在強化數據要素優質供給方面,應統籌兼顧自立自強和對外開放。可考慮對Wikipedia、Reddit等特定數據源建立過濾后的境內鏡像站點,供國內數據處理者使用。
二是構建大模型訓練數據的監管體系。國家相關部門應對大模型訓練數據的處理和使用標準進行統一規范;建立數據托管機制,對數據托管方進行約束,要求數據托管方按照監管機構的規定對數據來源、處理結果以及使用去向等進行監測,從而使得模型的輸入、輸出結果符合監管要求。
三是探索基于可信機構或基于可信技術的數據托管方式。數據托管機構可以由相關機構組建數據托管行業聯盟,以共建共享的方式建設;亦可利用區塊鏈技術,基于聯盟鏈或有管理的公鏈,完善源端數據治理機制,實現數據的鏈上托管、確權、交易、流轉與權益分配。
(編輯 張偉)
20:22 | 吉祥航空:按計劃推進國際化戰略 |
20:15 | 4月末我國外匯儲備規模升至32817億... |
20:15 | 5月8日上市公司重要公告集錦:貴州... |
20:14 | 中國化學舉辦2024年度及2025年第一... |
20:13 | 引領行業向智能化變革 博雷頓登陸... |
20:13 | 鵬華基金舉辦走進三全食品活動 多... |
20:09 | 傳化智聯:5月12日將召開2024年度... |
20:09 | 大港股份:5月15日將舉辦2024年度... |
20:09 | 地素時尚:4月份累計回購公司股份6... |
20:09 | 東方證券:5月7日回購A股股份16641... |
20:09 | 多浦樂:5月12日將召開2024年度暨2... |
20:09 | 海順新材:5月9日將召開2024年年度... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注