本報記者 田鵬
7月8日,由上海數據交易所、大數據流通與交易技術國家工程實驗室承辦的“大模型時代下的數據要素流通”主題論壇在上海世博中心舉行。上海數交所總經理湯奇峰作題為“大模型時代下的語料庫”的主旨演講,帶來關于國內語料庫建設挑戰(zhàn)的觀察,并從語料庫質量和開放程度兩個維度給出建設建議。
湯奇峰認為大模型時代下的語料庫建設存在語料庫供給不足、語料庫質量不高、語料庫多樣性匱乏、語料庫標準欠缺等問題。
“語料庫建設不是單一企業(yè)的責任,需要多方共同推進,如果每個企業(yè)都單獨建設維護語料庫,會拉低效率,也會增加企業(yè)成本,數交所希望通過自己的努力加強數據要素建設提升語料庫建設效率。”
當天活動上,上海數交所正式啟動語料數據生態(tài)創(chuàng)新合作伙伴計劃,攜手首批合作伙伴豐富語料庫,推動數據要素市場建設。
關于語料庫建設的挑戰(zhàn),湯奇峰認為主要集中于開放程度和數據質量兩方面:“能否有大模型企業(yè)所需的高質量語料?目標對象愿不愿意開放數據?”由此,湯奇峰指出可以根據開放程度強弱和數據質量高低將語料數據生態(tài)機構分出四類供方。
上海數據交易所語料庫為這四類供方制定差異化工作策略。湯奇峰建議可以從政府引導市場主導、豐富種類提高質量、統(tǒng)一標準規(guī)范建設、加強監(jiān)管保障安全、加強監(jiān)管保障安全四個方向建設大模型時代下的語料庫。
湯奇峰指出,針對數據質量高但開放程度低的供方,可以通過數據交易鏈有效破解語料數據流通的信任問題,“核心之一在于產權和參與大模型后的收益分配問題。”
此外,上海數據交易所語料庫還將提供特色標簽服務體系、挖掘應用場景價值、驅動稀缺數據開放流通以提高該類供方開放數據積極性。
針對開放程度高但數據質量低的機構,上海數交所語料庫則通過搭建專業(yè)化數商服務渠道提高數據質量。
湯奇峰介紹,上海數交所在建設語料庫時考慮的兩個維度與數交所對企業(yè)數據發(fā)展進程四個階段的觀察密切相關。對于這四個階段,湯奇峰解釋,第一個階段是企業(yè)數據自產自用階段。隨著企業(yè)數據的內部供給有限時,企業(yè)數據需求逐步轉向外部,進入到第二階段,在該階段,大平臺和大企業(yè)通過資本紐帶在體系內部形成數據流通。到了第三個階段,企業(yè)累積的數據將開放給整個行業(yè),產業(yè)內形成標準。第四個階段,數據使用在資產化過程中會產生新的更高階業(yè)態(tài)。
湯奇峰說:“語料庫采購已經在不少大模型企業(yè)成本中占據重要比重,上海數交所希望以市場配置的方式組織數據要素推動語料庫建設。”
據悉,上海數交所官網已經于7月7日正式上線語料庫,累計掛牌近30個語料數據產品,包含文本、音頻、圖像等多模態(tài),覆蓋金融、交通運輸和醫(yī)療等領域。
(編輯 李波)
衛(wèi)星通信管理制度及政策法規(guī)進一步完善……[詳情]
| 23:48 | 超九成北交所公司獲調研 一致魔芋... |
| 23:48 | 滬深交易所聯合中國結算發(fā)布通知 ... |
| 23:48 | 國家網信辦會同中國證監(jiān)會深入整治... |
| 23:48 | 工業(yè)高端化“成色”折射中國經濟動... |
| 23:32 | 海正藥業(yè):法維拉韋片線下進院全面... |
| 23:32 | 影石創(chuàng)新:公司致力于構建覆蓋更多... |
| 23:32 | 世華科技:公司業(yè)務以國內銷售為主... |
| 23:32 | 中利集團:公司實際控制人為廈門市... |
| 23:32 | 開開實業(yè):公司一直以來專注于主業(yè)... |
| 23:32 | 英特集團:關于2021年限制性股票激... |
| 23:32 | 匯金通:公司不存在逾期擔保 |
| 23:32 | 常山北明:公司堅持數字產業(yè)化和產... |
版權所有證券日報網
互聯網新聞信息服務許可證 10120180014增值電信業(yè)務經營許可證B2-20181903
京公網安備 11010202007567號京ICP備17054264號
證券日報網所載文章、數據僅供參考,使用前務請仔細閱讀法律申明,風險自負。
證券日報社電話:010-83251700網站電話:010-83251800 網站傳真:010-83251801電子郵件:xmtzx@zqrb.net
掃一掃,即可下載
掃一掃,加關注
掃一掃,加關注