News and information
2024.04.15來(lái)源: 人民郵電報編輯:媒體部
美國人工智能公司OpenAI推出GPT Store,掀起AI應用新潮流;谷歌遭遇裁員風(fēng)波,聚焦AI戰略調整;特斯拉創(chuàng )始人埃隆·馬斯克起訴OpenAI,指控其背離了初衷,將人工智能用于盈利而非為人類(lèi)福祉服務(wù)……近期,人工智能領(lǐng)域大模型聲勢高漲,產(chǎn)品與服務(wù)推陳出新,但同時(shí)也伴隨著(zhù)諸多爭議,尤其是在數據安全方面。
AI大模型訓練是一個(gè)復雜而精細的過(guò)程,它依賴(lài)于大量的高質(zhì)量數據來(lái)提升模型的性能和智能水平。在這個(gè)過(guò)程中,科技巨頭為了保持競爭優(yōu)勢,不斷尋求更豐富的數據資源,包括文本、圖片、視頻以及專(zhuān)業(yè)領(lǐng)域的知識等,從而使AI模型能夠更好地生成和理解內容。
訓練AI模型時(shí),數據的來(lái)源和使用方式也引起了公眾和法律界的廣泛關(guān)注。特別是當涉及版權、隱私和知識產(chǎn)權等敏感問(wèn)題時(shí),數據的使用就更需謹慎。最近,視頻網(wǎng)站YouTube首席執行官尼爾·莫漢(Neal Mohan)在一次采訪(fǎng)中提到了這一問(wèn)題,他表示,盡管沒(méi)有直接證據表明OpenAI使用了YouTube的視頻內容來(lái)訓練其文生視頻AI工具Sora,但如果確實(shí)存在這種行為,那么這將明顯違反YouTube平臺的使用條款。
莫漢表示,YouTube平臺上的內容創(chuàng )作者有權對他們的作品進(jìn)行控制,包括如何使用這些內容。當創(chuàng )作者將他們的作品上傳到YouTube時(shí),他們期望這些內容能夠受到保護,并按照平臺的規則和他們與平臺之間的協(xié)議來(lái)使用。這意味著(zhù),任何未經(jīng)授權的使用,尤其是用于商業(yè)目的的AI模型訓練,都可能構成侵權行為。
此外,《紐約時(shí)報》的報道認為,OpenAI和谷歌可能使用了YouTube視頻的轉錄文本來(lái)訓練他們的AI模型,這可能侵犯了內容創(chuàng )作者的版權。OpenAI被指控使用其Whisper語(yǔ)音識別工具轉錄了超過(guò)100萬(wàn)小時(shí)的YouTube視頻內容,并用這些數據來(lái)訓練其模型。這一行為如果未經(jīng)內容創(chuàng )作者的許可,就可能違反了版權法,并引發(fā)關(guān)于A(yíng)I訓練數據合法性的討論。
在A(yíng)I領(lǐng)域,數據的重要性不言而喻。隨著(zhù)數據資源的日益緊張,如何合法、合規地獲取和使用數據成為一個(gè)亟待解決的問(wèn)題。特別是在A(yíng)I大模型備受矚目且承載厚望的當下,數據的質(zhì)量、多樣性以及專(zhuān)業(yè)性等將直接決定AI模型生成內容的質(zhì)量高低和適用場(chǎng)景的廣泛程度。
推動(dòng)人工智能產(chǎn)業(yè)快速發(fā)展,要把保障數據安全放在突出位置。近年來(lái),我國高度重視人工智能安全發(fā)展,逐步完善相關(guān)政策法規。國務(wù)院印發(fā)《新一代人工智能發(fā)展規劃》,提出面向2030年我國新一代人工智能發(fā)展的指導思想、戰略目標、重點(diǎn)任務(wù)和保障措施,部署構筑人工智能發(fā)展的先發(fā)優(yōu)勢,加快建設創(chuàng )新型國家和世界科技強國。面向算法治理,出臺《關(guān)于加強互聯(lián)網(wǎng)信息服務(wù)算法綜合治理的指導意見(jiàn)》《互聯(lián)網(wǎng)信息服務(wù)算法推薦管理規定》等。面向人工智能合成技術(shù)的快速突破,出臺《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規定》《生成式人工智能服務(wù)管理暫行辦法》等。在全球數字經(jīng)濟激烈競爭格局下,科學(xué)把握風(fēng)險防范的尺度至關(guān)重要。
以大模型為代表的人工智能技術(shù),其潛能正日益顯現。要抓住這一技術(shù)所帶來(lái)的巨大機遇,必須同時(shí)警惕其潛在的安全風(fēng)險和隱患。因此,科技企業(yè)需要采取更為透明和負責任的舉措來(lái)對待數據問(wèn)題。這要求企業(yè)積極與內容創(chuàng )作者建立合作關(guān)系,確保獲取的數據擁有合法授權。同時(shí),積極探索新的數據來(lái)源,例如利用合成數據和公開(kāi)數據集。合成數據可以幫助解決數據匱乏、數據質(zhì)量不高等問(wèn)題,特別是在一些難以獲取真實(shí)數據的場(chǎng)景中,合成數據成為訓練AI模型的有效手段。此外,企業(yè)還需要加強內部的數據管理和合規審查,確保所有的數據使用都符合法律法規和道德標準。