小污染造成大危害！警惕AI數(shù)據(jù)污染引發(fā)現(xiàn)實風險

2025年08月17日 06:56　來源：央視新聞客戶端

大字體

小字體

分享到：

　　隨著AI人工智能技術和應用的蓬勃發(fā)展，各類AI工具已經(jīng)成為我們?nèi)粘９ぷ骱蜕畹闹?，不知不覺間，我們的生活開始與人工智能密切聯(lián)系。

　　當AI信息“不靠譜”網(wǎng)民如何斷真假？

　　不過近年來，不少網(wǎng)民發(fā)現(xiàn)，部分人工智能的回答開始有些不靠譜。先看兩個案例：

　　今年上半年，寧波發(fā)生了兩件事，被人工智能荒唐地聯(lián)系在一起。

　　第一件事是，2月6日寧波警方注銷了“寧波交警”抖音號。第二件事是，三個月后的5月2日，在浙江寧波余姚境內(nèi)的省道嘉余線上，一輛未懸掛車牌的轎車在違法超車過程中撞倒一輛摩托車。小車駕駛?cè)瞬⑽吹谝粫r間檢查傷者受傷情況，而是從后備廂里拿出車牌進行安裝。

　　當網(wǎng)民詢問AI軟件2月6日寧波交警抖音號為何注銷時，人工智能給出的答案竟然是“主要與5月2日的這起交通事故引發(fā)廣泛關注有關”的結(jié)論。2月份發(fā)生的賬戶注銷的原因竟然是3個月后發(fā)生的一起交通事故。人工智能的這一回答引起了網(wǎng)民廣泛關注，寧波交警隨后進行了緊急辟謠。

　　去年有網(wǎng)民詢問一款兒童手表AI軟件，“中國人是世界上最聰明的人嗎？”人工智能給出的回答竟是否定中國發(fā)明創(chuàng)造、否定中國文化的答案。這一荒唐的回答，在網(wǎng)絡上引起軒然大波。兒童手表的廠家隨后緊急道歉，稱已經(jīng)修正了相關數(shù)據(jù)，刪除了不良信息源。

　　近年來，AI杜撰的信息更是數(shù)不勝數(shù)，杜撰不存在的論文以及論文的作者、網(wǎng)址等。AI更是成了謠言類信息的幫兇，游船側(cè)翻、幼兒園大火等謠言都可以幫網(wǎng)民編造出來。

　　當AI數(shù)據(jù)被污染有何風險？如何防范？

　　剛才提到的案例，與人工智能的數(shù)據(jù)污染有著或多或少的聯(lián)系。通俗來講，如果把AI比喻成食物的話，訓練數(shù)據(jù)就相當于食材，食材腐敗變質(zhì)，最終生產(chǎn)出來的食物就會有問題。

　　人工智能的三大核心要素是算法、算力和數(shù)據(jù)，其中數(shù)據(jù)是訓練AI模型的基礎要素，也是AI應用的核心資源。一旦數(shù)據(jù)受到污染，就可能導致模型決策失誤甚至AI系統(tǒng)失效，存在一定的安全隱患。

　　什么是AI數(shù)據(jù)污染？分幾類？

　　近日，國家安全部門發(fā)布提示，通過篡改、虛構(gòu)和重復等“數(shù)據(jù)投毒”行為產(chǎn)生的污染數(shù)據(jù)，將干擾模型在訓練階段的參數(shù)調(diào)整，降低其準確性，甚至誘發(fā)有害輸出。

　　那么究竟什么是AI數(shù)據(jù)污染，數(shù)據(jù)污染分為哪幾類？

　　網(wǎng)絡安全專家曹輝：數(shù)據(jù)投毒主要針對兩個方面，一個是針對視覺類，一個是針對自然語言處理類。這張圖片是一個斑馬識別人工智能系統(tǒng)的訓練數(shù)據(jù)。我們看到，在這張照片上很多斑馬進行了標注。如何進行數(shù)據(jù)污染？就是在其中的一匹斑馬身上加一個綠點。加了綠點的斑馬，特意不進行標注。這樣的訓練數(shù)據(jù)大概會有幾萬張，在這幾萬張訓練數(shù)據(jù)里面的其中三四張進行類似的污染處理，就會導致生成的人工智能模型帶有后門，就會導致當它再見到類似身體上有綠點的斑馬，它就不會認為這是個斑馬，就導致了AI模型的判斷受到干擾。

　　專家介紹，人工智能數(shù)據(jù)污染分為兩類：

　　一種是人為主觀惡意去篡改數(shù)據(jù)，誤導人工智能的輸出結(jié)果；

　　另一種是人工智能本身會海量的收集網(wǎng)絡的龐大數(shù)據(jù)，其中不良信息如果沒有被甄別刪除掉，而是當作可以信任的信息源加入算力中，輸出的結(jié)果同樣不可信任。

　　網(wǎng)絡安全專家曹輝：我們知道大模型訓練需要大量的數(shù)據(jù)，所以，大部分的互聯(lián)網(wǎng)數(shù)據(jù)，書、報、電影的對話、臺詞數(shù)據(jù)都是訓練數(shù)據(jù)通常的收集范圍。其實我們都有可能在互聯(lián)網(wǎng)上發(fā)一些數(shù)據(jù)，一旦這些數(shù)據(jù)是不安全的、被污染的，那可能大模型也會隨之受到影響。

　　人工智能數(shù)據(jù) 為何小污染會造成大危害？

　　國家安全部數(shù)據(jù)顯示，AI在訓練過程中，即使是0.001%的虛假文本被采用，其有害輸出也會相應上升7.2%。為何小小的污染源輸出時的危害會幾何級數(shù)的上升呢？

　　專家介紹，被污染的數(shù)據(jù)有著明顯地與其他數(shù)據(jù)不同的觀點和內(nèi)容，這種情況下，AI很可能將污染數(shù)據(jù)標記為“有特點和高信息量”，并增加在算力中使用的比例。

　　中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會委員薛智慧：大語言模型本質(zhì)上是一種統(tǒng)計語言模型，使用的多層神經(jīng)網(wǎng)絡架構(gòu)具有高度的非線性特征。在模型訓練階段，如果訓練數(shù)據(jù)集中混入了污染數(shù)據(jù)，模型可能誤將污染數(shù)據(jù)判定為“有特點、有代表性、高信息量”的內(nèi)容，這種錯覺就會使模型提高污染數(shù)據(jù)整體在數(shù)據(jù)集當中的重要性，最終導致少量的污染數(shù)據(jù)也能對模型權重產(chǎn)生微小影響。而當模型輸出內(nèi)容時，這種微小的影響會在神經(jīng)網(wǎng)絡架構(gòu)的多層傳播中被逐層放大，最終導致輸出結(jié)果出現(xiàn)明顯偏差。

　　數(shù)據(jù)污染可能引發(fā)一系列現(xiàn)實風險

　　另外，AI數(shù)據(jù)污染還可能在金融、公共安全等領域引發(fā)一系列現(xiàn)實風險。

　　中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會委員薛智慧：比如在經(jīng)濟金融領域，一旦數(shù)據(jù)受到污染，一些市場行為分析、信用風險評估、異常交易監(jiān)控等工作就可能出現(xiàn)判斷和決策錯誤，進而造成直接的經(jīng)濟損失。而在社會輿論方面，數(shù)據(jù)污染會破壞信息的真實性，讓民眾難以辨別信息的真?zhèn)?，這就可能會引發(fā)社會輿論風險。

　　加強源頭監(jiān)管防范污染生成

　　針對AI數(shù)據(jù)污染，從國家安全層面，我們應該如何防范風險？專家表示，應加強源頭監(jiān)管，防范污染生成。

　　中國網(wǎng)絡空間安全協(xié)會人工智能安全治理專業(yè)委員會委員薛智慧：要制定明確的數(shù)據(jù)采集規(guī)范，使用安全可信的數(shù)據(jù)源，構(gòu)建數(shù)據(jù)標簽體系，采用嚴格的訪問控制和審計等安全措施。

　　其次，可以使用自動化工具、人工審查以及AI算法相結(jié)合的方式，對數(shù)據(jù)不一致性、格式錯誤、語法語義沖突等問題進行分析和處理。

　　安全機關此前針對AI數(shù)據(jù)污染也提示，要定期依據(jù)法規(guī)標準清洗修復受污數(shù)據(jù)，逐步構(gòu)建模塊化、可監(jiān)測、可擴展的數(shù)據(jù)治理框架，實現(xiàn)持續(xù)管理與質(zhì)量把控。

　　對于廣大網(wǎng)友而言，我們在日常生活和工作中，又應該如何防范AI數(shù)據(jù)污染的風險呢？

　　網(wǎng)警提醒：

　　一是使用正規(guī)平臺和企業(yè)提供的AI工具；

　　二是科學合理地使用AI工具，AI產(chǎn)生的結(jié)果可以參考，但不能盲信；

　　三是注意保護個人信息，避免不必要的個人隱私暴露，同時不作不良信息的投喂者，共同守護網(wǎng)絡家園。

【編輯:付子豪】

更多精彩內(nèi)容請進入社會新聞