Web3的陰暗面:去中心化如何助長AI偏見?
venturebeat / Kyle / 何渝婷編譯
2023-03-15 16:25

(示意圖/取自pixabay)

人工智慧 (AI) 迅速改變了我們的生活和工作方式,與此同時,AI數據偏見帶來的挑戰已經走到了最前面,當我們走向Web3的未來時,自然會看到同時使用Web3和AI的創新產品、解決方案和服務。 

而且,雖然一些評論員認為去中心化技術可以解決數據偏見問題,但事實並非完成如此。

Web3市場規模仍然相對較小且難以量化,因為Web3生態系統仍處於發展的早期階段,Web3的確切定義仍在不斷發展。 

雖然2021年的Web3市場規模估計接近20億美元,但各種分析師和研究公司報告稱,預計復合年成長率 (CAGR) 約為45%,再加上 Web3解決方案和消費者採用率的快速成長,到2030年,Web3市場的價值將達到800億美元左右。

雖然Web3正在快速成長,但該產業的現狀與其他科技產業因素相結合是AI數據偏見走上錯誤道路的原因。

數據偏見、品質和數量之間的連結

AI系統依靠大量高品質數據來訓練它們的算法,OpenAI的GPT-3(包括ChatGPT模型)在大量高品質數據上進行了訓練,OpenAI並未透露用於訓練的確切數據量,但估計在千億字量級或更多。

數據經過過濾和預處理,以確保其品質高且與語言生成任務相關, OpenAI使用先進的機器學習 (ML) 技術(例如Transformer)在這個大型數據集上訓練模型,使其能夠學習單詞和短語之間的模式和關係,並生成高品質的文本。

AI訓練數據的品質對ML模型的性能有重大影響,數據集的大小也是決定模型泛化到新數據和任務能力的關鍵因素。 

但是,品質和數量都會對數據偏見產生重大影響,這也是事實。

數據偏見的獨特風險

AI中的數據偏見是一個重要問題,因為它可能在就業、信貸、住房和刑事司法等領域導致不公平、歧視和有害的結果。

2018年,亞馬遜被迫廢棄了一款顯示出對女性有偏見的AI招聘工具,該工具接受了對過去10年期間提交給亞馬遜的履歷培訓,其中主要包括男性候選人,導致AI減少了包含「女性」和「女人」等詞的履歷。

2019年,研究人員發現,一種用於預測患者預後的商用AI算法對黑人患者存在偏見,該算法主要針對白人患者數據進行訓練,導致其對黑人患者的假陽性率更高。

Web3解決方案的去中心化性質與AI相結合,帶來獨特的偏見風險,這種環境中數據的品質和可用性可能是一個挑戰,這使得準確訓練AI算法變得困難,這不僅是因為缺乏使用中的Web3解決方案,還因為缺乏有能力使用它們的人群。

我們可以從23andMe等公司收集的基因組數據中得出相似之處,這些數據對貧困和邊緣化社區存在偏見。 

23andMe等DNA檢測服務的成本、可用性和目標行銷,限制了來自低收入社區或生活在該服務未營運地區的個人獲得這些服務的機會,這些地區往往是較貧窮、欠發達國家。

因此,這些公司收集的數據可能無法準確反映更廣泛人群的基因組多樣性,從而導致基因研究以及醫療保健和醫學發展的潛在偏差。

這讓我們想到了,Web3增加AI數據偏見的另一個原因。

產業偏見和對道德的關注

Web3創業產業缺乏多樣性是一個主要問題,截至2022年,女性佔據了26.7%的技術職位,其中,56%是有色人種女性,科技產業的高管職位中女性比例更低。

在Web3中,這種不平衡加劇了,根據各種分析師的說法,只有不到5%的Web3新創公司擁有女性創辦人,這種多樣性的缺乏意味著AI數據偏見很可能被男性和白人創辦人,無意識地忽視為一個問題。

為了克服這些挑戰,Web3產業必須在其數據源和團隊中優先考慮多樣性和包容性。

此外,該產業需要改變為什麼多樣性、平等和包容是必要的故事。

從財務和可擴展性的角度來看,從不同角度設計的產品和服務更有可能為數十億客戶服務,而不是數百萬客戶,這使得那些擁有多元化團隊的新創公司更有可能獲得高回報和全球規模的能力。 

Web3產業還必須關注數據品質和準確性,確保用於訓練AI算法的數據沒有偏見。

Web3 能否解決 AI 數據偏差問題?

應對這些挑戰的一種解決方案是開發去中心化的數據市場,允許個人和組織之間安全、透明地交換數據。 

這有助於降低數據偏差的風險,因為它允許在訓練AI算法時使用更廣泛的數據。

此外,可以利用區塊鏈技術保證數據的透明性和準確性,使算法不產生偏見。

但是,最終,在主流受眾使用Web3解決方案之前,我們將面臨多年尋找廣泛數據源的重大挑戰。

雖然Web3和區塊鏈繼續出現在主流新聞中,但此類產品和服務最有可能吸引新創企業和技術社群的人們,我們知道這些社群缺乏多樣性,但在全球市場中佔有率相對較小。

很難估計在Web3新創公司工作的世界人口的百分比,近年來,該產業在美國創造了大約300萬個工作崗位,如果將這一數字與美國總人口相比,並且不考慮失去的工作崗位,這個科技產業遠不能代表適齡工作的公民。

在Web3解決方案變得更加主流,並將其吸引力和使用範圍擴大到那些對技術具有內在興趣、變得負擔得起,並且足以被更廣泛的人群使用之前,獲得足夠數量的高品質數據來訓練AI系統仍然是一個重大障礙,業界現在必須採取措施解決這個問題。

本文為巴比特授權刊登,原文標題為「Web3 的陰暗面:去中心化如何助長 AI 偏見