人工智能延續(xù)人類文化,人工智能繼承人類偏見

陳根
當(dāng)前,人工智能作為第四次工業(yè)革命中的代表性技術(shù),正在迅速改變我們所認(rèn)知的世界。然而與此同時,現(xiàn)實世界中,由人所創(chuàng)造、從人類數(shù)據(jù)中學(xué)習(xí)觀察的人工智能,也常常表現(xiàn)出和人類相似的偏見,不論是招聘中的性別歧視,還是人臉識別下的種族誤判。

科技是人類現(xiàn)有文化的延伸??萍荚谘诱沽巳祟愔腔鄣耐瑫r,也繼承了人們的偏見和歧視。

當(dāng)前,人工智能作為第四次工業(yè)革命中的代表性技術(shù),正在迅速改變我們所認(rèn)知的世界。然而與此同時,現(xiàn)實世界中,由人所創(chuàng)造、從人類數(shù)據(jù)中學(xué)習(xí)觀察的人工智能,也常常表現(xiàn)出和人類相似的偏見,不論是招聘中的性別歧視,還是人臉識別下的種族誤判。

歧視的發(fā)生不僅折射出社會中原就存在的性別陳規(guī)與偏見,并且,在設(shè)計與營銷決策的過程中,人工智能還將進(jìn)一步放大這些偏見。在科技能量日益增強的當(dāng)下,思考和解決這些歧視的發(fā)生變得越來越重要。

360截圖16450626515344.png

AI偏見,是人類意志的產(chǎn)物

與隨機雜亂、物競天擇的進(jìn)化過程不同,人工智能是人類意志的產(chǎn)物,是為了達(dá)成某種目的而形成的。盡管人工智能作為技術(shù)包含著一個客觀結(jié)構(gòu),但人工智能同時服務(wù)于人的目的理性活動。也就是說,任何一種人工智能算法在誕生前就已經(jīng)被概念化,并且在開發(fā)的過程中必然伴隨著開發(fā)者的意志。

然而,從開發(fā)者的角度來看,美國勞工局的數(shù)據(jù)顯示,雖然女性在勞動力市場中占了59%的比例,但在科技界往往只有20-30%的女性員工。在與程序開發(fā)相關(guān)的工作中,網(wǎng)站開發(fā)是女性比例最高的職業(yè),但也只有不到40%。

據(jù)估計,截至2018年,僅僅在美國就有140萬個與計算機相關(guān)的就業(yè)機會,而女性只會獲得這其中29%的工作。人工智能的開發(fā)也很自然地繼承了從業(yè)上的性別不平衡,沒有足夠的女性樣本參與使得人工智能的知識不可避免地出現(xiàn)漏洞,這就是為什么會出現(xiàn)偏差錯誤的原因。

人工智能Now作為一家研究人工智能對社會影響的研究機構(gòu),其研究就表明,男性主導(dǎo)的人工智能產(chǎn)業(yè)與其生產(chǎn)的歧視性系統(tǒng)及產(chǎn)品之間有著明顯的聯(lián)系。比如,在機器學(xué)習(xí)領(lǐng)域里,其偏見的來源就包括不完整的或有偏差的訓(xùn)練數(shù)據(jù)集、訓(xùn)練模型代入人的標(biāo)簽和偏見,以及算法和技術(shù)的缺陷。

當(dāng)訓(xùn)練數(shù)據(jù)中缺少某種統(tǒng)計類別時,人工智能習(xí)得的模型就無法正確衡量這部分特征。如果訓(xùn)練數(shù)據(jù)中男性比例過低,這一算法模型應(yīng)用于男性時就有更大的誤差;如果訓(xùn)練數(shù)據(jù)中關(guān)于“醫(yī)生”的照片大部分是女性,搜索“醫(yī)生”圖片時,算法就會放大女性出現(xiàn)的概率。

于是,當(dāng)科技從業(yè)者們的性別不平衡進(jìn)一步表現(xiàn)在有偏差的訓(xùn)練數(shù)據(jù)集里時,性別歧視就出現(xiàn)了。亞馬遜的Alexa和蘋果的Siri等常見人工智能系統(tǒng)的核心——自然語言處理(NLP)就存在性別偏見,人工智能在詞嵌入上的性別偏見,就像單詞聯(lián)想游戲一樣。其中,這些系統(tǒng)通常將“男人”與“醫(yī)生”相關(guān)聯(lián),將“女人”與“護(hù)士”相關(guān)聯(lián)。而這也正是訓(xùn)練樣本不完整、不足的典型代表。

從訓(xùn)練模型代入人的標(biāo)簽和偏見來看,絕大多數(shù)商業(yè)人工智能系統(tǒng)都使用監(jiān)督機器學(xué)習(xí),因此訓(xùn)練數(shù)據(jù)需要人為打上標(biāo)簽。這個過程中,就難免會有意無意將人的偏見編碼到算法模型中。倘若人在設(shè)定標(biāo)簽時,將“身材的胖瘦”與“美”聯(lián)系起來,算法自然會繼承這一偏見。

同時,這些偏見在算法和技術(shù)的缺陷下進(jìn)一步被隱匿,當(dāng)算法和所有人的生活都緊密相關(guān)時,算法卻以一種所有人都無法理解的方式在黑箱操作。“算法黑箱”帶來的某種技術(shù)屏障使得無論是程序錯誤,還是算法歧視,在人工智能的深度學(xué)習(xí)中,都變得難以識別。偏見也因而無從解釋。

此外,正是由于科技行業(yè)女性的低比例,使得科技行業(yè)彌漫的性別偏見難以打破、研發(fā)出來的人工智能產(chǎn)品折射出來的男尊女卑的“女性觀”得不到糾偏。這種物化女性、加固性別刻板印象的趨勢則進(jìn)一步打擊了女性進(jìn)入科技界的意愿。從開發(fā)到應(yīng)用,性別的歧視就在這樣的不良循環(huán)里存在著,隨時發(fā)生著。

360截圖16450626515344.png

適時糾偏,重建技術(shù)公平

當(dāng)前,偏見、歧視、錯誤都是人工智能進(jìn)步的必經(jīng)之路,其前提是人們能夠在意識到偏見存在時做出改變,適時糾偏。

顯然,人工智能算法由人類開發(fā),被人類使用。開發(fā)者們的價值觀和偏見都將對算法造成極大影響。這也是為什么社會需要更多的女性科研人員參與人工智能的設(shè)計,甚至是將女性用戶的需求以及尊重性別平等的理念融入到人工智能的系統(tǒng)里的重要原因。

從技術(shù)開發(fā)的過程來看,不公正的數(shù)據(jù)集則是偏見的土壤——如果用于訓(xùn)練機器學(xué)習(xí)算法的數(shù)據(jù)集無法代表客觀現(xiàn)實情況,那么這一算法的應(yīng)用結(jié)果往往也帶有對特定群體的歧視和偏見。事實上,算法存在的前提就是數(shù)據(jù)信息,而算法的本質(zhì)則是對數(shù)據(jù)信息的獲取、占有和處理,在此基礎(chǔ)上產(chǎn)生新的數(shù)據(jù)和信息。簡言之,算法是對數(shù)據(jù)信息或獲取的所有知識進(jìn)行改造和再生產(chǎn)。

由于算法的“技術(shù)邏輯”是結(jié)構(gòu)化了的事實和規(guī)則“推理”出確定可重復(fù)的新的事實和規(guī)則,以至于在很長一段時間里人們都認(rèn)為,這種脫胎于大數(shù)據(jù)技術(shù)的算法技術(shù)本身并無所謂好壞的問題,其在倫理判斷層面上是中性的。

然而,隨著人工智能的第三次勃興,產(chǎn)業(yè)化和社會化應(yīng)用創(chuàng)新不斷加快,數(shù)據(jù)量級增長,人們逐漸意識到算法所依賴的大數(shù)據(jù)并非中立。它們從真實社會中抽取,必然帶有社會固有的不平等、排斥性和歧視的痕跡。因此,算法偏見最直接的解決思路就是將原本不均衡的數(shù)據(jù)集進(jìn)行調(diào)整。

360截圖16450626515344.png

比如,確保訓(xùn)練樣本的多樣性,在訓(xùn)練數(shù)據(jù)中使用與男性數(shù)量相近的女性樣本,確保給樣本打標(biāo)簽的人們有著多元化的背景等。

2018年,微軟就曾與專家合作修正和擴展了用于訓(xùn)練Face API的數(shù)據(jù)集。Face API作為微軟Azure中的一個API,提供預(yù)訓(xùn)練算法以檢測、識別和分析人臉圖像中的屬性。新數(shù)據(jù)通過調(diào)整膚色、性別和年齡等所占的比例,將膚色較深的男性和女性之間的識別錯誤率降低20倍,女性的識別誤差率則降低9倍。

此外,也有公司嘗試通過構(gòu)建全球社區(qū),大規(guī)模地把某個組織可能在尋找的任何信息匯集起來,并以這種廣度和深度相結(jié)合的方式進(jìn)行,這使得引入截然不同的數(shù)據(jù)來訓(xùn)練人工智能系統(tǒng)成為可能,以幫助克服算法偏見等問題。

毋庸置疑,構(gòu)建更加公正的數(shù)據(jù)集是算法偏見重要的解決方法之一,在此基礎(chǔ)上,還可以應(yīng)用新的機器學(xué)習(xí)去除偏見的技術(shù)。比如,哥倫比亞大學(xué)的研究者曾開發(fā)的一款名為DeepXplore的軟件,就可以通過技術(shù)手段使得系統(tǒng)犯錯,以暴露算法神經(jīng)網(wǎng)絡(luò)中的缺陷。

DeepXplore使用差分測試,通過以不同的方式看待事物。如果其他模型都對給定的輸入做出一致的預(yù)測,而只有一個模型對此做出了不同的預(yù)測,那么這個模型就會被判定有一個漏洞的方法,為打開黑箱做出了重要的貢獻(xiàn)。

此外,2018年,谷歌也曾推出新工具What-If,作為TensorBoard中用于檢測偏見的工具。利用該工具,開發(fā)者可以通過交互式可視界面和反事實推理探究機器學(xué)習(xí)模型的特征重要性,找出誤分類原因、確定決策邊界,檢測算法公平性等。

顯然,現(xiàn)實社會中的偏見產(chǎn)生的原因盤根錯節(jié),技術(shù)作為一面鏡子,映射了人類社會許多固有的偏見。盡管長期以來,人們都一直致力于消除偏見,但人們至今也尚未徹底將其消滅。

偏見作為生活中不可避免的事實而存在著,但這并不意味著偏見和歧視也是新技術(shù)不可避免的方面。人工智能作為第四次工業(yè)革命中的代表性技術(shù),始終有機會重新開始糾正偏見。技術(shù)由人類開發(fā),為人類服務(wù),而能否創(chuàng)造對每個人都有效和公平的技術(shù),從來都取決于人類,而不是機器。

THEEND

最新評論(評論僅代表用戶觀點)

更多
暫無評論