合成數據生成器可以解決人工智能的偏見問題

合成數據生成器可以解決人工智能的偏見問題

人工智能偏見是一個嚴重的問題,可能會對個人造成各種後果。

隨著人工智能的發展,圍繞數據科學解決方案的問題和道德困境開始浮出水麵。由於人類在決策過程中排除了自己,他們希望確保這些算法既沒有偏見也沒有歧視。人工智能必須在任何時候受到監督。由於這是一個基於預測分析的數字係統,可以處理大量數據,所以我們不能說這種可能的偏見是由人工智能引起的。這個問題開始於早期,即輸入係統中的非監督數據youtube視頻推廣

縱觀曆史,人類一直存在偏見和歧視。看來我們的行動不會很快改變。偏見在係統和算法中被發現。與人類不同,這些係統和算法似乎對這個問題免疫。

什麽是人工智能偏見?

數據相關領域會出現人工智能偏差,因為獲取數據的方式導致樣本不能正確代表利益集團。這些數據樣本中沒有完全代表特定種族、信仰、膚色和性別的人。這可能導致係統得出識別結論。它還引發了關於什麽是數據科學谘詢及其重要性的問題。

人工智能的偏見並不意味著創建的人工智能係統會故意偏向特定的人群。人工智能的目的是讓個人表達自己的願望,而不是通過實例來指令。所以,如果人工智能有偏差,那隻能是因為數據有偏差!人工智能決策是一個不能掩蓋人類缺陷的理想化過程。結合指導學習也是有益的。

為什麽會發生?

由於數據可能包括基於先入為主的人類選擇,因此人工智能偏見的出現有助於得出一個好的算法結論。關於人工智能偏見,現實生活中有幾個例子。穀歌的仇恨言論檢測係統歧視了種族和著名的變裝女王。亞馬遜的人力資源算法在過去10年中主要提供了男性員工數據,這使得女性候選人更有可能被評為亞馬遜的合格工作手機上網Plan

麻省理工學院(麻省理工學院)的數據科學家說,人臉識別算法在分析少數民族(尤其是少數民族婦女)麵孔時,錯誤率很高。這可能是因為該算法在訓練期間主要提供白人男性的麵孔。

該公司可以預測消費者的購買行為,因為亞馬遜的算法是基於美國1.12億prime用戶和數千萬人經常訪問該網站並使用其他商品的額外個人數據。穀歌的廣告業務是基於每天數十億次的互聯網搜索和市場上25億部安卓智能手機的數據提供的預測算法。這些互聯網巨頭在人工智能領域建立了巨大的數據壟斷企業,具有近乎不可逾越的優勢。

合成數據如何幫助解決人工智能偏見?

無論膚色、性別、宗教還是性取向性別、宗教或性取向如何,都沒有人會受到偏見。然而,它存在於現實世界中。與一些地區的大多數人不同,在許多統計數據中,他們更難找到工作和接受教育。這可能會導致錯誤的推斷,根據人工智能係統的目標,也就是說,這些人的技能較低,不容易被納入到這些數據集中,不適合拿好分。

另一方麵,人工智能數據可能是向公平的人工智能邁出的一大步。以下是一些需要考慮的概念:

檢查現實世界中的數據,看看偏差在哪裏。然後,使用現實世界中的數據和可觀察到的偏差來合成數據。如果你想創建一個理想的虛擬數據生成器,你需要包含一個公平的定義,它可以嘗試將偏差數據轉換成可能被視為公平的數據Au Tau

人工智能生成的數據可以填補數據集中變化不大或變化不大的空白,從而形成一個公平的數據集。即使樣本量很大,有些人也可能被排除在外,或者與其他人相比代表性不足。這個問題必須通過合成數據來解決。

數據挖掘可能比生成公平的數據更昂貴。實際的數據收集需要測量、采訪、大量的樣本,無論如何都需要付出很多努力。人工智能生成的數據很便宜,隻需要數據科學和機器學習算法。