无处不在的算法是如何产生偏见的?

每分钟,机器都在决定你的未来。软件程序不仅会推荐你可能喜欢的书籍和电影,还将决定你支付的贷款利率、得到理想工作的可能性、甚至包括犯罪概率。本来,人们期望受过训练的电脑能在海量数据中找到相关模式,以便做出比人类更为客观的决定。然而,事实却是研究人员发现,作为软件程序核心逻辑的算法是可以被复制,甚至会放大设计者的偏见。苹果和高盛目前正陷入争议,华尔街监管机构正在调查这两家公司的合作的苹果信用卡项目的算法是否存在歧视女性的情况。

1.什么是算法?

答案很简单,算法是信息处理或执行任务的一种公式。按字母排序命名是一种算法,巧克力曲奇饼的制作配方也是一种算法。但通常情况下远谈不上复杂,Facebook和谷歌等企业斥资数十亿美元开发的算法被用于分析海量信息和保护软件的机密。

2. 算法为何会有偏见?

软件工程师可能料想不到,他们的程序无意中会造成对某类人群的歧视。例如,Facebook就在2015年陷入了窘境,当时一些美国原住民被禁止注册Facebook账户,因为软件认为他们的名字,比如Lance Browneyes 和Dana Lone Hill,不是真名。亚马逊也在2015年遇到问题,当时该公司测试的一款人工智能系统在筛选求职申请时被“教导”在搜索某些特定关键词的简历时排除掉女性申请者。

3.算法从哪里获得数据?

当你每次登录App,网上购物或在手机上查阅广告时,就会留下一串关于个人活动和兴趣的信息。这些数据被各家企业获得,你使用网络和社交媒体越多,谷歌、Facebook和其他互联网公司就越了解你。当然,通过传统方式,比如选民名单、驾照、杂志订购、信用卡购买等纪录也能获得大量纸质信息,通过将它们与网络信息做交叉对比,可以全面描绘出个人画像。

4.偏见是如何产生?

数据本身没有歧视。问题在于数据的使用和解读方式,尤其是当采用关联系数或“替代”数据对人群进行算法分析时。例如,在美国基于种族、性别、年龄或性取向做出招聘或放贷决定都是非法的,但是在大数据集里可以找到能替代上述因子的信息。比如,在Youtube上听的音乐可以反映成长年代,女生联谊会会员身份可以揭示性别,居住在某个地区或许可以暗示种族或民族特有文化。2017年公布的一项研究发现,Facebook根据用户点赞的帖子将一些用户归类为同性恋,尽管这些人并没有公开承认自己是。

5.“替代”数据的问题在哪?

想想招聘网站吧。研究者发现,这些网站不太可能将高薪职位推荐给女性及有色人种,原因是这些人不符合多数高薪人士的特征,后者以白人男性为主。此类系统会使用一种被称为“预测模型”的技术,将数据的历史形态来作为推论。当数据被错误使用或不能准确反映问题中涉及的社群时,就可能走入歧途。加州大学伯克利分校的一项研究发现,算法信贷系统的偏见程度虽然比面对面沟通低40%,但它们对拉美和非裔美国人通常收取更高的贷款利率。原因之一是,这些人的族群特征表明他们的购物数量不如其他人群。

6.算法如何将偏见放大?

当数据被错误使用,软件会令一些刻板印象被进一步强化或者得出错误结论。芝加哥2017年宣布采用“预测模型”软件来派遣更多警员去相对更易发生暴力犯罪的地区。然而问题在于,模型将警力资源派到了那些已经有最多警员数量的社区,实际加深了目前人们对此问题的倾向性。类似情况还是出现在评估罪犯的程序上。英格兰Durham使用信用评分机构Experian提供的数据(包括收入水平和购物模式)来预测曾经被捕人士的再次犯罪概率。结果却不正确的显示那些低社会经济背景的人群更可能进一步犯罪。

7.面部识别技术如何?

面部识别系统使用数码照相机和照片库来识别人群,却因为偏见问题而饱受诟病。最常见的抱怨是人脸识别对深色皮肤的人无法做出准确识别,这通常是因为帮助训练机器的数据图片库以白人为主。麻省理工学院的一项研究发现,样本的多元性不足会削弱IBM、微软和Face++人脸识别系统的功能。深色皮肤的女性是最易被错认的人群,出错率35%,而白人男性的最大识别错误率不到1%。

8.苹果信用卡是怎么回事?

知名软件开发人士David Heinemeier Hansson在推特上抨击苹果信用卡,因为该卡给他的授信额度是妻子的20倍,但妻子的信用分其实更高,而且夫妻俩是共同报税的。纽约金融服务部表示,将对负责苹果信用卡信贷评估事宜的高盛进行调查。对于Hansson的评论,苹果联合创始人 Steve Wozniak 在推文中称,自己和妻子虽然共享银行账户和信用卡账户,但自己的信用额度是妻子的10倍。高盛一位发言人表示,苹果信用卡只适用于个人账户,有可能两个家庭成员在信用决策上会受到非常不同的对待。传统的贷款机构依靠机器来决定谁可以获得更高信用额度,这是它们降低成本和提高贷款申请量的策略一部分。

9.目前应对算法偏见所采取的措施是?

全世界都正在努力。美国众议院和参议院正评估《2019年算法责任法案》,该法案要求企业测试算法的倾向性。由技术专家、决策官员和律师构成的英国数据伦理与创新中心正在指定一份报告,预计这项将于明年3月公布的报告将呼吁实施更严格的监管以及对算法的诚信执行一套普遍的伦理规定。今年生效的欧盟通用数据保护条例允许公民有权选择提供的数据,以及获得对算法决策解释的方式。纽约金融服务表示“将调查苹果信用卡是否违法纽约法律”。

本文作者 Molly Schuetz,首发于彭博终端。

亲身感受彭博终端带来的非凡体验 预约演示