点击右上角微信好友

朋友圈

请使用浏览器分享功能进行分享

正在阅读:谁才是让AI产生偏见的幕后推手?
首页> 科普频道> 科普头条 > 正文

谁才是让AI产生偏见的幕后推手?

来源:科技日报2020-07-15 09:42

调查问题加载中,请稍候。
若长时间无响应,请刷新本页面

  美国麻省理工学院媒体实验室研究项目显示,人工智能识别浅色皮肤男性的平均错误率不超过1%,识别深色皮肤女性的平均错误率达35%……

  人脸识别所导致的偏见问题一直受到广泛关注。近期,一篇关于图像超分辨率的论文引发了对于产生偏见原因的新争论。

  网友利用论文中的开源代码进行了模型推理,在使用时发现,非白人面孔的高糊照片被还原成了一张白人面孔。对此,2018年图灵奖得主、AI领军人物杨立昆(Yann LeCun)在推特上指出,当数据有偏见时,机器学习系统就变得有偏见。而这一观点,掀起一场争论浪潮。有人说,机器学习系统产生偏见不应只归咎于数据集,这种甩锅的做法是不公平的,还有技术、人类观念等原因。

  现在还没有100%无偏见的数据集

  随着人工智能时代的到来,人脸识别技术正被越来越广泛地应用在执法、广告及其他领域。然而,这项技术在识别性别、肤色等过程中,存在着一定偏见。

  “在美国,人脸识别系统中白人男性的识别率最高,而黑皮肤女性的识别率则最低;在亚洲国家的人脸识别系统中黄种人的识别率相比白种人的识别率差距就会小一些。”福州大学数学与计算机科学学院、福建省新媒体行业技术开发基地副主任柯逍博士说。

  这次陷入争论中心的人脸识别偏见问题其实是一个存在很久、热度很高的话题。

  早前,美国麻省理工学院媒体实验室主导的一项名为《Gender Shades》的研究项目在研究了各个前沿科技公司的面部识别系统后发现,各系统在识别男性面脸与浅色面脸方面表现更佳,浅色皮肤男性的平均识别错误率不超过1%,浅色皮肤女性的平均识别错误率约为7%,深色皮肤男性的平均识别错误率约为12%,深色皮肤女性的平均识别错误率则高达35%。

  那么本次争议中,杨立昆指出的数据集问题是如何产生偏见的?有无100%没有偏见的数据集?“不均衡的数据,导致了系统在学习时,更好地拟合了比重较大的数据,而对占比小的数据的拟合则表现不佳,这就可能最终导致了偏见的产生。”柯逍介绍说,如一个常见的人脸识别数据集LFW,数据集中有近77%的男性,同时超过80%是白人。

  “目前,几乎可以肯定的是没有100%无偏见的数据集。”柯逍举例说,在收集数据时,可以针对性地让男性与女性数目一样,甚至也可以让各种肤色的数据数目都一样。但是,其中可能大部分人是没有戴眼镜的,这可能就对戴眼镜的人进行识别时带来了偏见。进一步讲,各个年龄段的人脸也很难做到完全一致,导致最后学习到的模型可能对戴眼镜、年长或年幼的人脸产生偏见。所以有时候讨论数据偏见的产生,会发现其产生的原因是考虑问题的角度不同。

  出现偏见不能只归咎于数据

  众多专家也指出,数据可能是机器学习系统中偏见的来源,但不是唯一的来源。

  其实,在本次争议中,杨立昆在推特中已经很明确地表示,他的本意并不是说问题都出在数据集上,只是针对这篇论文,其算法在特定场景下,换个数据集就能解决问题,但并不是说所有的机器学习系统偏见都来源于数据集。

  那么,谁才是产生偏见真正的“幕后推手”?

  AI学习过程应该是架构、数据、训练算法等的相互作用。算法包括了特征的选择、损失函数的选择、训练方法的选择以及超参数调节等,其本身的缺陷也是偏见产生的一个原因。

  2019年12月,美国国家标准技术研究院进行的一项研究发现,在大多数当前评估的人脸识别算法中,跨人种差异确实存在广泛的准确性偏差。

  柯逍介绍说,在算法设计的时候,往往会选择L1损失函数或者L2损失函数。若在将一个低分辨率人脸图像还原成高分辨率人脸图像的方法中,使用L2损失函数,得到的大多数人脸图像更像白人;而使用L1损失函数,得到大多数人脸图像更像黑人。这说明由于损失函数的选择不同,某个群体(黑人或白人)在一定程度上就会受算法的忽视,进而产生偏见。

  这当中还存在另一种情况,假如数据带有少量的偏见,算法系统会将其放大,并变得更具有偏见。一项研究表明,如果初始数据中,下厨与女性的联系概率是66%,将这些数据喂给人工智能后,其预测下厨与女性联系起来的概率会放大到84%。一般来说,机器学习系统会选择最符合通用情况的策略,然而这样会导致一些非典型情况或较为特殊情况被忽略。

  除此之外,产生偏见的原因还有相似性的偏见。信息推送系统总会向用户推荐他已经看到、检索过的相关内容。最终的结果是导致流向用户的信息流都是基于现存的观点和看法。“系统会自动帮助用户屏蔽与他们意见相左的信息,这就催生了一个信息泡沫,用户看到的都是人工智能让你看到的。这种偏见根本上也是数据与算法共同作用产生的。”柯逍说。

  “总体而言,偏见还是源于规则制定者。”中锐网络人工智能产品总监叶亮说,工程师从头到尾参与了整个系统设计,尤其是机器学习的目标设定。算法就好像一只嗅探犬,当工程师向它展示特定东西的气味后,它才能够更加精准地找到目标。

  算法纠偏工具已经上岗

  近期,国际多家机构相继宣布禁用人脸识别技术。有色人种被还原成白人的事件,再次掀起了人们对于人工智能系统产生偏见的批判浪潮,也再次警醒人们,技术带有偏见所带来的潜在危机。

  偏见可能导致无辜者蒙冤。在2018年夏天,英国媒体就报道过,由于人脸识别技术的误判,导致一名年轻黑人男性被误认为嫌疑犯,在公众场合被警察搜身。

  也有报告显示,一些国外执法机构可以根据AI识别出的发色、肤色和面部特征对视频中的人物进行检索。这种技术上的偏见也在一定程度上放大了人们的偏见。

  除了对人种与性别的识别偏差之外,人脸识别技术还因其在侵犯隐私方面的问题而引起担忧。2020年初,美国一家人脸识别技术公司便受到了严密的审查,有关部门发现,其面部识别工具由超过30亿张图像构建而成,然而这些图像大部分都是通过抓取社交媒体网站收集的,并且已被许多企业广泛使用。

  偏见存在的同时,一批新兴的算法纠偏工具也涌入了人工智能。

  早在2018年,脸书曾发布一个算法模型,表示会在算法因种族、性别、年龄等因素做出不公正判断时发出警告以提醒开发者;2019年麻省理工学院就提出了一种纠偏算法,可以通过重新采样来自动消除数据偏见。

  那么克服偏见还需要人工智能技术做出哪些努力?“开源方法和开源技术都有着极大的潜力改变算法偏见。”叶亮指出,开源方法本身十分适合消除偏见程序,开源社区已经证明它能够开发出强健的、经得住严酷测试的机器学习工具。如果线上社团、组织和院校能够接受这些开源特质,那么由开源社区进行消除算法偏见的机器设计将会顺利很多。

  柯逍认为,可以看出偏见基本来源于数据与算法,加强对人工智能所使用的数据、算法以及模型的评估,能够在一定程度上缓解潜在的、可导致偏见与歧视的因素。同时,人工智能的偏见其实都是人类偏见的反映与放大,因此人们放下偏见才是最根本的解决方案。(本报记者 谢开飞 通讯员 许晓凤 王忆希

[ 责编:张蕃 ]
阅读剩余全文(

相关阅读

您此时的心情

光明云投
新闻表情排行 /
  • 开心
     
    0
  • 难过
     
    0
  • 点赞
     
    0
  • 飘过
     
    0

视觉焦点

  • 大陆海事部门在台湾海峡西侧水域开展联合巡航

  • 陕西清涧寨沟遗址

独家策划

推荐阅读
万兆元年,谁来领航?是更智慧AI,是更领先的Advance,是刷新极限的速度,还是升级多维的体验?中国移动5G-A商用发布会,重新定义数智新时代,邀您共同见证!3月28日15:00-16:00
2024-03-28 12:36
作为中国大科学装置之一,高能同步辐射光源是由中国科学院、北京市共建的怀柔科学城大科学装置集群的核心装置。
2024-03-28 09:54
2022年8月15日,国际天文学联合会小天体命名工作组发布公告,将国际永久编号为192353号的小行星命名为“王大中星”。围绕大学的根本任务是育才造士这一核心要义,王大中归纳并紧抓建设一流大学的三大要素:大师、大楼和大学精神。
2024-03-28 09:34
坎潘特强调,最新观测表明,精确的星震学技术可用于探测表面温度低至4200℃(比太阳表面低约1000℃)的矮星,为天体物理观测开辟了一个新领域。这一最新结果表明,星震学技术有望详细表征这些恒星及其宜居行星的细节,而精确确定附近冷矮星的年龄对于阐释系外行星上发现的生物特征可能至关重要。
2024-03-28 09:33
记者从自然资源部3月27日召开的例行新闻发布会上获悉:今年是极地考察40周年,自然资源部将开展一系列活动纪念这一重要时间节点。7月北极黄河站建站20周年时,在黄河站举办招待会、研讨会等相关活动,中国第四十一次南极考察期间将在长城站、中山站举行招待会、研讨会等相关活动,“雪龙”号、“雪龙2”号船停靠外港时举行公众开放日活动。
2024-03-28 09:32
联合国教科文组织执行局27日批准18处地质公园列入世界地质公园网络名录,其中包括中国的6个地质公园,分别是长白山世界地质公园、恩施大峡谷-腾龙洞世界地质公园、临夏世界地质公园、龙岩世界地质公园、武功山世界地质公园、兴义世界地质公园。
2024-03-28 09:31
据介绍,除了服务于中国探月工程四期,后续鹊桥二号中继星还可为国内外月球探测提供中继通信支持。
2024-03-28 09:25
涂白防虫、修剪树枝、引水灌溉……每当春天到来,在祖国西北边陲新疆托里县老风口,生态造林工作就紧锣密鼓地开始了。
2024-03-27 10:22
今年我国纪念“世界水日”“中国水周”的活动主题为“精打细算用好水资源,从严从细管好水资源”。
2024-03-27 10:21
在齐齐哈尔市甘南县宝山乡巨宏村,村民苑忠国正在准备春耕,多年来通过参与县里的培训,春耕物资的采购对他来说已是轻车熟路。
2024-03-27 10:20
在开展调查监测,评估新污染物环境风险状况方面,《行动方案》提出建立化学物质环境信息调查制度、建立新污染物环境调查监测制度、建立化学物质环境风险评估制度、动态发布重点管控新污染物清单等具体措施。
2024-03-27 10:18
一群“麦哲伦”式的实验物理学家正在高能物理的版图上开疆拓土。而玻色子的发现,正在指向新的“盛宴”。
2024-03-27 10:16
作为古生物学家,徐星是中国科学院院士、中国科学院古脊椎动物与古人类研究所研究员,同时也是云南大学教授,主要从事中生代陆相脊椎动物化石及地层学研究。
2024-03-27 10:15
近期,12P/Pons-Brooks彗星(以下简称12P彗星)成为全球瞩目的对象,我国不少天文爱好者成功观测并拍摄到这位“天外来客”。
2024-03-26 03:25
日前,中办、国办印发《关于加强生态环境分区管控的意见》(以下简称《意见》),明确提出到2025年,生态环境分区管控制度基本建立,全域覆盖、精准科学的生态环境分区管控体系初步形成。
2024-03-26 03:20
眼下正值春耕备耕的关键阶段,突如其来的天气变化,是否会对春耕、农作物造成影响?
2024-03-26 10:16
3月24日是世界防治结核病日。南开大学饶子和院士团队与上海科技大学免疫化学研究所张璐研究员团队合作,首次揭示了抗结核新靶标Rv3806c的冷冻电镜三维结构。
2024-03-26 10:16
25日,中国海油发布消息,我国在渤海超5000米的地层钻探发现一口高产油气井,测试日产油气当量近1400立方米,创造了我国海上深层油气探井日产最高纪录。
2024-03-26 10:15
“绝对安全”的通信是千百年来人类的梦想之一,从摩斯电码到电报、传真,从移动电话到网络通信,通信技术的发展同时带来了各类安全隐患,与通信安全相关的技术一直是科技界、产业界的重点攻关方向。
2024-03-25 10:47
记者从中国科学院近代物理研究所获悉,该所研制的中国超重元素研究加速器装置(CAFE2)取得重大突破,成功实现了14.8粒子微安流强、224兆电子伏能量的束流在靶稳定运行,创造了国际同类装置运行束流参数的最高流强纪录。
2024-03-25 10:07
加载更多