Facebook能靠AI筛查不良内容吗？

www.creaders.net | 2019-11-18 11:42:00 FT中文网 | 0条评论 | 查看/发表评论

Facebook面临着一个极大的挑战：3万名员工该如何监控每天数十亿条帖子和评论，过滤掉攻击性的和危险的内容？

仅仅18个月前，Facebook创始人马克•扎克伯格(Mark Zuckerberg)还很有信心，人工智能的快速发展将会解决这个问题。恐吓性、仇恨性的言论，以及违反Facebook政策的其他言论，在传播之前就会被电脑识别并阻止。

但是，在该公司取得重大发展的同时，人工智能的前景似乎还很遥远。最近数月，Facebook遭受了阻止非法内容的严重失败，例如恐怖分子射击的直播视频，而扎克伯格承认，该公司仍需要花费重资聘请人工来识别有问题的内容。

他说：“系统中流入的内容太多，我们需要大量人手来监控。”

在采访中，Facebook负责开发监控软件的高管和外部专家表示，他们面临持续的、也许是不可逾越的挑战。

这些挑战包括用正确的数据训练人工智能算法，开发能够理解细微语义差别和上下文的程序来识别仇恨言论，还有战胜那些不断学习钻系统空子的人类对手。

Facebook首席科技官迈克•施罗普夫(Mike Schroepfer)表示：“我们在开拓新领域。”但是那些出现严重错误的地方，“技术还无法胜任我们的要求。”

从被动到主动

在早期，Facebook依靠用户报告令人反感的内容，之后人工审查员会进行审核，决定是否删除该内容。

但是在过去大约5年中，Facebook建立起一个由“数百名”机器学习专家、工程师和数据科学家组成的团队，研发能自动标记违规内容的算法。

据施罗普夫说，图像识别技术——在2014年以前都还不可靠——现在“好得令人吃惊”。语言理解——这一技术在2017年为了识别仇恨言论而引入——正在改进，但还在较初级阶段，因为算法在理解上下文方面还有困难。

“如果你需要坐在那儿盯着一个问题看，还要做大量网络搜索……而这要花费你10分钟时间，那么我认为在未来12个月内人工智能理解这些的希望不是很大。”他表示，“但是如果你可以在5到10秒钟完成这一切，那么人工智能系统很可能即将比你更好地完成这项任务。”

这些算法的使用正值大量媒体报道都在关注内容审查员的工作对他们精神健康造成的破坏性影响，许多内容审查员都是低薪临时工，他们必须挑选出令人反感的内容并删除。

训练机器

但是系统是需要训练的。提供给机器的数据越多——无论是恐怖主义标志的图像还是有害关键词——机器学习技术就学习、完善得越多。

如果没有足够的训练数据，系统就不知道该寻找什么内容。

一个最近的例子是，Facebook表示它没有足够的第一人称视角射击视频资料，因此算法无法识别和删除今年早些时候新西兰两座清真寺袭击事件的视频。

Facebook已经与伦敦警方合作，在反恐训练演习中安装随身摄像头，以获得更多视频资料，有意避开了视频游戏的枪战或彩弹射击资料。

据施罗普夫说，Facebook的大量数据集将包含数万——甚至数百万——可供学习的样本。这不仅要包括算法应当识别的精确样本和“难分负样本”，还要包括“近似正样本”——也就是近似但不应作数的样本。例如，如果要识别出水瓶的图像，系统应该将消毒洗手液归为“近似正样本”。

Facebook将用用户上传内容和公开数据集对其人工智能进行常规训练。对于图像和模因(meme)，创建数据集时还会考虑人们为规避审查而修改原版内容的因素。

该公司雇用了地区人工审查员（他们被要求对新招数保持警惕），并与外部伙伴合作。例如，美国阿拉巴马大学伯明翰分校(University of Alabama at Birmingham)正在帮助Facebook更新毒品的最新街头代称。

施罗普夫表示：“在很多情况下，这都是一个对抗性战斗。”他补充说：“（对手）在交流小窍门、小技巧，比如，如果你这样剪辑视频，给它加个边框，那你就能重新发布，不会受到审查。”

语言壁垒

一个文本可以用多种语言来解释，而计算机更难以理解那些不太常见的语言。

Facebook副总裁盖伊•罗森(Guy Rosen)表示：“缅甸——我们知道我们需要在那里做得更好。”去年，该公司因在打击煽动暴力的团体方面行动太过迟缓而受到严厉批评。“世界上没有多少缅甸语的内容，这意味着不存在大量的训练数据。”

总部位于伦敦、专门研究暴力极端主义和恐怖主义的智库——战略对话研究所(ISD)的首席执行官萨莎•哈夫利切克(Sasha Havlicek)表示，Facebook目前正在将敏感词译成多种语言，但该系统更善于识别“伊斯兰国”(ISIS)、基地组织(al-Qaeda)等联合国(UN)认定的恐怖组织使用的语言。

她表示，这意味着“互联网公司远未跟上极右翼的挑战”。

文本和背景

专家警告称，人工智能在监控“灰色地带”内容——尤其是仇恨言论或骚扰——方面仍存在很大的不足，因为这方面需要对语义细微差别的理解或者了解最新的俚语。

这已经是一个有争议的领域——Facebook正在创建一个独立的内容审核“最高法院”，如果用户认为针对某项内容的决定不公平，他们可以提出质疑。

例如，在Facebook的年度股东大会上，一名与会者抱怨该公司禁止她在该网站上销售印有“男人是垃圾”等口号的T恤。根据Facebook当前的规定，这些口号被认为是没有人性的。

与此同时，当前的算法几乎不可能识别出侮辱性语言的一些更广泛的上下文，例如它们是不是在开玩笑，是在教训对方还是谴责。

施罗普夫表示：“当微妙程度上升，或语境变复杂时，技术方面的挑战就会急剧上升。”

一种解决方案是评估其他的迹象——如用户在平台上的行为模式，或者回帖的评论——作为判断过程的一部分。

但该公司称，人工智能将始终需要人工来标识和审查这类模棱两可的内容。施罗普夫表示：“人们常常把这当作一种对立，就像人工VS机器。但我认为它是人工的扩展。”

方法错误？

一些研究人员称，Facebook整个战略的方向搞错了。它应该专注于新闻推送算法如何为用户提供内容。

哈佛大学肯尼迪政府学院(Harvard Kennedy School)技术与社会变革研究项目主任、专门研究网络极端主义和媒体操纵的琼•多诺万(Joan Donovan)说：“算法旨在向你展示其认为你感兴趣的东西，旨在让你更久地待在这个平台。在这样做的过程中，它们往往会越来越靠近那些骇人听闻、猎奇的内容。”

哈夫利切克补充称：“从一开始，我们就说过竞争环境不公平。如果出现一种导致极端信息放大的结构性失衡，那将毫无意义。如果你不通过算法设计解决放大极端主义的底层技术架构问题，那么就没有办法战胜它。”

相关新闻

Facebook突然宣布大改版	Meta眼镜订阅被骂爆官方急喊停
科技巨头遭围剿谷歌 Meta苹果TikTok无一幸免	中国封杀Meta收购后腾讯有望成为最大股东
Meta重大变革这些人永久删除脸书 IG帐号

“Facebook”

当前新闻共有0条评论

分享到：

评论前需要先登录或者注册哦

全部评论

实用资讯

抗癌明星组合多年口碑保证！天然植物萃取有效对抗癌细胞
中老年补钙必备，2星期消除夜间抽筋、腰背疼痛，防治骨质疏松立竿见影

24小时新闻排行榜

更多>>

1	传胡锦涛一家出现重大意外
2	重磅！五中全会突然官宣彻底清算张刘？
3	习近平真正的危险，或许才刚刚开始
4	“别碰体育生”，一张高中母女合照令人心酸
5	谢贤遗产风波反转仅5天张柏芝小儿子身世曝

48小时新闻排行榜

更多>>

1	传胡锦涛一家出现重大意外
2	一张截图引爆全网北戴河前夜出大事？
3	重磅！五中全会突然官宣彻底清算张刘？
4	境外势力打入政治局？五中全会日期提前曝光
5	爆张又侠案已结文件无人敢签名
6	川普180度大转弯伊朗和俄罗斯这下睡不着
7	史无前例信号北京开始做“最坏打算”
8	裸辞仅48小时北大才女翁荔光速加入OpenAI
9	习近平真正的危险，或许才刚刚开始
10	“别碰体育生”，一张高中母女合照令人心酸

热门专题

1 中美冷战	6 张又侠	11 委内瑞拉
2 美伊战争	7 中共两会	12 四中全会
3 川普	8 俄乌战争	13 何卫东
4 世界杯	9 中日关系	14 AI
5 万维专栏	10 以伊战争	15 大S

一周博客排行

更多>>

1	（图文）冯秉诚：鲜为人知的故	范学德2
2	简评马斯克《经济学人》专访及	孞烎Archer
3	我绝不会拿起火枪去保卫一个藐	高胜寒
4	习主席是AI神童	阿妞不牛
5	再见了中国	凌风思语
6	回国散照散记 2025	清衣江
7	梁圣人跌下神坛了	山蛟龙
8	（图文）再不下就要了美国的命	范学德2
9	西方文明——这朵美丽而正在凋	司空杰明
10	中国人的道德绑架何时休	俞先生

一周博文回复排行榜

更多>>

1	习主席是AI神童	阿妞不牛
2	三千年未变的人性之恶	席琳
3	社会第一性原理：个人责任	施化
4	MAGA政府详查并封堵窃选数据.	老尚童
5	再见了中国	凌风思语
6	精确预测伊战前景：乔·肯特接	must
7	抗美援朝倒底是惨胜而已？	明豪
8	西方文明——这朵美丽而正在凋	司空杰明
9	反送中七年后：香港的政经状况	随意生活
10	回国散照散记 2025	清衣江


关于本站 \| 广告服务 \| 联系我们 \| 招聘信息 \| 网站导航 \| 隐私保护
Copyright (C) 1998-2026. Creaders.NET. All Rights Reserved.