在治理内容社区、维护内容安全的平台运营过程中,运营人员往往需要保证内容质量,避免违规内容的出现,以保障用户的使用或阅读体验。那么,常见的内容安全问题和质量问题有哪些?我们又应该如何做好治理动作?一起来看看作者的经验分享。
写这篇文章最害怕的就是涉及公司机密信息,反复检查了好几遍所举案例。
写这篇文章的目的,首先,这并不会涉及到公司机密。其次,我们治理过的这些问题大部分属于内容行业共存的问题,但对于不同公司的风控人人员不一定能够关注全面。
所以打算脱敏写出来,风控人员可以查漏补缺,希望能够对内容行业产生一点帮助,共同使行业更好。
在工作中,我负责公司社区生态治理,主要包括干掉坏内容、干掉坏用户、提升内容质量、提升用户体验。这篇主要说干掉了哪些坏内容、干掉了哪些坏用户。
本文从以下几个方面展开来说:
治理内容安全问题;治理内容质量问题;从用户角度做治理;处罚方式;治理经验。一、治理内容安全问题干掉坏内容包括两部分,一部分是业务型内容,即业务不需要的这部分内容,一部分是安全型内容,即监管部门让删除的内容。
治理过的安全内容很多,例如涉黄、危害青少年、引导错误的价值观、负面舆情等,这些是监管部门明确要求不能存在的(这几个好举例,其他治理过的涉及安全的内容不一定适合举例)。
二、治理内容质量问题对于质量型内容,监管部门不会来要求删除,但平台不希望这类型内容存在,例如有用户 5 月份在多条帖子下大量评论“新年快乐”,这个对业务来说,属于低质评论,需要治理的对象,下面将展开说我们主要治理过的问题。
1. 重复 / 改写 / 抄袭由于生产有奖励,用户生产有成本,所以部分用户有动机将已经生产的优质内容复制,然后重新发布以便快速获得奖励。
为避免内容同质化,及平台花钱买到低质内容,所以会治理这类型内容。
从内容形式上划分可划分为重复图片、重复文本(也有重复视频,但治理方式识别方式类似重复图片,所以未单独划分)。
1)重复图片
需要治理重复图片是因为用户消费一段图文内容时,会优先看到图片,若图片相同,用户会默认为文本也相同,进而认为内容同质化。
若相同图片出现次数较少,则可通过算法打散分发,不让同一个用户在短时间内看到相同图片内容即可。但若相同图片出现次数较大,则较难由分发打散,且部分分发场景是 timeline,算法不参与分发。
使用的识别形式包括两种,一种是计算图片 md5,使用绝对相等,一种是相似图模型识别。识别之后再结合一些策略,当相似度达到一定值,且相似或重复次数达到一定量,且由≥一定 uid 数量发布时,则会对之后进行发布的内容进行一些处理。
在这条通用策略之下,还会配置一些特殊策略,例如针对某些场景 / uid / md5 执行不同策略等。
2)重复文本
针对重复文本是和用户不断对抗的过程。
① 用户发布重复内容,平台开发重复模型,且将重复度≥一定值的内容判定为重复内容。注:治理重复内容本质是希望当前线上不给用户展示重复内容,所以对比内容库仅为线上内容。
② 用户对抗,用户将之前发布的内容删除后重新发布,平台将对比内容库增加已删除内容。
③ 用户对抗,用户通过删除一头一尾、替换部分文本、替换数字、更换不影响语义的标点符号 / 无意义字符、删掉部分内容、替换同义词、固定模板等方式,生产人工能快速判断为重复,但重复模型无法识别的内容。平台迭代重复模型,通过梳理用户改写的类型,迭代模型,使模型能够识别出这些类型的重复内容。
④ 用户对抗,用户通过随意摘抄一段菜谱、名人语录、歌词、电影台词等,平台通过制定审核规则,由人工判断。
⑤ 用户通过其他无法预知的方式生产重复内容,平台通过产品功能优化来解决。例如:
要生产重复内容,则会从一个地方复制然后在另一个地方粘贴,则可在粘贴提示、粘贴限制等产品功能上优化;生产重复内容的用户有个共性,发帖量较大,则可对单位时间发帖上限做限制;有粘贴行为的用户较大概率为重复内容生产者,则可通过粘贴行为拎出用户做离线数据分析,从用户维度进行处理;也可对新进行用户教育、新手引导、优质内容引导等。注:以上仅为极简的策略,在实际应用场景上还有很多细节限制,例如重复文本的判断仅针对字数≥一定值的内容才执行;例如评论场景和帖子场景会差异化的配置;例如重复模型迭代需要不断发现并梳理重复违规类型。
2. 虚假信息对于任何平台都会存在虚假信息,这些虚假信息来自用户主动或不自知的生产。虚假信息虽然占比较低,但对用户的影响很大。可能是影响用户判断、可能是了解到错误信息、可能是进入到一个错误行业、可能是被骗钱财等,几乎每一个都会对用户造成较大负面影响。
不管平台是希望用户能够更相信平台,还是从平台承担着一定社会责任角度来说,都需要治理虚假信息。
要治理虚假信息,第一个问题一定会问:什么是虚假信息?
并不能说让模型判断,模型觉得是虚假的就是虚假。也不能让审核人员自己判断,他觉得是虚假就是虚假,那可能会出现审核人员 A 觉得是虚假信息,但审核人员 B 觉得不是虚假信息。
但也没办法给虚假信息一个统一的定义,如果能给出,那一定是去掉了很多细节,是不具有可执行性的一个定义。
所以只能看大量 case、以及看用户反馈、用户举报信息、审核反馈等,收集大量可能是虚假的信息。再自己判断其中属于虚假的信息,再划分不同场景,根据每一个场景制定不同的标准,定义清楚什么叫做虚假信息。
举例我们制定过的几个细分场景下的虚假信息的定义。
① 外卖员、快递员等,晒收入截图,月收入超过一定值,或日收入超过一定值,则定义为虚假信息。从行业数据来看,能达到这个数值的用户不到 0.5%, 相对虚假信息带来的危害,平台宁愿接受这部分误伤的存在。
② 男性,发布女性照片, 并且表达意思为想相亲,如果有大哥觉得合适可联系我,则定义为虚假信息。可结合用户认证信息、机器识别照片及文本语义来判断。
③ 用户在一定周期内过渡频繁的在内容中更换职业,例如昨天的发帖说自己是理发师,今天说自己是电焊工,明天说自己是厨师,则判断为虚假信息。因为正常用户不会在这么短的周期内这么频繁的更换职业,在我们内部称这类型用户为“百变小樱”。
此类用户目的大多为吸引用户联系自己,以便进行下一步。我们也会制定相应的策略来识别,在一定周期内用户发帖的身份大于等于一定值,则会送人审,结合这个用户的其他信息来判断是否属于百变小樱(因为这个策略存在相对较高的误伤,所以不能机器识别后直接处理)。
通过对虚假信息定义的经验,可形成以下四个步骤来定义治理问题的标准化流程。
步骤一:通过各种渠道浏览大量样本,渠道包括自己浏览、用户反馈、用户举报、审核反馈等。步骤二:针对样本做特征分析。步骤三:总结归纳。步骤四:细分场景制定标准。3. 话题不相关话题不相关是指,内容行业为了控制生产方向,往往会产生话题,让用户基于话题进行生产相关内容。
但用户在生产内容时,可能由于生产成本过高,或无能力生产相关话题的内容,或其他原因,会主动去生产和话题不相关的内容。
对于用户消费聚合内容来说,这就属于垃圾内容,例如在一个聊 AIGC 的话题下包含一篇聊母猪的产后护理的优质文章,对于用户来说是不需要的,在这个场景下属于垃圾内容。
对于识别和话题不相关的内容,开发了话题相关度模型,根据相关度高低来决定给创作者多少奖励,及决定内容应用场景。
模型主要识别两个方面。
一类是与话题不相关,例如将话题复制一遍、内容和话题完全不相关、答非所问、内容完全无意义、同一领域但完全没回答问题等。举例:
话题:快递派送前如何录入系统?内容:快递派送前如何录入系统?他们都在一各家一各减的少吗?少马国系统所以说相对来说还是比较麻烦的,只不过是少马路系统,这样的话基本上不会有酒驾的问题,我觉得还算是很不错的吧另一类虽然与话题相关,但脱离话题的限定条件,例如话题限定了行业、需包含收入水平、限定了场景,但内容并不包含相关信息。举例:
话题:因为做焊工工作,你得了什么职业病?内容:没从事过焊工,不过倒是有职业病,比如筋膜炎等。4. 水帖来自百科的定义,水帖:水帖是贴吧、论坛或bbs中一种对于主题不重要的、无意义的帖子的统称。
对于社区来说, 内容中充斥着水帖,会降低整个社区内容质量,成熟社区都会治理水帖。
在具体治理过程中就需要生态治理产品去发现水帖并总结归纳类型、思考是否需要治理、治理到什么程度、以什么工具治理、给予什么处罚等。
下面举例一些制定过的策略、规则,以及使用过的识别模型。
① 纯文本,且字数小于等于一定值
通过分析历史数据发现,当用户发帖小于等于一定值,且不带图片时,对于我们平台,这条内容基本不具有消费价值,就会以一种用户无感知的不分发的形式处理。
举例:啦啦啦、夕阳无限好、美好的一天、湖州你好
② 仅包含标点符号、数字、emoji 等
③ 部分 uid 在部分场景发帖 / 评论
用户每次违规都会有记录,也会扣相应的分数,当某些类型的违规在一定周期内达到一定次数,或一定周期内的扣分数达到一定值,则会对用户进行处罚,即阶梯处罚。
举例,用户在 7 天内发布水帖次数≥10 次,则会将用户在激励场景的发帖或评论全部不给予奖励(注,这并非系统完整逻辑,也并非真实数字)。
④ 命中水帖治理词库
⑤ 多账号多设备
若用户同一个设备上一定周期内登录过多个 uid,或一个 uid 在多个设备上登录过,分析这些用户的历史数据,发现较大量的存在无法识别的水帖(因为平台策略是有限的,用户违规方法是无限的,当用户了解平台策略之后,会用各种办法逃过策略)。
所以会制定一条策略,当用户触发「多账号多设备」时,则会将他内容送入更严的模型,例如普通用户对于低质模型,达到 0.9 才处罚,对于「多账号多设备」用户的内容,则达到 0.8 就会处罚。
⑥ 文本中包含某些关键词,且文本字数≤一定值
在评论场景,当把所有水帖内容拉出来看时会发现,水帖内容也会有一些共性,例如字数相对较短,虽然长尾很分散,但也会有一些头部的高频词汇,例如红红火火恍恍惚惚、哈哈哈、支持一下、谢谢分享、开心每一天、打个卡、你好、谢谢、加油等内容。
对于一些短文本,这些词为主要内容,则可理解为水帖。如果是一段 100 字评论,里面包含这些词,则不能认为这是水帖内容。如果不限制字数或比例,则会很容易出现误伤。
但这对不同平台的处理严格程度不同,我们平台会选择治理,其他平台可能会选择不治理。治理是因为宁愿用户少看到评论,也不愿让用户看到低质评论,以及避免带来连锁反应,其他用户跟着学。
⑦ 非新年期间评论包含「新年快乐」
这是在我刚开始做风控时做过的一条非常失败的策略。
背景信息,分析历史数据发现,五月份有部分用户在评论区大量发布「新年快乐」相关评论,虽在设备、IP、账号、注册信息、登录信息等均无关联性,但从发布的内容及发布内容时间来看,基本可确认是属于同一个人或团伙在操作。
且发类似文本的账号在不断新增,所以没从账号或设备维度进行治理,而是仅从内容维度出了策略,策略逻辑:在非新年期间评论新年快乐及其变形的文本做自见处理(仅自己可见)。
这条策略失败的点在于,只能解决了当前存在的这个特定问题,未考虑这类问题在将来如何有一个通用的解决方案。例如用户将「新年快乐」变为「中秋快乐」或「背包好看」就失效了,且用户的变形成本极低。
例如可以计算单个用户周期内词频,一定频率可直接处理,一定频率可送人审。也可以计算全局周期内词频,对于环比变化过大的词可给人工预警提示等。
⑧ 低质模型
低质模型识别包含语句通顺度、虚词、感叹词、乱打字、文本无实际意义等逻辑,以及一些既定策略会融合进模型。
虽然很多策略可融合进模型,但由于策略的可解释性强,易调整等优点,还是会让一些策略单独存在,不融合进模型。
以上一些案例几乎都是从内容维度来识别,进而从内容维度进行治理,但在工作中还有较大一部分是从内容维度识别,然后从用户维度进行治理,以及从用户维度识别,从用户维度治理,从用户维度进行治理将在下一章展开说。
以上所举例都是发现了某些问题,然后进行治理,但如何去发现这些问题的,在这篇文章中有详细说:《风控:上线一条规则/策略的完整流程》。
5. 联系方式所说联系方式包括图片 / 视频 / 音频 / 文本中包含手机号、微信号、qq、网址、二维码等联系方式,以及以上内容的变形。例如空格隔开、中英文、拼音、手写、中文音异、电话通话截图、半打马赛克、形异、文本头像结合、拍摄名片 / 拍摄二维码 / 海报 / 宣传单 / 纸条 / 手写联系方式、手写并简单计算,以及诱导联系方式等。
我们不允许发布联系方式,因为社区场景不需要联系方式。并且经分析历史数据发现,当出现联系方式时,比较大概率会同时出现、刷钻引流、广告、逃单、隐私安全、线下风险、骚扰、账号交易等,带来危害比较严重,且容易漏识别,所以可从杜绝联系方式角度降低、刷钻引流、广告等问题。
针对这些问题也会建设对应策略来识别。举例部分策略:
文本中数字或字母连续≥一定值,则认为这是连续方式;检测电话、QQ号、微信号、网址、二维码;检测数字+分段联系方式;检测变形联系方式;检测多昵称拼接联系方式;检测多条回复拼接联系方式;检测含数字变形的联系方式;检测内容包含恶意引流文本且检测包含联系方式;以及制定人工审核规则等;……一些案例:
点击[http:/xxxxxxxx]查看表情看到你的留言了,佳沃k16rvvf7为我,A嗯6嗯0嗯5嗯9嗯3嗯9嗯8嗯妖雾气 呜呜妖吧 妖雾三气加v ➕yan 七二四三九xx五想了解咨询我吧:壹肆柒xx伍零柒柒柒捌!!!!l六七4420五xx久请连起来152号823室791厅66聊1️⃣7️⃣6️⃣9️⃣3️⃣1️⃣9️⃣8️⃣8️⃣3️⃣