如何进行屏蔽弹幕中的不良内容？于是便有了如下的学习内容

网络 2023-02-12 13:03

最近对直播比较感兴趣，被问到一个问题——如何屏蔽弹幕中的不良内容？于是便有了如下的学习内容。

一、什么是敏感词汇？1.分类

敏感词可大致分为以下几类：政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他类。

网上有很多专门的敏感词库，我在云盘里上传了一份名为百度内部的敏感词文件，仅供查看。

2.常出没的地方

所有传播的信息都须要。发送那些垃圾信息的人或则团队被称为“垃圾虫”。

敏感词除了出现在社区峰会、IM聊天、影音娱乐等内部的评论或上传信息区域，还隐藏在头像、昵称和签名这些地方，需要全面鉴定。

3.哪些地方须要屏蔽？

平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力惊悚、谣言排查等几种。不同的场合屏蔽的级别不同，而且基于传播时效性的不同，屏蔽方法分为同步过滤和异步召回。

比如微博的屏蔽就须要做到基础和全面，甚至一些时政热点也要列入屏蔽范围。

再例如B站，为了保持弹幕的质量，它还须要屏蔽一些刷屏的、内容难堪的弹幕，这些弹幕的内容不算敏感，只是让人不喜欢。B站在弹幕方面算是鼻祖，做到了极至——用户可以按照颜色、字体大小、展示方法甚至自定义的文本来进行屏蔽，同时，在视频一侧还有专门的弹幕栏，也就是说，我可以弹幕内容当作评论一条条地看而不受其干扰。如图所示：

二、目前有什么手段可以进行屏蔽？

综合说来，技术屏蔽手段主要通过特点库、语义剖析、机器学习等方式来展开。网易易盾上是分三类来写的：垃圾发觉、垃圾辨识、垃圾处理，有点表意不明，所以下边具体来介绍一下。（以下综合易盾和joylnwang的博客整理而成。）

1.垃圾发觉——针对新垃圾

①用户举报：主要是指用户在使用产品过程中遇见不良信息，于是进行投诉。

为了保证投诉的疗效，我们须要在举报的便捷性、显眼展示和奖励机制上花一些工夫去做，同时还须要构建科学的举报分类，不仅便捷用户选择，还能极大地帮助反垃圾训练特点样本，综合来做就能有更好的疗效。

②内容聚合：主要是通过判定内容的相似性，从而确定是否为垃圾信息。

就文本来说，其相似度分为两个层面，第一是基于编辑距离的文本相似度估算，这种算法是按照一段文字怎样经过增删、移动而转化为另一段文字的操作步数，来估算两段文字的相像程度，运算的时间和空间复杂度都很高，对于评论，标题这样的短文本常常能获得不错的疗效，缺点是对长文本不太适用，且没有考虑文本中意群的重要性。

第二是须要在原始文本中切分出有意义的Term，然后对于两篇文章的Term集合，运算得出文本的相像程度。复杂性上要低于后者，但在处理长文本的方面有优势，而且更有可能从意义的角度辨识出相像的文本族（来源于）。

③蜜罐系统：主要是针对专业的垃圾虫团体。

通常垃圾虫都有特定的工具协助，而这种工具大多会剖析页面元素并进行调用。如果在页面中埋伏一些“蜜罐”，正常的用户难以见到这种入口，但是程序会直接调用那些入口进行垃圾信息发送。比如某一些隐藏的评论主题，只有程序就会去抓取这种主题并对它们发送垃圾信息。那么进了这种“蜜罐”里的人，都可以被判定为非正常的用户。

2.垃圾辨识

①特征匹配：主要是基于已有垃圾特点进行匹配。

对文本来说，建立敏感词库就可以直接屏蔽相关词语，同时，对于文字的变种例如简转繁、加空格、形近字、音近字，都可以有效辨识。

百度贴吧屏蔽词_sm中屏蔽词什么意思_网站都有敏感词屏蔽

对图片来说，主要是MD5，鲁棒哈希，Sift特点辨识等手段。对于音频和视频也支持MD5匹配。（原谅我实在不能理清前面几种手段的具体技术实现，不能展开讲，有兴趣的可以百度。）总之，这几种手段可以支持人像辨识、动漫辨识、相似匹配、图片旋转剪裁、改变色温色彩、水印辨识等，基本涵盖了所有的不良图片。

②模型匹配：主要是基于机器学习，可以在没有具体特点样本库的情况下辨识内容的分类。

音频文件也通过大量语料学习能把语音转换成文本，然后步入文本匹配过程。视频则通过截图的形式转换成为图片辨识。

③规则匹配：即模式匹配，分为正则表达式、多模式匹配算法、基于元数据的订制等。

百度给的定义是：模式匹配是数据结构中字符串的一种基本运算，给定一个子串，要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则：同IP下5分钟内发送内容相似度超80%的封禁1小时。

3.垃圾处理

①基础处理：删除内容，封禁内容，封禁用户，删除用户，封禁IP，封禁设备等常规手段

②隐蔽操作：普通的屏蔽操作容易被垃圾虫感知，当她们发觉被屏蔽时，会想办法来“破解”反垃圾。故须要进行隐蔽，比较常见的做法有：垃圾发送插口返回成功，但实际仅用户自己可见。

比如直播中的弹幕，进行虚拟展示，仅用户自己可见，其他人都看不到。

③后续操作：每天把删掉的垃圾内容汇总到内部分拣平台，由专业人员进行剖析和对数据的分拣标记，完成各类模型以及规则的升级。

4.介绍一种常用常见的屏蔽工具——Adblock

Adblock是Mozilla Firefox、Mozilla Application Suite以及Google Chrome浏览器所使用的扩充。

Adblock容许用户拦截广告在内的各类页面元素，并使这种内容不被下载和显示。右键单击一个横幅广告，在上下文菜单中选择“Adblock”，它就再也不会被载入了；或者在侧栏打开 Adblock Plus 查看页面的所有元素，然后选择制止横幅广告。您可以在过滤器中使用转义或正则表达式来抵挡所有广告。

以上内容可解决大部分的敏感内容屏蔽问题，如有疑议，请在评论区回复，欢迎一起阐述~

adblock

上一篇：淘宝店家知道谁浏览了店铺吗?怎么提高浏览量? 下一篇：没有了

如何进行屏蔽弹幕中的不良内容？于是便有了如下的学习内容

合作伙伴

商务合作

关于我们