QQ泡沫乐园 · 免费提供游戏辅助,破解软件,活动资讯,喜欢记得收藏哦!
综合软件_线报活动_游戏辅助_最新电影_最优质的的辅助分享平台

乱入花间化绿叶:如何屏蔽弹幕中的不良内容?

网络 2023-02-12 16:00

前言

全文约1800字,阅读需3分钟。

最近对直播比较感兴趣,被问到一个问题——如何屏蔽弹幕中的不良内容?于是便有了如下的学习内容。不止是弹幕噢~

什么是敏感词汇?Q:哪些词算是敏感词汇?

A:敏感词可大致分为以下几类:政治相关和人名、迷信邪教、黄赌毒、枪支弹药类、骂人讽刺类、时事类、广告和非法信息、其他。(网上有很多专门的敏感词库,我在云盘里上传了一份名为百度内部的敏感词文件,仅供查看。如果失效了,请关注我的公众号乱入花间化绿叶,回复“敏感词”)

Q:哪些地方容易出现敏感词?

A:所有传播的信息都须要,发送那些垃圾信息的人或则团队被称为“垃圾虫”。

小敏感内蒙古黑怕麦词_网站都有敏感词屏蔽_百度贴吧屏蔽词

敏感词除了出现在社区峰会、IM聊天、影音娱乐等的评论或上传信息区域,还隐藏在头像、昵称和签名这些地方,需要全面鉴定。

Q:哪些地方须要屏蔽?

A:平常我们主要做的屏蔽是广告过滤、黄赌毒、暴力惊悚、谣言排查等几种。不同的场合屏蔽的级别不同,而且基于传播时效性的不同,屏蔽方法分为同步过滤和异步召回。

比如弹幕的鼻祖——B站,为了保持弹幕的质量,它还须要屏蔽一些刷屏的、内容难堪的弹幕,这些内容不算敏感,只是让人不喜欢。更有甚者,用户可以按照颜色、字体大小、展示方法甚至自定义的文本来进行屏蔽,同时,在视频一侧还有专门的弹幕栏,也就是说,我可以弹幕内容当作评论一条条地看而不受其干扰。如图所示:

怎么屏蔽不良信息?Q:目前的技术如何进行屏蔽?

A:综合说来,技术屏蔽手段主要通过特点库、语义剖析、机器学习等方式来展开。网易易盾对此分了三类:垃圾发觉、垃圾辨识、垃圾处理。(以下综合易盾和joylnwang的博客整理而成。)

小敏感内蒙古黑怕麦词_网站都有敏感词屏蔽_百度贴吧屏蔽词

Q:垃圾发觉和垃圾辨识有哪些区别?

A:不穷的新垃圾(需要学习),垃圾辨识是按照原有的垃圾库来辨识(需要更新)。

Q:垃圾发觉(针对新垃圾)的技术实现是如何的?

A:①用户举报:主要是指用户在使用产品过程中遇见不良信息,于是进行投诉。

为了保证投诉的疗效,我们须要在举报的便捷性、显眼展示和奖励机制上花一些工夫去做,同时还须要构建科学的举报分类,不仅便捷用户选择,还能极大地帮助反垃圾训练特点样本,综合来做就能有更好的疗效。

②内容聚合:主要是通过判定内容的相似性,从而确定是否为垃圾信息。

就文本来说,相似度分为两个层面,第一是基于编辑距离的文本相似度估算,这种算法是按照一段文字怎样经过增删、移动而转化为另一段文字的操作步数,来估算两段文字的相像程度,运算的时间和空间复杂度都很高,对于评论,标题这样的短文本常常能获得不错的疗效,缺点是对长文本不太适用,且没有考虑文本中意群的重要性。

网站都有敏感词屏蔽_小敏感内蒙古黑怕麦词_百度贴吧屏蔽词

第二个层面涉及到自然语言处理的相关知识,需要在原始文本中切分出有意义的Term,然后对于两篇文章的Term集合,运算得出文本的相像程度。复杂性上要低于后者,但在处理长文本的方面有优势,而且更有可能从意义的角度辨识出相像的文本族。(来源)

③蜜罐系统:主要是针对专业的垃圾虫团体。

通常垃圾虫都有特定的工具协助,而这种工具大多会剖析页面元素并进行调用。

如果在页面中埋伏一些“蜜罐”,正常的用户难以见到这种入口,但是程序会直接调用那些入口进行垃圾信息发送。比如某一些隐藏的评论主题,只有程序就会去抓取这种主题并对它们发送垃圾信息。那么进了这种“蜜罐”里的人,都可以被判定为非正常的用户。

Q:垃圾辨识是指哪些?

A:①特征匹配:主要是基于已有垃圾特点进行匹配。

对文本来说,建立敏感词库就可以直接屏蔽相关词语,同时,对于文字的变种例如简转繁、加空格、形近字、音近字,都可以有效辨识。

对图片来说,主要是MD5、鲁棒哈希、Sift特点辨识等手段。对于音频和视频也支持MD5匹配。(原谅我实在不能理清前面几种手段的具体技术实现,不能展开讲,有兴趣的可以百度。)

总之,这几种手段可以支持人像辨识、动漫辨识、相似匹配、图片旋转剪裁、改变色温色彩、水印辨识等,基本涵盖了所有的不良图片。

②模型匹配:主要是基于机器学习,可以在没有具体特点样本库的情况下辨识内容的分类。

音频文件也通过大量语料学习能把语音转换成文本,然后步入文本匹配过程。

视频则通过截图的形式转换成为图片辨识。

③规则匹配:也叫模式匹配,分为正则表达式、多模式匹配算法、基于元数据的订制等。

百度里的定义是:模式匹配是数据结构中字符串的一种基本运算,给定一个子串,要求在某个字符串中找出与该子串相同的所有子串。比如自定义规则:同IP下5分钟内发送内容相似度超80%的封禁1小时。

百度贴吧屏蔽词_小敏感内蒙古黑怕麦词_网站都有敏感词屏蔽

Q:垃圾操作是如何操作?

A:①基础处理:删除内容,封禁内容,封禁用户,删除用户,封禁IP,封禁设备等常规手段。

②隐蔽操作:普通的屏蔽操作容易被垃圾虫感知,当她们发觉被屏蔽时,会想办法来“破解”反垃圾,故须要进行隐型屏蔽。

比较常见的做法有:垃圾发送插口返回成功,但实际仅用户自己可见。例如直播中的弹幕,进行虚拟展示,仅用户自己可见,其他人都看不到。

③后续操作:每天把删掉的垃圾内容汇总到内部分拣平台,由专业人员进行剖析和对数据的分拣标记,完成各类模型以及规则的升级。

以上内容可解决大部分的敏感内容屏蔽问题,如有疑议,可在评论区回复,欢迎一起阐述~

全文完。【互联网潜规则(一)】作弊与反作弊,链接是