摘要:图书审核、新闻评论和社区论坛等系统都依赖于关键字过滤。高效准确的关键词匹配算法可以提高这些系统的性能,提高审稿人的效率。本文提出了一种网页敏感词匹配技术,通过对待检测文本进行预处理,减轻敏感词库的负担,使用Trie存储和检索敏感词,尽量减少不必要的字符串比较,最终得到管理者的反馈。敏感词库的及时更新,让过滤更加高效。
关键词:信息过滤;文本预处理;特里;相关反馈
Abstract:Keywordfilteringisreliedoninmanyfieldssuchasbooksreviewsystem,newscommentarysystem,BBS,etc.Theperformanceofthesesystemsandtheefficiencyofreviewerscouldbeimprovedwithefficientandaccuratekeywordmatchingalgorithm.Thispaperproposesawebpagesensitivekeywordmatchingtechniquewhichcouldreducetheburdenofthesensitivewordslibrarythroughpreprocessthetexttobedetected,minimizemeaninglessstringcomparisonsbystoringsensitivekeywordsforretrievalwithTrieandimprovetheefficiencyoffilteringbyupdatingthesensitivewordslibraryintimeonthebasisoffeedbackinformationfromtheadministrativestaff.
关键词:信息过滤、文本预处理、轮胎、相关性反馈
随着互联网的发展,人们在享受网络技术带来的美好生活的同时,也有一些不法分子通过网络传播非法信息。随着网络技术的发展和应用,网络色情、暴力、反动等不良信息时有传播,并有泛滥的趋势。因此,网络信息内容的安全性值得大家关注和研究。互联网发展到今天,得到了广泛的普及和应用。目前,它已成为一个全球化、开放、互动的综合平台。容纳各类原创信息,提供信息获取、网上购物、即时通讯等各类服务,给人们的工作和生活带来了极大的便利。可以说,它渗透到了人们的方方面面,是人类信息技术的一次革命。2011年底微信敏感词检测有哪些,全球网民数量超过21亿。据中国互联网络信息中心(CNNIC)统计,截至2011年6月,中国网民已达4.85亿,成为全球网民数量最多的国家。互联网给我带来便利的同时,也给我们带来了许多新的社会问题。由于世界上巨大的经济利益和地区、国家和民族之间的政治、宗教等矛盾,不法分子冒着风险,利用互联网的开放性,传播各种反响,
网络过滤技术就是在这种背景下产生的。目前,网页过滤方法主要包括关键词过滤、神经元算法、概率统计等技术。据统计,网络中70%的内容以文本的形式存在,因此网络文本的过滤是当前过滤技术研究的主要方向。与其他语义过滤相比,关键字过滤具有实现简单、过滤速度快的特点,因此成为大多数过滤系统采用的主要方法。例如,企业搜索厂商Autonomy为中国政府网络信息监测部门量身定制的互联网网页关键词监测分析系统TDT(Topic Detection and Tracking,美国的主题识别和跟踪)系统,以及IBM Almaden研究中心开发的WebFountain系统等,这些系统都是基于关键词过滤技术,包含网页信息采集、海量信息等功能检索和语言检索。关键词过滤虽然与其他过滤算法相比有其自身的不足,但它是建立在一定好的分词基础之上的。通过合理的特征词优化和关键词算法,也可以在不影响处理速度和空间开销的情况下使用。达到预期的过滤效果。并包含网页信息采集、海量信息检索、语言检索等功能。关键词过滤虽然与其他过滤算法相比有其自身的不足,但它是建立在一定好的分词基础之上的。通过合理的特征词优化和关键词算法,也可以在不影响处理速度和空间开销的情况下使用。达到预期的过滤效果。并包含网页信息采集、海量信息检索、语言检索等功能。关键词过滤虽然与其他过滤算法相比有其自身的不足,但它是建立在一定好的分词基础之上的。通过合理的特征词优化和关键词算法,也可以在不影响处理速度和空间开销的情况下使用。达到预期的过滤效果。
网页文本内容敏感关键词检测技术能够及时有效地检测和发现网页中的不良文本信息,使网站监控管理人员能够及时采取措施过滤敏感词,防止恶意文本的传播。网页上的不良信息给社会和人们造成严重损失。
敏感信息监测与过滤技术是网络舆情管理的一项重要技术。它最初起源于图书馆中的应用程序。1958年,卢恩提出了基于图书馆检索工作的“商业智能机”的构想。这个想法最终变成了信息。过滤的原型。“商业智能机”首先根据用户的不同需求建立相应的查询模型,然后基于该模型进行精准匹配,提取出不同模型对应的文本集。用户的需求模型不是固定的。它将根据用户的查询进行更新和改进。这个过程虽然简单,但涉及到信息过滤的每一个过程,成为后续信息过滤的开始。但是,此信息是手动更新和维护的。1969年,随着电子文本的出现和普及以及当时出现的文本匹配算法,选择性信息传播(Selective Dissemination of Information,SDI)开始受到关注。“信息过滤”的概念是由Demzing于1982年提出的,他在邮件系统中设计了“内容过滤器”,利用“内容过滤器”来识别紧急邮件和普通邮件,从而实现信息的内容化。控制效果。1987 年,Malone 等人。提出了三种用于信息过滤的信息选择模型,即认知、经济和社会。随着信息过滤技术越来越受到重视,1989年,“信息理解大会” 由美国 DARPA 资助,积极探索将自然语言处理技术引入文本过滤研究。其主要工作是介绍统计原理。在过滤和处理自然语言之前,它会应用统计技术来预处理信息。这种文本预处理过程称为“文本检测”。之后,Belkin 和 Croft 对用户需求在信息过滤系统过程中的作用进行了详细分析,提出了“用户角色”的概念(包括用户兴趣和兴趣表达)。至此,用户模板的雏形已经开始出现,对以后文本过滤模型的研究和实现起到了指导作用。在 1990 年代,信息过滤技术得到了长足的发展,研究方向也更加具体,主要有以下几个方向:信息过滤、信息检索、分类器和词提取。为了促进信息过滤的发展,1992 年,美国计算机科学家 Nicholas、J. Blkin 和 W. 在著名的 CommunicationsoftheACM 发表的一篇文章中,BmceCroft 明确定义了文本信息过滤这一术语,以区分其他研究领域。至此,信息过滤技术已正式成为独立的研究内容,在未来的发展过程中将不断完善。分类器和单词提取。为了促进信息过滤的发展,1992 年,美国计算机科学家 Nicholas、J. Blkin 和 W. 在著名的 CommunicationsoftheACM 发表的一篇文章中,BmceCroft 明确定义了文本信息过滤这一术语,以区分其他研究领域。至此,信息过滤技术已正式成为独立的研究内容,在未来的发展过程中将不断完善。分类器和单词提取。为了促进信息过滤的发展,1992 年,美国计算机科学家 Nicholas、J. Blkin 和 W. 在著名的 CommunicationsoftheACM 发表的一篇文章中,BmceCroft 明确定义了文本信息过滤这一术语,以区分其他研究领域。至此,信息过滤技术已正式成为独立的研究内容,在未来的发展过程中将不断完善。
现阶段,敏感词检测与过滤技术已被各国高度重视。在各国的推动下,出现了大量针对敏感信息检测和过滤的应用系统。斯坦福大学的 Take.Yen 和 HectorGarcia-Mina 开发了一种基于内容的过滤系统 SIFT(Stanford Information Filtering Tool)。在这个系统中,每个用户都可以独立建立自己的词汇表,并利用向量空间模型和关键词匹配来实现用户需求和网络。信息之间的匹配。为了更好地监控恐怖活动、军事威胁等活动,美国国家安全局建立了“梯队”通信监控网络。它拦截了大量的个人信息,例如电话、通过卫星接收站和卫星发送的传真和电子邮件。Echelon 也是一个基于敏感关键词搜索来获取通讯的电子通讯系统。英国政府还成立了专门的情报收集机构“英国政府技术援助中心”。这个监控中心可以拦截和收集在英国境内外使用的所有互联网信息。
在国内,随着敏感信息检测技术的逐渐成熟,一些科研机构、高校和企业通过系统的技术集成研究,推出了大量的原型系统和商用产品。例如,中科天工公司依托中科院计算所设计开发的天机网网页关键词监测系统。经过十多年的深入研究,其产品现已推出3.0或以上。2009年1月,北京交通大学成立了国内首家网页关键词安全研究机构——互联网网页关键词安全研究中心,目前正全力推进新一代、网页关键词的传播引导和独立网络舆论的安全。关键技术的研究与开发。北京理工大学网络与分布式计算实验室开发了网页关键词分析预警平台。北京TRS信息技术有限公司开发的TRS网页关键词监测系统,包括热点发现与跟踪、敏感信息监测预警、辅助决策支持、综合信息搜索等功能。北京大学方正技术研究院设计开发了方正智思网页关键词预警辅助决策支持系统,根据离线网页数据自动分析预测网页关键词,对网页关键词监测内容进行分析规划,形成具有生命特征的循环往复的社会舆论反馈系统。南京大学网络通信中心互联网网页关键词监测与分析实验室与谷尼国际软件(北京)有限公司共同建立网页关键词研究基地,谷尼网页关键词监测分析系统也是国家项目——“网络舆情引导能力建设研究”发挥着重要作用。此外,上海交通大学信息安全工程学院的网络媒体内容监管系统也取得了长足的进步。并形成具有生命特征的循环往复的社会舆论反馈系统。南京大学网络通信中心互联网网页关键词监测与分析实验室与谷尼国际软件(北京)有限公司共同建立网页关键词研究基地,谷尼网页关键词监测分析系统也是国家项目——“网络舆情引导能力建设研究”发挥着重要作用。此外,上海交通大学信息安全工程学院的网络媒体内容监管系统也取得了长足的进步。并形成具有生命特征的循环往复的社会舆论反馈系统。南京大学网络通信中心互联网网页关键词监测与分析实验室与谷尼国际软件(北京)有限公司共同建立网页关键词研究基地,谷尼网页关键词监测分析系统也是国家项目——“网络舆情引导能力建设研究”发挥着重要作用。此外,上海交通大学信息安全工程学院的网络媒体内容监管系统也取得了长足的进步。南京大学网络通信中心互联网网页关键词监测与分析实验室与谷尼国际软件(北京)有限公司共同建立网页关键词研究基地,谷尼网页关键词监测分析系统也是国家项目——“网络舆情引导能力建设研究”发挥着重要作用。此外,上海交通大学信息安全工程学院的网络媒体内容监管系统也取得了长足的进步。南京大学网络通信中心互联网网页关键词监测与分析实验室与谷尼国际软件(北京)有限公司共同建立了网页关键词研究基地,谷尼网页关键词监测分析系统也是国家项目——“网络舆情引导能力建设研究”发挥着重要作用。此外,上海交通大学信息安全工程学院的网络媒体内容监管系统也取得了长足的进步。
字典树,Trie树,也称为词搜索树或关键字树,是一种树结构,是哈希树的一种变体。典型的应用是对大量字符串(但不限于字符串)进行计数和排序,搜索引擎系统经常使用它来进行文本词频统计。它的优点是:尽量减少不必要的字符串比较,查询效率高于哈希表。
Trie 的核心思想是空间换时间。使用字符串的公共前缀,减少查询时间的开销,达到提高效率的目的。它有3个基本属性:
(1)根节点不包含字符,除根节点外的每个节点只包含一个字符;
(2)从根节点到一个节点,路径上传递的字符是相连的,就是该节点对应的字符串;
(3)每个节点的所有子节点都包含不同的字符。
例如,假设有6个单词b、abc、abd、bcd、abcd、efg、hii,我们构建的字典树如下图2.3所示:
图2.3 字典树结构
如上图所示,对于每个节点,从根遍历到他的过程就是一个词。如果节点标记为红色,则表示该词存在,否则不存在。然后,一句话,我只要跟着他从根到对应的节点,看看节点是否被标记为红色就知道它是否出现了。将此节点标记为红色,相当于插入单词。这样我们的查询和插入可以一起完成。
本质上,Trie 是一棵存储多个字符串的树。相邻节点之间的边代表一个字符,因此树的每个分支代表一个子串,而树的叶子节点代表完整的字符串。与普通树不同的是,相同的字符串前缀共享相同的分支。从上图可以看出:字典树的每条边对应一个字母。每个节点对应一个前缀,叶子节点对应最长的前缀,即单词本身。单词 abcd 与单词 abd 共享前缀“ab”,因此它们在左侧共享一个分支,root->a->b。并且字典树的查询操作非常简单。例如,要查找 abd,请按照路径 root->a->b->d 查找。
构建 Trie 的基本算法也很简单,就是将每个单词的每个字母一个一个地插入到 Trie 树中。插入前检查前缀是否存在。如果存在则共享,否则创建对应的节点和边。
在敏感词上加特殊符号是非法网页逃避过滤的主要方式,比如上面提到的“法轮功”。要识别此类不良信息,首先要过滤掉特殊符号,还原文本的自然组合。. 中文的书面用法通常依靠逗号、句号等断句符号来分句,一些中文分词算法也使用分句符号进行分词。很难从文本中直接识别出“%”、“&”等特殊符号。与传统算法很难直接识别。我们通过建立正则表达式并结合特殊符号比较表进行过滤,以恢复分离的歧义敏感词。
在不良信息中,一些敏感词中的词经常被拼音代替。对于这种情况,我们的基本思路是在训练阶段首先收集敏感词的拼音,建立词与拼音的对照表,存储在数据字典中,当发现待检测文本包含拼音,匹配算法用于从字典中查找匹配词,恢复敏感词的自然组合状态。由于汉字和词的区别(汉字是汉语结构的最小单位,词是汉语语义表达的最小单位),我们从两个方面来考虑。1、当单个单词被拼音替换时,首先判断被替换的单词与其相邻单词形成单词的可能性,然后查字典判断该词是否为敏感词,建立拼音与词的对照表,恢复其自然组合状态;2、当多个单词被拼音替换时,使用字典直接建立拼音和可能被替换的单词的对照表,判断是否为敏感词,如果是则将敏感词还原为自然组合状态。
对于一些字母和数字组合的敏感词微信敏感词检测有哪些,如“发隆功”,用数字“0”代替“隆”中的“0”。由于这两种形式非常相似,所以人们很容易理解它们的含义。在这种情况下,首先建立敏感词的拼音表,然后通过自定义的正则表达式将所有常见敏感信息的拼音一一匹配。
对于敏感词中存在部首或其他非单词的情况,我们仍然需要使用字典进行识别,需要使用字典进行匹配识别。识别过程描述如下:
(1)扫描要检查的文本,看看文本中是否有部首或部首,如果有,判断其右边的字符是否也是部首或部首。
(2)首先判断部首与其相邻词组合成词的能力。如果字典中有对应的子结构,则建一个词汇表,统计该词在文本中出现的次数;如果字典中没有对应的子结构。找到,转到步骤(3).
(3)如果字典中没有找到对应的词,则认为敏感词不包含分割词,转到步骤(1),继续搜索可能出现的词后激进的激进词。
图1 待检测文本的预处理过程
网页敏感关键词检测系统主要完成对待检测网页的敏感关键词检测,并将检测到的敏感关键词在源文件中的位置进行标记,并将检测结果和检测时间写入敏感关键词检测系统。在结果表中。系统在敏感词检测时需要驻留在内存中,通过加载敏感词知识库来检测敏感词。网页敏感关键词检测系统流程图如下图2.1所示。
图 2 网页敏感关键词检测系统流程图
上图是网页敏感关键词检测系统的流程图。敏感词检测的具体步骤如下:
1、创建敏感关键字数据库。
2、敏感关键词检测系统启动,敏感关键词库加载到内存中。敏感关键词以Tire字典树的形式存储。
3、系统通过目录文件读写子模块读取待检测文本。
4、要检测的文本预处理。
5、系统通过扫描指针读取待检测文本中的每个字符,并使用哈希函数将每个字符映射到字典树中进行敏感关键字检测;
6、如果找到敏感关键字,标记其位置信息,获取敏感关键字的上下文作为敏感关键字的摘要内容,获取系统当前时间,然后调用关系数据库读写子模块编写敏感关键词检测结果表。
7、如果没有找到敏感关键字,扫描指针向下移动下一个字符;
8、重复步骤 (5), (6) 直到扫描指针指向文本末尾。
9、管理员会根据匹配的上下文判断是否为敏感词,给系统相关反馈,或在这些词中得到提示,新增敏感词库,及时更新关键词库.
本文首先简要概述了在当前网络信息多样化和复杂化的环境下网页敏感关键词检测技术的研究背景和意义。然后对该技术在国内外的研究现状和实际应用场景进行了说明。接着,详细介绍了网页敏感关键词检测系统的操作流程和敏感关键词检测流程。它侧重于待检测文本的预处理和字典树在敏感关键字库内存中的存储形式。对网页敏感关键词检测系统进行了具体设计与实现。系统能准确检测出待检测文本中的敏感关键词,敏感词和上下文摘要等特定信息的位置,并将在实际页面中检测到。对敏感词进行标注,管理员可以对检测到的敏感词进行判断并反馈给系统,及时更新词库。
[1] CCNIC,《第29次中国互联网发展调查统计报告》,2012年
[2]WangX,LiH,JiaY,etal.Proceedingsofthe2012InternationalConferenceonInformationTechnologyandSoftwareEngineering[M].SpringerBerlinHeidelberg,2013:991-1000.
[3] 王博文. 一般特里树及其自动生成[J]. 计算机应用, 2000, (12):74-75.
[4] 王博文,苏国辉.汉语拼音输入的Trie-like树及其改进[J]. 小型微机系统, 2002, (6):759-761.
[5]唐培力,王树明,胡明.基于语义的汉语文本主题词提取算法[J].长春邮电学院学报,2005-05.
[6]罗准臣,王婷.基于分离模型的中文关键词提取算法研究[J].中文信息处理学报,2009-01.
[7] 白立军,张银福.基于网络安全的字符串匹配算法研究[A].第二届全国信息检索与内容安全会议论文集 (NCIRCS-2005)[C], 2005)
[8] 张文鹏,王兴.一种基于中文关键词提取的智能匹配方案[J]. 科学技术与工程,2012,(21).