当前位置:首页 > 教程专栏 > SEO建站教程 >

什么是文本指纹和内容指纹系统

发布时间:2021-05-05 17:30 | 浏览次数:次 | 作者:王牌网络小编| 来源:王牌网络
什么是文本指纹和内容指纹系统?对于收集内容的站长来说,文本指纹算法是百度爬虫系统中最麻烦的算法之一,但是对于像白帽子一样努力工作的站长来说,这是一个好处。
什么是文本指纹和内容指纹系统
文本指纹算法如今,网络上对小说、新闻和图片的盗版十分猖獗,因此有必要对网页或文本进行复制和过滤。最简单的文本相似性计算文本中的md5或sha哈希值。但是,它可能会导致非常小的文本差异,并且由md5或sha哈希值计算的指纹会有所不同。一个好的指纹应该具有以下特征(1)指纹是确定性的,同一文本的指纹是相同的;②指纹越相似,文本的相似度越高。③指纹生成和匹配效率高。常见指纹算法k-瓦片算法瓦片在英语中是指重叠的瓦片。对于一段文本,根据字母顺序,分词向量将数字特征连接成一个数字,即指纹。如果空是20位整数,则需要2 64,8字节如果空为,则20位八位字节,即8 20,需要8个字节如果空是,则只需要4 20,总共40位,5字节如果空为,则需要2 20,20位,3字节假设粒子长度为m,归一化过程的算法步骤如下:哲学指纹系统的体系结构基本架构哲学指纹跟踪系统主要由爬虫系统、指纹生成系统、指纹存储、指纹查询和比对、数据分析、后台管理系统等主要模块组成,如图4所示。存储层包括匹配结果信息库、网页库和指纹库。图4指纹跟踪系统的框图履带式系统爬虫系统的目的主要是捕获互联网上特定领域的网页(如新闻网页)。爬虫系统是原始数据的唯一来源。只有通过爬虫系统,类似的网页才能从广阔的互联网上捕捉到。爬虫系统需要具有较高的抓取能力和抗爬行能力,为整个系统提供大量待检测页面。指纹存储模块指纹存储模块计算父母的指纹(大量文本),这可以理解为一行文本的矢量表示。该系统的指纹存储系统采用蒙古数据库进行存储。指纹生成模块指纹生成模块的输入是一行文本,其输出是文本的指纹表示。为了获得更高的对比度精度,一个好的指纹生成系统是非常重要的。指纹查询和比较模块大量的父指纹存储在指纹数据库中。对于某一文本,指纹查询和比较模块应该快速判断该文本在父数据库中是否重复。数据分析数据分析系统需要分析大量的文本及其比较结果。后台管理平台提供数据分析的显示,并为用户提供查询和输出分析报告。数据存储模块网页库它主要存储爬虫系统捕获的网页信息和站点信息,系统的网页库采用蒙古数据库。指纹银行该系统使用蒙古数据库存储指纹。为了加速指纹的搜索和比较,系统使用再贴现来索引指纹和加速匹配。匹配信息库存储指纹匹配结果,包括两个要匹配的指纹、原始网页id、匹配相似度等。4.2系统架构图5系统架构图4.3系统处理流程该系统的处理流程如图6所示。该系统支持每天自动调度父数据库中的新任务,以执行重复数据消除操作。图6系统流程图4.4查询和比较系统查询和比较系统的目的是快速有效地找到与目标指纹高度相似的父指纹。根据指纹查询的特点,对父指纹数据库进行索引,通过查询索引可以找到最可能匹配的父指纹。指纹查询和比较流程如下:创建索引每个父指纹描述父标识-;特征之间的关系可以通过以特征为关键和以父标识为值来反转。如果矩阵为:;,b-;,c-;,d-;[1],e-;[2],f-;[2],g-;[3].像其他算法一样,索引的粒度也应该考虑,指纹算法的粒度也应该考虑。抽样根据要匹配的文本的特征(长度),选择适当的粒度和片段。重要的是确保匹配的正确性,同时减少生成指纹的计算量。提取指纹根据指纹生成算法。查询指纹对要查询的指纹进行索引,统计命中数和命中次数,选择命中次数高的命中数作为可疑对象,命中数低于阈值,可以忽略。后加工结合历史统计模型,对结果进行筛选。如果匹配结果不确定,可以进行第二轮仔细比较或人工验证。摘要指纹模块是网页去重、内容盗版跟踪、内容聚类等应用中极其重要的模块。本文介绍了一些常用的指纹算法,包括k-瓦片、simhash、minhash同时介绍了由哲学数据独立开发的指纹跟踪系统及其关键算法。这些哲学数据为指纹系统的构建和算法积累了丰富的经验。没有最好的算法,只有合适的算法。在实际使用过程中,架构和算法需要根据具体的业务场景来确定。
本文由王牌网络原创,转载本文请附带本文链接:http://www.jinuoseo.com/wzjsprogram/396.html 标明:【转自王牌网络】