配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程

泡沫乐园 2022-05-01 11:01

配套软件版本：V9及更低版本即搜客网络爬虫软件

新版本对应教程：V10及更高版本数据管家-网络爬虫增强版对应教程为《自动输入关键词收集搜索结果信息-以人民网搜索为例》

注意：GooSeeker 爬虫从 V9.0.2 版本开始，爬虫术语“主题”已更改为“任务”。在爬虫浏览器中，先命名任务，然后创建规则，然后登录集合。在苏克官网会员中心的“任务管理”中，可以查看任务的收集和执行，管理线索的URL，进行调度设置。

一、操作步骤

如果网页上有搜索框，但搜索结果页面没有独立的URL，如果要收集搜索结果，不能直接应用规则收集搜索结果。您必须首先执行连续动作（输入+单击）以自动输入关键字和搜索，然后才能收集数据。下面以京东搜索为例，演示自动搜索和收藏。操作步骤如下：

二、案例规则+操作步骤

注意：在这种情况下，京东搜索有独立的URL。对于具有独立URL的页面，最简单的方法是为每个关键字构造搜索URL，然后将线索URL导入到规则中，这样就可以批量收集，而不是设置连续动作，可以参考“如何构建 URL”和“如何管理规则线索”。

第一步：定义一级规则

1.1 打开Jisouke网络爬虫，输入网址回车，加载网页后点击“定义规则”按钮，会看到一个浮动窗口，叫做工作台，在上面定义规则;

注意：这里的截图和文字说明是Jisoke网络爬虫版本。如果你安装的是火狐插件版，那么就没有“定义规则”按钮，但是你应该运行MS Moujiu

1.2 在工作台中输入一级规则的主题名称，然后点击“检查重复项”，会提示“此名称可以使用”或“此名称已被占用，可编辑：是” , 你可以使用这个主题名称，否则请重命名。

1.3 这个级别的规则主要是设置连续动作，所以排序框可以随意抓取一条信息，并以此来判断是否对爬虫进行采集。双击网页上的信息，输入标签名称，勾选确认，然后勾选关键内容搜索请输入要搜索的关键词，输入第一个标注的排序框名称，完成标注映射。

温馨提示：为了准确定位网页信息，点击定义规则会冻结整个网页，不能跳转到网页链接。再次单击定义规则，返回正常网页模式。

第 2 步：定义连续动作

单击工作台的“Continuous Action”选项卡，然后单击“新建”按钮以创建新的操作。每个动作的设置方法都是一样的。基本操作如下：

2.1，输入目标主题名称

这里的目标主题名称是填写二级主题名称，点击“谁在使用”查看目标主题名称是否可用，如果已经被占用搜索请输入要搜索的关键词，只需更改主题名称

2.2、创建第一个动作：回车

创建一个新动作并选择动作类型作为输入。

2.２.1、填写定位表达式

先用鼠标点击输入框，定位输入框的节点，然后点击“Auto Generate XPath”按钮，可以选择“Preference id”或者“Preference class”，就可以得到输入框的xpath表达式，然后点击“搜索”按钮，检查xpath能否唯一定位输入框，如果没有问题，将xpath复制到定位表达式框。

注意：定位表达式中的xpath是锁定action对象的整个有效操作范围，具体是指鼠标可以点击或输入成功的网页模块，不要定位底部的text()节点。

2.2.2、输入关键字

输入关键字填写要搜索的关键字，可以输入一个关键字，也可以输入多个关键字，输入多个关键字用双分号；；将每个关键词分开，免费版只支持5个旗舰版可以使用连发杂志功能，支持10000以内的关键词

2.2.3、输入动作名称

告诉自己这一步是做什么用的，以便以后修改。

2.3、创建第二个动作：点击

参考2.2的操作，创建第二个action，选择类型为click，定位到搜索按钮，然后自动生成一个xpath，检查是否锁定到唯一节点。如果没有问题，只需填写定位表达式即可。

2.4、保存规则

点击“保存规则”按钮保存完成的一级规则

第三步：定义二级规则

3.1、新建规则

创建二级规则，点击“定义规则”返回正常网页模式，输入关键字搜索结果，再次点击“定义规则”切换到规则制定模式，点击“规则”菜单左上角->“新建”，输入主题名称，其中主题名称为一级规则连续动作填写的目标主题名称。

3.2、标记你要收集的信息

3.2.1、在网页上标记你要收集的信息，这里是标记产品名称和价格，因为标记只对文本信息有效，以及产品详细信息的链接是属性节点@href，所以，不能在链接上做这么直观的注解，而是做内容映射，具体见下面操作。

3.2.2、点击产品名称，将下面的DOM节点定位到A标签下，展开A标签下的attributes节点，可以找到代表URL的@href节点，右键节点，并选择“新建”“爬取内容”，输入名称，一般给爬取内容取一个与地址相关的名称，如“下级URL”，或“下级链接”等。然后在工作台上，我看到这个抓取的内容是可用的。如果还想进入商品详情页面进行采集，则必须查看待抓取内容的下层线索，进行分层抓取。

3.2.3、设置“Key Content”选项，以便爬虫判断采集规则是否合适。在排序框中，选择网页上一定要找到的标签，勾选“关键内容”。这里选择“名称”作为“关键内容”。

3.2.4，如果你只在前面标记一个产品，你也可以获得一个产品信息。如果您想在整个页面上收集每个产品，您可以复制样本。请参考基础教程“收集列表数据”

3.3、设置翻页路线

在爬虫路由中设置翻页，这里是标记线索，不明白的请参考基础教程《设置翻页收藏》

3.4、保存规则

单击“测试”以检查信息的完整性。如果不完整，重新标注可以覆盖之前的内容。确认没有问题后，点击“保存规则”。

第 4 步：获取数据

4.1、连续动作是连续执行的，所以只要运行一级主题，二级主题就不需要运行。打开DS计数器，搜索一级主题名称，点击“单次搜索”或“收藏”，可以看到在浏览器窗口中会自动输入关键词进行搜索，然后会自动进入二级主题收集和搜索的结果。

4.2、一级主题没有收集到有意义的信息，所以我们只看二级主题的文件夹就可以看到收集到的搜索结果数据，搜索关键字是默认记录xml文件的actionvalue字段，这个可以一一匹配。

上一篇：《连续动作概念：掌握JS动态网页信息收集》下一篇：《连续动作：自动选择下拉菜单收集数据》

如有疑问，您可以或

集搜客软件网络爬虫

上一篇：亚马逊搜索词和关键词的区别是什么？亚马逊卖家混淆的迷思下一篇：2014年大数据金融将实现全面落地开花(图)

配套软件版本：V9及更低集搜客网络爬虫软件新版本对应教程

合作伙伴

商务合作

关于我们