有很多网站,需要输入关键词查询,然后采集查询后得到的结果数据。
例如:在易迅首页搜索框中输入商品名称搜索,采集搜索后得到的商品信息;在新闻网站的搜索框中,输入热门关键词,采集搜索后得到的最新资讯。
在八爪鱼中该怎么操作呢?来看一下具体的操作步骤。
一、输入1个关键词查询
示例网址:
采集需求:在易迅首页,输入关键词【手机】,采集出现的手机商品数据。
Step1.输入网址打开网页。选中网页中的文本输入框,在提示框中选择【输入文字】,输入关键词【手机】,按【确定】保存。可以看见,左侧流程区出现了【输入文字】步骤。接下来是点击搜索。选中页面上的【搜索】按钮,在提示框选择【点击该按键】。
放到图片上,右键,选择【在新标签页中打开图片】可查看高清大图
下文其他图片同理
Step2.接下来按需提取数据即可。具体请看 新手入门课程。
二、批量输入多个关键词(单文本输入)
示例网址:
采集需求:在易迅首页,依次输入 关键词1、关键词2、关键词3、关键词4(用户可将其更换成自己想要的关键词,单次最多支持输入2W个)并搜索,然后采集每位关键词的搜索结果数据。
Step1. 设置【文本循环】
输入网址后,自动打开网页。我们须要输入多个关键词,在八爪鱼中须要用到【文本循环】。将键盘联通到流程中【打开网页】步骤后的
位置,会出现
按钮。点击
按钮,添加一个【循环】步骤。
然后将键盘联通到【循环】上,点击 该循环框,进入步骤设置页面,点击中级设置,选择循环形式为【文本列表】,然后点击
按钮,将我们打算好的关键词输进去(可同时输入多个关键词,一行一个即可),输入完成后点击【应用】,再点击应用保存。
检查一下,现在,循环中就有了我们输入的关键词。
特别说明:
a. 可先打算一个富含多个关键词的excel文档,支持复制粘贴。一次最多输入2W个关键词。
Step2. 设置【输入文字】
准备好了关键词后,如何将其输入到网页中呢?选中页面中的文本框,在操作提示框中选择【输入文本】,流程上将手动生成一个【输入文本】步骤。
将【输入文本】步骤推入【循环】中,然后点击 循环框,勾选【使用当前循环里的文本来填充输入框】。该操作是为了实现【循环输入文字】的疗效。
来验证一下,在流程中选择关键词,点击【输入文本】,可以看见,可以成功的依次填充我们设置的关键词到网页上的文本框中。
Step3. 选中网页上的输入框,【输入关键词】的步骤已经完成,接下来是点击搜索。选中页面上的【搜索】按钮,在提示框选择【点击该按键】。八爪鱼就执行了搜索操作,出现搜索后的数据。同时,左侧的流程中,出现一个【点击元素】步骤。
Step4. 接下来请按需提取数据。在这儿,我们选择提取第一个商品的标题和价钱。选中商品标题,在提示框中选择【采集该元素的文本】。价格数组也进行同样操作。
Step5. 数据完成后,点击【采集】,选择【启动本地采集】。采集的数据如图展示:八爪鱼手动依次输入关键词,并采集相关数据。
注意:有的网页,在输入第1个关键词并点击搜索之后,文本输入框的位置(本质上)是网页源码会有变化,第1个关键词的数据采集完成之后,没办法输入第2个关键词。此时,需将【打开网页】步骤,拖至【循环】内,如下图所示:
二、批量输入多个关键词(双文本输入)
示例网址:
采集需求:在【作者发文检索】的条件下,有俩个文本框须要一一对应输入,依次输入组合关键词1;组合关键词1、组合关键词2;组合关键词2、组合关键词3;组合关键词3、(用户可将其更换成自己想要的关键词,单次最多支持输入2W个)并搜索,然后采
集每位关键词的搜索结果数据。
Step1. 输入网址,设置【点击元素】
输入网址后,自动打开网页。我们须要选择【作者发文检索】。将键盘联通到【作者发文检索】,点击以后选择【点击该元素】,并设置Ajax超时时间为3s。
Step2.我们须要输入多组关键词,在八爪鱼中须要用到【组合文本循环】。
将键盘联通到第一个输入框,点击后选择【输入文本】,再点击第二个循环框,由于俺们会在前面输入多组关键词,因此操作框内不输入关键词,直接点击【确定】即可。
Step3.流程中【输入文本】步骤后的
位置,会出现
按钮。点击
按钮,添加一个【循环】步骤。
然后将键盘联通到【循环】上,点击 该循环框,进入步骤设置页面,点击中级设置,选择循环形式为【文本列表】,然后点击
按钮,将我们打算好的多组关键词粘贴进去(可同时输入多组关键词通常是不超过2W个,一行一组即可),每组关键词之间用英
文版分号;隔开,输入完成后点击【应用】,再点击应用保存。
检查一下,现在,循环中就有了我们输入的多组关键词。
关键词: 范嘉昊;北京科技大学冶金与生态工程学院
吴克辉;中国科学院物理研究所
程妍昕;西安电子科技大学
Step4.设置【输入循环文本】
将【输入文本】步骤推入【循环】中,然后点击【输入文本】,勾选【使用当前循环里的文本来填充输入框】。该操作是为了实现【循环输入文字】的疗效。
来验证一下,选中【循环】,在流程中选择关键词,点击【输入循环文本】,可以看见,可以成功的依次填充我们设置的关键词到网页上的文本框中。
点击页面的【检索】,选择【点击该按键】,然后选择我们要的数组进行提取
优化调整下流程的中级设置,选中【循环】框,设置【执行前等待】,【点击元素】设置Ajax超时时间位3s。
修改下数组名称,删除不必要的数组以及调整数组次序后点击保存。
点击采集,选择普通模式。
可以看见采集页面一一对应的输入俺们设置的三组关键词,并采集到对应的数组。