查看:513 回复:5
[ 功能 ] 爬虫软件开发
开心一笑
发表于 2021-08-02 04:52:14
最后编辑于 2021-08-02 04:52:14
增加网页截图识别文字功能,可以指定区域
调整代码,使用工厂模式,包括规则存储读取,网址记录存储读取,每个规则使用自定义界面或自定义参数
开心一笑
楼主 发表于 2021-09-05 04:38:34
1楼
IRuleSaver 增加end标记,提前预知是否有后续操作
开心一笑
楼主 发表于 2021-09-05 04:40:55
2楼
分裂规则,ruleArray自动拆分成多个spidercontainer
开心一笑
楼主 发表于 2021-09-05 04:44:24
3楼
读取url规则,以提取的一个属性作为网址进行处理,并把当前提取的属性继承到,执行的container里
开心一笑
楼主 发表于 2021-09-05 04:45:19
4楼
属性提取:正则提取,jquery提取,xpath提取
开心一笑
楼主 发表于 2021-09-05 04:50:21
5楼
增加event:done规则组,表示任务执行完毕触发,
例如进行文件按顺序进行合并