找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 622|回复: 2

采集测试札记

[复制链接]

6

主题

0

回帖

40

积分

新手上路

积分
40
发表于 2023-6-6 15:09:23 | 显示全部楼层 |阅读模式
1、插件有现成的规则“人民网”

2、点击“转换”

3、在跳出窗口中选择“单贴采集器”,点击“确定”。

3、自动跳转到“单贴采集”-“添加采集器”


查看各项规则内容,测试一下识别特征字符串、标题和内容获取规则结果正常。






点击提交保存。
4、点击“采集设置”,开启前台采集。
  
5、点击右上角主页标志返回到前台,切换到“论坛”-“采集测试”-“单页采集”版块,点击“发新贴”-“发表贴子”。
在标题上方输入要采集的页面,点击“获取”。

成功获取标题和内容。



输入验证码,点击“发表贴子”,成功!
请查看http://stonespider.cn/bbs/forum.php?mod=viewthread&tid=221








本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

6

主题

0

回帖

40

积分

新手上路

积分
40
 楼主| 发表于 2023-6-6 15:33:04 | 显示全部楼层
6、回到“管理中心”,点击插件“规则管理”,按上面所述重新点击规则“人民网”-“转换”,在跳出窗口中选择“列表采集器”



7、插件自动跳转到“列表采集器”,当前体验的非VIP用户,因此“采集模式”只显示“自定义”。

8、查看“列表规则”和“内容规则”,可以看到除了“采集范围设置”,其它规则配置已经自动导入。

    目标列表为“体育”栏目,选择“从分页列表采集”。
    查看分页列表链接,可以发现内容页链接为:
    http://sports.peopel.com.cn/index1.html
    http://sports.peopel.com.cn/index2.html
    http://sports.peopel.com.cn/index3.html
    ...
    输入分页列表链接,并用(*)替代index1.html中的数字。
    http://sports.peopel.com.cn/index(*).html
    “网址扩展设置”中输入自1到10,每次增长1,如图所示。


  点击查看测试结果。

9、查看其它网页列表获取规则、标题和内容获取规则,并测试。






本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×

6

主题

0

回帖

40

积分

新手上路

积分
40
 楼主| 发表于 2023-6-6 16:46:17 | 显示全部楼层
10、设置“采集设置”
     图片和附件本地化。

     需要设置总采集总数,为了减轻服务器负担,设置采集停顿。

    其它采用默认设置。
11、点击“提交采集”,也可以点击“保存”,然后到“列表采集”-“采集器列表”选择“采集”。


点击“执行采集”。

采集结束。


12、点击“素材管理”就查看采集到的文章。




本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|小石头采集器 Stone Spider

GMT+8, 2024-5-15 10:41 , Processed in 0.157910 second(s), 34 queries .

Powered by Discuz! X3.5

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表