操作指南:列表采集--添加采集器--列表规则--采集范围设置
通过列表规则获取需要采集的页面链接。有四种方式: 从分页列表采集 从URL范围采集 从RSS地址采集 从多层列表采集 1、从分页列表采集 站点通常包含有内容页链接的列表页(栏目首页
通过列表规则获取需要采集的页面链接。有四种方式:
- 从分页列表采集
 - 从URL范围采集
 - 从RSS地址采集
 - 从多层列表采集
 
	
	1、从分页列表采集   
站点通常包含有内容页链接的列表页(栏目首页),某个栏目内容页较多时,需要用多个列表页面来显示,这样的每个页面称为”分页“。
以人民网“文化”栏目为例,这些分页地址为
	    http://culture.people.com.cn/index1.html
	    http://culture.people.com.cn/index2.html
	    http://culture.people.com.cn/index.html
	    ...
从这些分页获取内容页链接就是”从分页列表采集“。
2、从URL范围采集
如果要采集的站点内容页链接仅用连续(或有规则的间断)的数字加以区分,以“飞卢小说网”为例,某个小说的内容页
	    https://b.faloo.com/1029709_85.html
	    https://b.faloo.com/1029709_86.html
	    https://b.faloo.com/1029709_87.html
	    ....
直接指定这些内容页链接中数字的范围获取内容页链接就是“从URL范围采集”。
3、从RSS地址采集
RSS是站点用来和其他站点之间共享内容的一种简易方式(也叫聚合内容),通常被用于新闻和其他按顺序排列的网站。 例如
	    百度新闻国内集点   https://news.baidu.com/n?cmd=1&class=civilnews&tn=rss&sub=0
	    人民网国内新闻    http://www.people.com.cn/rss/politics.xml
使用这些rss地址获取内容页链接为“从RSS地址采集“。
4、从多层列表采集
某些站点会将多个栏目加以聚合,使用频道列出当前所属栏目,例如人民网,导航栏中的频道包括“经济科学”、“社会法制“、”文旅体育“等,其中“文旅体育”频道有文化、旅游和体育三个栏目,其地址分别为
	    http://culture.people.com.cn/
	    http://travel.people.com.cn/
	    http://sports.people.com.cn/
使用“从多层列表采集获取频道所属的所有栏目内容页链接。
一、从分页列表采集
从分页列表采集是最常用的方式。
1、指定要采集的列表分页链接。
		    以人民网“体育”频道为例,打开http://sports.people.com.cn/,在页面下方有分页导航,如下所示
		    
		 
其中数字对应的分页链接分别为:
		    http://sports.people.com.cn/index1.html
		    http://sports.people.com.cn/index2.html
		    http://sports.people.com.cn/index3.html
		    ....
使用(*)替代index后面的数字,这些链接的通用形式为
http://sports.people.com.cn/index(*).html
		    将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
		    
		
		    点击测试,在弹出的窗口中显示获取到的分页列表。
		    
2、指定网页列表获取规则
		    在“测试列表地址“中输入一个分页链接,或直接点击自动获取,从上述指定的网址范围中随机选取一个。
		    
点击访问该页面,右键在弹出的菜单中点击查看网页源代码。
通过分析,内容页的获取规则为DOM获取
		    div.ej_list_box ul li
		    a
		    
		    点击测试结果
		      
二、从URL范围采集
以“飞卢小说网”为例,某个小说的内容页
			    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_1.html[/url]
			    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_2.html[/url]
			    https://b.faloo.com/[url=https://b.faloo.com/1029709_87.html]1311567_3.html[/url]
			    ...
使用(*)替代1311567_后面的数字,这些链接的通用形式为
https://b.faloo.com/1311567_(*).html
			    将上述通用形式输入“网址范围“,并在”网址扩展设置“中指定数字范围和步长,如下所示
			    
			    点击测试,在弹出的窗口中显示获取到的内容页链接列表。
			    
三、从RSS地址采集

点击测试

四、从多层列表采集




点击测试

        



