You are here

Drupal采集模块介绍

想用Drupal采集插件,可以先下载一下亚艾元Drupal采集器发行版,装起来,就能用,里面有一个详细的文档。亚艾元Drupal采集器,采用标准的Drupal模块,完全开源,只不过为了支持中文采集,对模块个别地方坐了修改。
我们这里介绍一下,亚艾元Drupal采集器里面,用到的与采集相关的模块插件:

1, Feeds模块, 这个是主模块,它是用来导入数据,开始是收割RSS数据,后来发展为导入各种数据,再后来,我们发现,基于这个模块,可以用来采集网页信息。
2, job_scheduler模块,这个是Feeds模块依赖的插件,采集时的任务调度,很多时候需要依赖于这个模块。
3, feeds_tamper模块,这个模块,用来在导入数据的时候,对数据进行预处理、也就是清理工作,非常好用的帮助模块。采集网页数据时,必备模块。
4, feeds_xpathparser模块,这个模块使得我们可以使用Xpath规则,解析数据,网页采集过来的数据,是HTML格式的,需要使用Xpath规则解析。这个也是必备模块之一。
5, feeds_crawler模块,这是一个小爬虫,方便采集各种分页列表,非常好用,网页抓取必备模块。
6, feeds_smartparser模块,从HTML页面中,智能提取全文,网页采集必备模块之一。
7, feeds_selfnode_processor模块,采集过来的节点本身,还是一个Feed种子,通过HTTP请求,抓取更详细的信息,完善自身节点,网页采集必备模块之一。
8, Views/Ctools views data export,将网页采集过来的数据,导出成各种格式,支持XML,CSV,Excel。
9, feeds_spider模块,采集蜘蛛,类似于feeds_crawler,网页采集模块之一。

相信熟悉使用了上述模块以后,即便是不使用亚艾元Drupal采集器,大家也能够搭建出来自己的采集网站。
亚艾元Drupal采集器, 就是基于上述的标准模块构建出来,结合我们的实际经验,做了有益的总结与归纳。

论坛:

Drupal版本: