You are here

Drupal网页采集成功突破百万级数据

g089h515r806 的头像
Submitted by g089h515r806 on 星期日, 2014-09-21 06:17

2014年9月19日,我们的基于Drupal的图书信息采集系统,成功采集到了103万图书详细信息,这标志着我们基于Drupal开发的采集器系统,日益成熟与文档,完全能够满足大型机构日常的采集需求。

我们在以下方面,获取到了第一手的实践经验:

1, 如何绕过被抓取网站的反抓取设置。
2, 如何存储大规模的抓取过来的图片信息。
3, 如何配制合适的采集任务调度。
4, 如何处理采集过程中,发生的各种异常。

。。。。

前段时间,我们抓取的中国象棋的相关新闻、图书、棋谱信息,我们使用Drupal实践了10万级别的数据抓取,程序运行稳定,性能良好。现在,我们突破了百万级数据。

即便是,在整个全球的Drupal社区,使用Drupal进行网页采集的应用,也少之又少,能够突破百万级别的,除了我们以外,还没有看到别的成功案例。我们在Drupal采集方面的实践,与中国的国情相结合,相信,通过发布免费的亚艾元网页采集器,将来会极大地推动,Drupal在中国市场的应用。

采集,这个在国外,除了少数的搜索引擎和专业的采集工具意外,应用并不广泛,在中国,则是另一番景象。目前,Drupal采集技术,与国产的采集系统,专业的采集系统相比,还存在以下缺点:
1, 性能不够强大,这局限于PHP本身的性能。
2, 无法抓取JS运行后的结果,AJAX页面。
3, 抓取技术的小细节还不够完善,需要进一步的改进。
4, Drupal技术入门门槛比较高,学习成本高,会的人少。

但是,基于Drupal的采集器,也存在以下优点:
1, 直接基于Drupal,采集与内容发布相结合,解决很多其它系统,采集与发布相隔离的矛盾。
2, Drupal自带的一套内容发布流程管理,能够对采集过来的数据,进行进一步的加工,编辑处理。
3, 与Drupal的views data export相结合,能够非常方便的倒腾数据,支持各种格式,比如XML、CSV、EXCEL。
4, Drupal自身强大的任务调度功能,在采集任务的调度方面,颇具特色。
5, 专业厂商的支持,亚艾元软件,提供免费的Drupal网页采集发行版本,提供专业的Drupal网页采集培训、技术支持,开发服务。

论坛:

Drupal版本: