You are here

把Drupal的网页采集技术放在优先位置

我有时候,在想这样的一个问题,什么样的Drupal技术,才能让我们得到更好的发展。普通的网站建设,技术含量太低,价格也太低;电子商务网站,我们帮助中华书局做完他们的网上书店以后,就基本上没有类似的实际项目了,Drupal7下,又有Ubercart和Commerce的竞争,不知道选择哪里;电子书技术,这个目标客户对象,又过于狭窄;微信开发,这个虽然时髦,潜在的用户也不少,但是随着时间的推移,微信只是Drupal下面的普通的一个模块,集成一下就可以了,我想来想去,觉得,最值得下功夫的是Drupal的网页采集抓取技术。

虽然,半年以前,我们便在Drupal网页采集技术上面,取得了重大的突破,但是我们缺少,实际项目的支撑。为了锻炼我们的采集技术,我们在内部,启动了两个抓取项目,一个是抓取中国象棋的棋谱、新闻资讯、图书等信息;一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集,在十万级别;而当当、京东的图书信息采集,则在百万级别。前者,已经采集成功,后者正在采集。

通过实际的项目锻炼,我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理,等多个方面,都积累了第一手的经验。最主要的,程序运行平稳、强劲。

对于Drupal采集,我们期望的就是能够像火车头那样,为广大的Drupal开发者,所喜欢、使用。我们也希望,在这样的一个群体之上,有若干的企业用户,个人用户,为我们提供的Drupal采集方面的服务付费。我专门登陆了火车头采集器的网站,参考了他们的收费标准,我们将仿照他们,提供免费、基础服务、企业服务的模式,而收费的费用,也参考国内的火车头的收费标准。

这对我们来说,又是一个尝试,我们做Drupal很多年了,中间尝试过很多的事情,很多都因为各种原因,而中止了。希望这次是一个例外。

论坛:

Drupal版本: