把Drupal的网页采集技术放在优先位置

我有时候，在想这样的一个问题，什么样的Drupal技术，才能让我们得到更好的发展。普通的网站建设，技术含量太低，价格也太低；电子商务网站，我们帮助中华书局做完他们的网上书店以后，就基本上没有类似的实际项目了，Drupal7下，又有Ubercart和Commerce的竞争，不知道选择哪里；电子书技术，这个目标客户对象，又过于狭窄；微信开发，这个虽然时髦，潜在的用户也不少，但是随着时间的推移，微信只是Drupal下面的普通的一个模块，集成一下就可以了，我想来想去，觉得，最值得下功夫的是Drupal的网页采集抓取技术。

虽然，半年以前，我们便在Drupal网页采集技术上面，取得了重大的突破，但是我们缺少，实际项目的支撑。为了锻炼我们的采集技术，我们在内部，启动了两个抓取项目，一个是抓取中国象棋的棋谱、新闻资讯、图书等信息；一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集，在十万级别；而当当、京东的图书信息采集，则在百万级别。前者，已经采集成功，后者正在采集。

通过实际的项目锻炼，我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理，等多个方面，都积累了第一手的经验。最主要的，程序运行平稳、强劲。

对于Drupal采集，我们期望的就是能够像火车头那样，为广大的Drupal开发者，所喜欢、使用。我们也希望，在这样的一个群体之上，有若干的企业用户，个人用户，为我们提供的Drupal采集方面的服务付费。我专门登陆了火车头采集器的网站，参考了他们的收费标准，我们将仿照他们，提供免费、基础服务、企业服务的模式，而收费的费用，也参考国内的火车头的收费标准。

这对我们来说，又是一个尝试，我们做Drupal很多年了，中间尝试过很多的事情，很多都因为各种原因，而中止了。希望这次是一个例外。

论坛:

drupal培训

Drupal版本:

drupal7

You are here

把Drupal的网页采集技术放在优先位置

论坛:

Drupal版本:

亚艾元软件

亚艾元象棋谱