亚艾元Drupal网页采集器,开源免费版发布

下载地址: http://pan.baidu.com/s/1dDF1Dz7

欢迎大家试用,里面包含一个安装说明。Drupal网页采集利器,我们开发的第一个Drupal发行包。

亚艾元Drupal采集器,是由北京亚艾元软件有限责任公司开发的一款网页采集工具软件,本软件基于Drupal,属于基于Drupal定制的一个发行包。

发行包软件作者:老葛

软件遵守的开源协议:GPL

如果您有更多需求,可以通过购买亚艾元公司的相关服务,或取更多的专业支持。

声明:
基于本软件,您所产生的网页抓取行为,造成版权纠纷的,由您自己100%承担责任,与软件的开发者无关。

Drupal版本: 
论坛: 

Think in drupal免费源程序下载

Think in Drupal 目前提供5集,其中2,3集合并成为Drupal实战,已有机械工业出版社出版。对于每集里面的代码,我们都提供免费下载。

程序免费下载地址:

Drupal 实战 源代码下载

Think in drupal 第5集 源代码下载

Think in drupal 第4集 源代码下载

Drupal版本: 

Panels性能 -- 在同等条件下Panels与区块的性能对比(转帖)

这篇文章比较符合我的胃口,原文:http://yplam.com/panels-performance

原文地址:http://www.codeenigma.com/en/blog/performance-panels

Panels发布已有一段时间。人们对它的评价不一,这有点像Drupal - 你要不就喜欢它,要不就讨厌它。个人而言,我是panels的粉丝,有很多原因,均有博客文章进行了介绍。而在反对声音中我听到最多的是,Panels会带来性能问题。因为没有看到过一个真正的测试,我决定对Panels与区块进行一次彻底的基准测试,看看会发生什么事情。

方法

在一台13寸Macbook Pro安装上Acquia Dev Desktop环境,安装一个干净的Drupal 7,并且只安装小量标准的核心模块,以及Ctools,Views,Panels。

环境信息:

Drupal version : 7.17

Drupal版本: 
论坛: 

CentOS5.5 安装Tomcat6

最近需要在一个老版本的服务器上面,安装Tomcat6.
1, 安装 Yum Priorities
# yum install yum-priorities

2安装EPEL i386 YUM 库
# rpm -Uvh http://download.fedoraproject.org/pub/epel/5/i386/epel-release-5-4.noarc...

3安装RPMForge i386 YUM 库
# rpm -Uvh http://apt.sw.be/redhat/el5/en/i386/rpmforge/RPMS/rpmforge-release-0.5.2...

4安装JPackage项目库

Drupal版本: 
论坛: 

图片的上下左右居中显示

想实现图片的上下左右居中显示,使用下面的代码:
#product-info .product-img{
padding:0px;
border: 1px solid #ddd;

width:200px;
line-height:200px;
height:200px;
vertical-align:middle;
text-align:center;
margin-left:1em;
}
#product-info .product-img img{
display:block;
margin:auto;
vertical-align: middle;
}
.product-img 是套在图片上面的div。
测试了很多次,左右居中很容易就实现了。
不过上下居中,始终不行。

后来将img自己的display:block;这个样式去掉,就解决了。

Drupal版本: 
论坛: 

Drupal采集模块介绍

想用Drupal采集插件,可以先下载一下亚艾元Drupal采集器发行版,装起来,就能用,里面有一个详细的文档。亚艾元Drupal采集器,采用标准的Drupal模块,完全开源,只不过为了支持中文采集,对模块个别地方坐了修改。
我们这里介绍一下,亚艾元Drupal采集器里面,用到的与采集相关的模块插件:

Drupal版本: 
论坛: 

Drupal网页采集成功突破百万级数据

2014年9月19日,我们的基于Drupal的图书信息采集系统,成功采集到了103万图书详细信息,这标志着我们基于Drupal开发的采集器系统,日益成熟与文档,完全能够满足大型机构日常的采集需求。

我们在以下方面,获取到了第一手的实践经验:

1, 如何绕过被抓取网站的反抓取设置。
2, 如何存储大规模的抓取过来的图片信息。
3, 如何配制合适的采集任务调度。
4, 如何处理采集过程中,发生的各种异常。

。。。。

前段时间,我们抓取的中国象棋的相关新闻、图书、棋谱信息,我们使用Drupal实践了10万级别的数据抓取,程序运行稳定,性能良好。现在,我们突破了百万级数据。

即便是,在整个全球的Drupal社区,使用Drupal进行网页采集的应用,也少之又少,能够突破百万级别的,除了我们以外,还没有看到别的成功案例。我们在Drupal采集方面的实践,与中国的国情相结合,相信,通过发布免费的亚艾元网页采集器,将来会极大地推动,Drupal在中国市场的应用。

Drupal版本: 
论坛: 

把Drupal的网页采集技术放在优先位置

我有时候,在想这样的一个问题,什么样的Drupal技术,才能让我们得到更好的发展。普通的网站建设,技术含量太低,价格也太低;电子商务网站,我们帮助中华书局做完他们的网上书店以后,就基本上没有类似的实际项目了,Drupal7下,又有Ubercart和Commerce的竞争,不知道选择哪里;电子书技术,这个目标客户对象,又过于狭窄;微信开发,这个虽然时髦,潜在的用户也不少,但是随着时间的推移,微信只是Drupal下面的普通的一个模块,集成一下就可以了,我想来想去,觉得,最值得下功夫的是Drupal的网页采集抓取技术。

虽然,半年以前,我们便在Drupal网页采集技术上面,取得了重大的突破,但是我们缺少,实际项目的支撑。为了锻炼我们的采集技术,我们在内部,启动了两个抓取项目,一个是抓取中国象棋的棋谱、新闻资讯、图书等信息;一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集,在十万级别;而当当、京东的图书信息采集,则在百万级别。前者,已经采集成功,后者正在采集。

通过实际的项目锻炼,我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理,等多个方面,都积累了第一手的经验。最主要的,程序运行平稳、强劲。

Drupal版本: 
论坛: 

页面

Subscribe to Think in Drupal RSS