亚艾元Drupal网页采集器,开源免费版发布

下载地址: http://pan.baidu.com/s/1dDF1Dz7

欢迎大家试用,里面包含一个安装说明。Drupal网页采集利器,我们开发的第一个Drupal发行包。

亚艾元Drupal采集器,是由北京亚艾元软件有限责任公司开发的一款网页采集工具软件,本软件基于Drupal,属于基于Drupal定制的一个发行包。

发行包软件作者:老葛

软件遵守的开源协议:GPL

如果您有更多需求,可以通过购买亚艾元公司的相关服务,或取更多的专业支持。

声明:
基于本软件,您所产生的网页抓取行为,造成版权纠纷的,由您自己100%承担责任,与软件的开发者无关。

Drupal版本: 
论坛: 

Think in drupal免费源程序下载

Think in Drupal 目前提供5集,其中2,3集合并成为Drupal实战,已有机械工业出版社出版。对于每集里面的代码,我们都提供免费下载。

程序免费下载地址:

Drupal 实战 源代码下载

Think in drupal 第5集 源代码下载

Think in drupal 第4集 源代码下载

Drupal版本: 

图片的上下左右居中显示

想实现图片的上下左右居中显示,使用下面的代码:
#product-info .product-img{
padding:0px;
border: 1px solid #ddd;

width:200px;
line-height:200px;
height:200px;
vertical-align:middle;
text-align:center;
margin-left:1em;
}
#product-info .product-img img{
display:block;
margin:auto;
vertical-align: middle;
}
.product-img 是套在图片上面的div。
测试了很多次,左右居中很容易就实现了。
不过上下居中,始终不行。

后来将img自己的display:block;这个样式去掉,就解决了。

Drupal版本: 
论坛: 

Drupal采集模块介绍

想用Drupal采集插件,可以先下载一下亚艾元Drupal采集器发行版,装起来,就能用,里面有一个详细的文档。亚艾元Drupal采集器,采用标准的Drupal模块,完全开源,只不过为了支持中文采集,对模块个别地方坐了修改。
我们这里介绍一下,亚艾元Drupal采集器里面,用到的与采集相关的模块插件:

Drupal版本: 
论坛: 

Drupal网页采集成功突破百万级数据

2014年9月19日,我们的基于Drupal的图书信息采集系统,成功采集到了103万图书详细信息,这标志着我们基于Drupal开发的采集器系统,日益成熟与文档,完全能够满足大型机构日常的采集需求。

我们在以下方面,获取到了第一手的实践经验:

1, 如何绕过被抓取网站的反抓取设置。
2, 如何存储大规模的抓取过来的图片信息。
3, 如何配制合适的采集任务调度。
4, 如何处理采集过程中,发生的各种异常。

。。。。

前段时间,我们抓取的中国象棋的相关新闻、图书、棋谱信息,我们使用Drupal实践了10万级别的数据抓取,程序运行稳定,性能良好。现在,我们突破了百万级数据。

即便是,在整个全球的Drupal社区,使用Drupal进行网页采集的应用,也少之又少,能够突破百万级别的,除了我们以外,还没有看到别的成功案例。我们在Drupal采集方面的实践,与中国的国情相结合,相信,通过发布免费的亚艾元网页采集器,将来会极大地推动,Drupal在中国市场的应用。

Drupal版本: 
论坛: 

把Drupal的网页采集技术放在优先位置

我有时候,在想这样的一个问题,什么样的Drupal技术,才能让我们得到更好的发展。普通的网站建设,技术含量太低,价格也太低;电子商务网站,我们帮助中华书局做完他们的网上书店以后,就基本上没有类似的实际项目了,Drupal7下,又有Ubercart和Commerce的竞争,不知道选择哪里;电子书技术,这个目标客户对象,又过于狭窄;微信开发,这个虽然时髦,潜在的用户也不少,但是随着时间的推移,微信只是Drupal下面的普通的一个模块,集成一下就可以了,我想来想去,觉得,最值得下功夫的是Drupal的网页采集抓取技术。

虽然,半年以前,我们便在Drupal网页采集技术上面,取得了重大的突破,但是我们缺少,实际项目的支撑。为了锻炼我们的采集技术,我们在内部,启动了两个抓取项目,一个是抓取中国象棋的棋谱、新闻资讯、图书等信息;一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集,在十万级别;而当当、京东的图书信息采集,则在百万级别。前者,已经采集成功,后者正在采集。

通过实际的项目锻炼,我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理,等多个方面,都积累了第一手的经验。最主要的,程序运行平稳、强劲。

Drupal版本: 
论坛: 

Drupal培训班已累计10次

我们办的Drupal培训班,算下来,已经有10次了,在北京、上海、云南、山东,都留下了我们的身影。积累的很多的经验。

Drupal培训班,对我们来说,经济上,并没有获取到太多直接的收益,每次培训班,一个学员1500元,5天的课程,这个并不贵。很多网络课程,都是动辄上千元、上万元。我们现场演示的效果,帮助很多大学,单位,公司,个人,用起了Drupal,很多人,环境都装不起来,我们对于参加我们培训班的每个学员,都是手把手的帮助大家搭建环境,这些都是网络课程所不能比拟的。

场地费、学员的中午吃饭的费用、晚餐的费用,还有老师的讲课费、住宿费,把这些成本计算进去,就会真实感受到,我们培训班的货真价实。

能够举办这么多次的培训班,本身就是一种成功。就像老虎说的,要打出我们的声势来,通过培训班,我们没有赚到钱,声势有了,让更多的人了解到了我们团队的实力,项目也就有了。

现场的Drupal培训班,我们还是要办下去,在我们之前,从来没有哪家公司,办过这么多的Drupal培训班,这就是我们的特色。

2014年,下半年,我们将在广州、上海、北京,继续举办我们的Drupal培训班,除了Drupal基础与微信开发培训班以外,我们还将举办两次大数据的采集培训班,是的,我们在升级我们的培训课程,只有内容常新,才能吸引更多的听众。

Drupal版本: 
论坛: 

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)
一 培训目的

信息的发现 、选择、收藏、组织和分享是图情工作人员最重要的工作之一,尤其是在大数据时代,只有做好这方面的基础工作,才能满足领导的战略决策需要,满足教学科研的需要,满足读者个性化信息服务的需要。
在大数据时代,图书馆员只有快速的向数据科学家和领域专家转变,打破图书馆的传统边界,建立各种数据联盟,才能适应时代的发展。
大数据具有信息种类多,更新速度快,综合价值大等众多特性,如何精选真实、更有价值的信息,更快、更方便的采集、聚合各种信息,进而进行存储、分析是图情工作人员面临的重要挑战。
为此,特举办一系列大数据培训班:虚拟化及云计算、大数据采集、信息可视化、数据挖掘等,首先开办大数据采集培训班。
本次培训班将详细讲解Rss、Xpath ,Drupal 、Offline Explorer 、aTube Catcher 、Lucidworks等相关技术和专业软件使用。认真参加培训的老师,将能熟练的掌握数据采集的技巧,并熟悉数据挖掘的部分技能,为将来工作带来极大便利。
二 课程概述

Drupal版本: 
论坛: 

页面

Subscribe to Think in Drupal RSS