把Drupal的网页采集技术放在优先位置

g089h515r806 的头像
Submitted by g089h515r806 on 星期二, 2014-09-02 06:47

我有时候,在想这样的一个问题,什么样的Drupal技术,才能让我们得到更好的发展。普通的网站建设,技术含量太低,价格也太低;电子商务网站,我们帮助中华书局做完他们的网上书店以后,就基本上没有类似的实际项目了,Drupal7下,又有Ubercart和Commerce的竞争,不知道选择哪里;电子书技术,这个目标客户对象,又过于狭窄;微信开发,这个虽然时髦,潜在的用户也不少,但是随着时间的推移,微信只是Drupal下面的普通的一个模块,集成一下就可以了,我想来想去,觉得,最值得下功夫的是Drupal的网页采集抓取技术。

虽然,半年以前,我们便在Drupal网页采集技术上面,取得了重大的突破,但是我们缺少,实际项目的支撑。为了锻炼我们的采集技术,我们在内部,启动了两个抓取项目,一个是抓取中国象棋的棋谱、新闻资讯、图书等信息;一个就是抓取当当、京东的图书信息。

中国象棋的棋谱、新闻资讯的采集,在十万级别;而当当、京东的图书信息采集,则在百万级别。前者,已经采集成功,后者正在采集。

通过实际的项目锻炼,我们在采集任务的调度管理、如何绕过反抓取设置、文件的存储、采集异常的处理,等多个方面,都积累了第一手的经验。最主要的,程序运行平稳、强劲。

论坛:

Drupal版本:

Drupal培训班已累计10次

g089h515r806 的头像
Submitted by g089h515r806 on 星期二, 2014-09-02 06:04

我们办的Drupal培训班,算下来,已经有10次了,在北京、上海、云南、山东,都留下了我们的身影。积累的很多的经验。

Drupal培训班,对我们来说,经济上,并没有获取到太多直接的收益,每次培训班,一个学员1500元,5天的课程,这个并不贵。很多网络课程,都是动辄上千元、上万元。我们现场演示的效果,帮助很多大学,单位,公司,个人,用起了Drupal,很多人,环境都装不起来,我们对于参加我们培训班的每个学员,都是手把手的帮助大家搭建环境,这些都是网络课程所不能比拟的。

场地费、学员的中午吃饭的费用、晚餐的费用,还有老师的讲课费、住宿费,把这些成本计算进去,就会真实感受到,我们培训班的货真价实。

能够举办这么多次的培训班,本身就是一种成功。就像老虎说的,要打出我们的声势来,通过培训班,我们没有赚到钱,声势有了,让更多的人了解到了我们团队的实力,项目也就有了。

现场的Drupal培训班,我们还是要办下去,在我们之前,从来没有哪家公司,办过这么多的Drupal培训班,这就是我们的特色。

2014年,下半年,我们将在广州、上海、北京,继续举办我们的Drupal培训班,除了Drupal基础与微信开发培训班以外,我们还将举办两次大数据的采集培训班,是的,我们在升级我们的培训课程,只有内容常新,才能吸引更多的听众。

论坛:

Drupal版本:

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)

g089h515r806 的头像
Submitted by g089h515r806 on 星期二, 2014-09-02 05:42

2014.10上海大数据采集培训班(培训地点:上海图书馆教育培训中心)
一 培训目的

信息的发现 、选择、收藏、组织和分享是图情工作人员最重要的工作之一,尤其是在大数据时代,只有做好这方面的基础工作,才能满足领导的战略决策需要,满足教学科研的需要,满足读者个性化信息服务的需要。
在大数据时代,图书馆员只有快速的向数据科学家和领域专家转变,打破图书馆的传统边界,建立各种数据联盟,才能适应时代的发展。
大数据具有信息种类多,更新速度快,综合价值大等众多特性,如何精选真实、更有价值的信息,更快、更方便的采集、聚合各种信息,进而进行存储、分析是图情工作人员面临的重要挑战。
为此,特举办一系列大数据培训班:虚拟化及云计算、大数据采集、信息可视化、数据挖掘等,首先开办大数据采集培训班。
本次培训班将详细讲解Rss、Xpath ,Drupal 、Offline Explorer 、aTube Catcher 、Lucidworks等相关技术和专业软件使用。认真参加培训的老师,将能熟练的掌握数据采集的技巧,并熟悉数据挖掘的部分技能,为将来工作带来极大便利。
二 课程概述

论坛:

Drupal版本:

2014年9月22-26日华南农业大学图书馆 Drupal及微信开发培训班通知

g089h515r806 的头像
Submitted by g089h515r806 on 星期二, 2014-09-02 05:40

一、培训目的

Drupal 软件是世界上最先进的开源内容管理系统之一,由于功能强大,还被称作网站操作系统。Drupal有2万多个模块,2万多个活跃开发者。Drupal在信息的创建、组织、管理、协作、互联、设计、展示及可扩展方面具有无与伦比的优势。各行各业的顶尖用户都在用Drupal。

国内外知名图书馆都在使用Drupal构建自己的门户网站(北大 、清华、哈佛、耶鲁、康奈尔、普渡、杜克大学等图书馆,详细清单http://blog.sina.com.cn/s/blog_50b312bf0101fe8r.html),利用Drupal,图情单位可以很方便的构建图书馆门户网站(含移动开发应用)、学术主题博客、学位论文管理、图书馆MOOC、开放学术社区、机构仓储等信息系统,并可以进行大数据、语义网等方面的研究。

微信做为中国大陆最流行的SOLOMO(社会性、本地性、移动性)应用,在日常生活,电子商务等众多方面越来越离不开。当世界上最强大的内容管理系统和中国大陆最流行的移动应用相结合,真是有无限可能可实现。
为了促进图情界信息系统开发水平,紧跟国内外图书馆先进技术发展步伐,邀请国内顶尖Drupal开发专家开展图情行业的Drupal培训。

论坛:

Drupal版本:

公司招聘了两名实习生

g089h515r806 的头像
Submitted by g089h515r806 on 星期二, 2014-09-02 05:39

2014年7月,我们招聘两名实习生,相继招聘过来的。虽然一个实习生,在暑期过后,已经离去,但是,这对于公司来说,却意味着一个新的开端。

公司,从2013年1月成立以来,一直没有招聘过人员,我们一直在为存活下去努力着,因为没有足够的人手,Drupal项目来了,我们消化不了。Drupal项目中断了,又不知道等到下一个项目需要什么时候。这是没有人员储备的一个限制。

如果要发展,必然需要建立一个Drupal团队,这是必须经过的一个过程。对我们来说,这个没有什么经验,当我们真的需要建立一个这样的团队的时候,很多问题就会接踵而来。

我们要面临,人才的培养,人才的流动,人多了,各种问题也会出现。对我们来说,这是学习的过程。

如果能够解决,这些矛盾,我们就能建立一个小一点的Drupal团队,一个4-5人的专职的团队的建立,对现在的我们,也是一个挑战。因为在此以前,我们从未组建过一个这样的团队。

这是一个好的开端。它使得我们看起来,更像一个公司,只是小一点罢了。

论坛:

Drupal版本:

Registry rebuild

g089h515r806 的头像
Submitted by g089h515r806 on 星期三, 2014-08-06 03:35

有时候迁移网站,网站的目录结构发生了变化,比如,原来sites/example.com/modules这样的目录,我们在本地的时候,将它存储到了sites/all/modules目录下面。
这个时候,网站迁移过来,就无法工作,因为registry,registry_file表里面的数据,存储的还是原来的,我们需要Registry rebuild一下。这个不是一个模块,https://www.drupal.org/project/registry_rebuild
将它下载下来,解压缩,放在sites/all/modules下面,运行
http://localhost/german/sites/all/modules/registry_rebuild/registry_rebu...
german是这里Drupal网站的目录。
运行后,显示这样的信息:

论坛:

Drupal版本:

2014.8.18-2014.8.22 北京Drupal基础及移动开发(含微信开发)培训班通知

g089h515r806 的头像
Submitted by g089h515r806 on 星期一, 2014-08-04 08:38

一 培训目的

Drupal是世界上最先进的开源内容管理系统或内容管理框架之一,利用Drupal多达20000多个模块,可以很方便的构建门户网站,社交网络,电子商务,移动开发应用、数字出版、内部办公系统。目前在中国大陆各行业已经有典型的案例:

1 出版发行行业

外语教学研究出版社包含官网http://www.fltrp.com(link is external)在内30多个网站都是用的Drupal构建

中华书局网上书店http://www.crbook.cn(link is external)

万方数据即将上线的数字出版系统

2 教育行业

北京大学图书馆 http://www.lib.pku.edu.cn/portal/(link is external)

清华大学图书馆网站http://lib.tsinghua.edu.cn/dra/(link is external)

清华大学图书馆移动应用程序:清图助手

https://itunes.apple.com/cn/app/qing-tu-zhu-shou/id685415766(link is external)

论坛:

Drupal版本:

清除mysql的 mysql-bin.000001日志文件

g089h515r806 的头像
Submitted by g089h515r806 on 星期一, 2014-08-04 08:31

早上起来,朋友通过QQ告诉我,网站thinkindrupal.com,还有yaiyuan.com访问不了,到了公司,第一件事情,就是检查原因。
首先是使用df –h,查看磁盘空间的使用情况,发现/alidata目录空间用完了,我用的阿里云主机。再进一步的追查,原来是mysql的原因,再 往下,发现是mysql的日志文件,占去了大部分空间。
网上找的办法:
3、清除办法

运行 /usr/local/mysql/bin/mysql -u root -p 登录执行:

复制代码代码如下:

reset master;

如果你只有一个mysql服务器,在/etc/ 下面找到my.cnf文件vim /etc/my.cnf把里面的

复制代码代码如下:

#log-bin=mysql-bin

#binlog_format=mixed

这两行注释掉,然后将mysql下的var目录中的这些日志文件全部删除,重启mysql服务即可。

论坛:

Drupal版本:

页面

Subscribe to Think in Drupal RSS