找回密码
 注册
查看: 882|回复: 0

PHPCMS 、帝国及织梦对比分析(十一)之采集功能

[复制链接]
发表于 2011-9-4 11:39:40 | 显示全部楼层 |阅读模式
提到采集,有些站长抛出鄙夷的眼神,而似乎大部分站长都会觉得是CMS的标配。在落叶看来采集只是一个功能,一个工具,关键看是采什么,采来后做什么,怎么处理采来的内容。大家都知道火车头,一般基本用来采文章,但落叶经常用来采集邮箱,CMS间导数据,基至都用来采过QQ号。火车头的整套流程即使对采集规则了解不多,也很方便来采文章,那么相较之于这种客户端软件,主流CMS中的采集模块,有哪些优缺点呢?  
本文中落叶对PHPCMS、帝国CMS及DEDECMS的采集功能作些对比,同时也对采集流程细节作些需求分析。  
我们知道,通常的采集流程都是通过列表页分页批量获取内容页网址,然后对内容页分析,获取内容标题、文章内容等信息,因为各目标站的结构不同,采集规则会不同,CMS不可能也不会提供通用的采集规则,那么要考量一款CMS采集模块是否好用基本是由整个采集任务设置流程的易用性、采集的稳定性与效率、采集完入库方便性等方面决定。  
1.采集设置流程:  
整体体验:  
PHPCMS的任务添加流程中直接在TAB菜单的形式列出来网址采集、内容规则设置、高级设置三步骤,每一步中的结构都和火车头比较像,对火车头采集的比较熟悉用户会觉得PHPCMS的采集设置比较明了。DEDE中流程类似,只是没有直接将几步列出,后一步的设置的前提是前一步设置正确。帝国CMS中则是希望用户一口吃饱,从上至下把需要的信息全部列出来。  
其实整体都基本三步,没有太明显的区别是,只是三者表现方式的不同给用户的心理感受是不同的。PHPCMS简洁明了,让用户觉得采集很简单,三下两下就设置好了,新手愿意去尝试。帝国CMS中用户一进入采集设置界面顿感压力,页面一直下拖,这么多设置项,首先想到的是“算了,换别的采集”,“这么多填到什么时候,填完了能不能提交还是一回事”,而DEDECMS中把采集过程和设置流程整合起来,优点时可以保证每一步都设置正确,但对采集比较熟悉的用户而言,效率偏低,每次都得POST提交一次测试一次。  
网址采集:  
PHPCMS网址采集通过列表页分页通配符实现列表页网址批量添加,然后设置所需采集的网址区域,很多时候,对不熟悉HTML采集规则查找技巧的朋友可以通过直接设置“网址中必须包含”和“网址中不得包含”这两项来实现内容页网址的采集。DEDECMS也用*作分页通配符,不过DEDE中的优点在于可以启用多栏目通配规则,针对不同的栏目页批量设置采集规则,这样可以方便对有相同URL规则的多个栏目同时采集。帝国中则也只是一般的以
您需要登录后才可以回帖 登录 | 注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|Archiver|手机版|小黑屋|鼠窝站长论坛

GMT+8, 2024-12-30 02:09 , Processed in 0.047058 second(s), 16 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表