dede图片采集规则文章网址匹配规则 不能包含怎么为多项

您还可以使用以下方式登录
当前位置:&>&&>& > 织梦DedeCms采集规则教程_dedecms采集
织梦DedeCms采集规则教程_dedecms采集
本文话题:dedecms采集,教程,建站教程,CMS教程楚截图和文字分不清楚,因此用粉色背景来区分。第一步、确定采集的网站(我们以DEDE的官方站做为采集站做示范)Quote:/plus/list.php?tid=10第二步、确定被采集站的编码。打开被采集的网页之后,查看源代码(IE:查看 - & 源代码)在 之间找到 charset 这个,后面就显示网页的编码了,截图的是 “gb2312”第三步、采集列表获取规则写法来源网址写法 很明显pageno是表示分页页码 那么有多页列表的采集就要用“[var:分页]”来替换分页页码,截图如下/ plus/list.php?tid=10&pageno=[var:分页]文章网址需包含 网址不能包含 这两个一般不用写,用于采集列表范围有很多不需要的连接才用到他来做过滤使用。上面的网址并没有带有至于 为什么要在前面加上,这个就不要我说了吧。如果只有一个列表页,那么在来源网址就直接写上网址就OK了。注意这里,最关键就是这里。下面就是“采集获取文章列表的规则写法”,就是上面打开的被采集页面的源代码文件,找到文章列表之前 和本页面没有其他相同的代码在DedeCms官方站的列表页文章列表之前和之后最近的且没有相同的是“”和“ ”,分别写入“起始HTML”和“结束HTML”,写法看截图第四步、采集文章标题,文章内容,文章作者,文章来源等规则写法,分页采集等。“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”下面讲的是如何采集分页内容 看截图圈着的地方 截图文档是否分页 里面选择“全部列出的分页列表”“起始HTML”和“结束HTML”写法参考第三步中的“获取文章列表的规则写法”当然 上面这些不能用来采集带有视频的,因为已经过滤了,后面的四行是过滤掉视频的。
欢迎转载:
推荐:    温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!&&|&&
LOFTER精选
网易考拉推荐
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
阅读(3383)|
用微信&&“扫一扫”
将文章分享到朋友圈。
用易信&&“扫一扫”
将文章分享到朋友圈。
历史上的今天
loftPermalink:'',
id:'fks_080074',
blogTitle:'Dede如何采集分页内容? ',
blogAbstract:'来源:
{if x.moveFrom=='wap'}
{elseif x.moveFrom=='iphone'}
{elseif x.moveFrom=='android'}
{elseif x.moveFrom=='mobile'}
${a.selfIntro|escape}{if great260}${suplement}{/if}
{list a as x}
推荐过这篇日志的人:
{list a as x}
{if !!b&&b.length>0}
他们还推荐了:
{list b as y}
转载记录:
{list d as x}
{list a as x}
{list a as x}
{list a as x}
{list a as x}
{if x_index>4}{break}{/if}
${fn2(x.publishTime,'yyyy-MM-dd HH:mm:ss')}
{list a as x}
{if !!(blogDetail.preBlogPermalink)}
{if !!(blogDetail.nextBlogPermalink)}
{list a as x}
{if defined('newslist')&&newslist.length>0}
{list newslist as x}
{if x_index>7}{break}{/if}
{list a as x}
{var first_option =}
{list x.voteDetailList as voteToOption}
{if voteToOption==1}
{if first_option==false},{/if}&&“${b[voteToOption_index]}”&&
{if (x.role!="-1") },“我是${c[x.role]}”&&{/if}
&&&&&&&&${fn1(x.voteTime)}
{if x.userName==''}{/if}
网易公司版权所有&&
{list x.l as y}
{if defined('wl')}
{list wl as x}{/list}织梦Dedecms网站建设优化技巧大全
有回复时邮件通知我
关于本站免费(搜索引擎优化),主要涉及内容有、、以及等常见的站长基础知识。
记住我的登录信息
点击“立即注册”转到用户注册页面。
输入用户名或电子邮箱地址,您会收到一封新密码链接的电子邮件。
用户名或电子邮件地址当前位置: >>
织梦的采集教程,超级详细,一看就会
织梦的采集教程,超级详细, 【转】 织梦的采集教程,超级详细,一看就会 21:46转载自 分享 最终编辑 lxf621超级详尽的织梦采集教程 看到很多网友都为织梦(DEDE CMS)的采集教程头疼,的确,官方出的教程太笼统了,什 么都没说,换个网站你什么都做不了,这个教程是最详尽的教程,让你一看即会
首先我们打开织梦后台点击 采集――采集节点管理――增加新节点这里我们以采集普通文章为例,我们选择普通文章,然后确定我们进入了采集的设置页面,填写节点名称,就是给这个新节点取个名字,这里你可以任意 填写。 然 后 打 开 你 想 要 采 集 的 文 章 列 表 页 , 这 里 我 们 以 织 梦 官 网 为 例 /web-manage/jianzhanxinde/ 打开这个页面, 右键――查 看源文件 找到目标页面编码,就在 charset 后面 页面基本信息其他的一般就不用管了,填完了如图现在我们来填写列表网址获取规则 看 看 文 章 列 表 第 一 页 的 地 /web-manage/jianzhanxinde/list_49_1.html 对 比 第 二 页 的 地址 址/web-manage/jianzhanxinde/list_49_2.html 我们发现了他们除了49_后面的数字不一样,其他的都一样,所以我们可以这样写 /web-manage/jianzhanxinde/list_49_(*).html 就是把1换成了(*) 因为这里只有2页,所以我们就填从1到2 每页递增当然是1了,2-1...是等 于1吧 这 里 我 们 就 填 写 完 了可能大家采集的有些列表没有规则,那就只有手工指定列表网址了,如图每行写一个页面地址 列表规则写完了,我们就开始写文章网址匹配规则了,回到文章列表页 右键查看源文件 找到区域开始的 HTML,就是找文章列表开始的标志。 我们很容易的找到了如图中的“新闻列表” 。从这里开始,后面就是文章列表里 我们再找文章列表结束的 HTML就是这个了,一个很容易找到的标志如果链接中含有图片: 不处理 采集为缩略图 这里根据自己的需要选择对区域网址进行再次筛选: (使用正则表达式) 必须包含: (优先级高于后者) 不能包含: 打开源文件,我们可以很清楚的看到,文章链接都是以.html 结束的 所以,我们在必须包含后面填.html 如果遇到有些列表很麻烦,还可以填写后面的不能包含 我们点击保存设置进入下一步,可以看到我们获得的文章网址 看到这些就是对的了,我们保存信息进入下一步设置内容字段获取规则 设置内容字段获取规则 我们看看文章有没有分页,随便进入一篇文章看看。 。我们看到这里的文章没有分页 所以这里的我们就默认了我们现在来找文章标题等等 随便进入一篇文章,右键查看源文件看看这些 依 照 源 码 填 写我们再来填写文章内容的开始,结束 和上面的一样,找到开始和结束标志开始:结束:你想过滤文章中的什么内容就到过滤规则里写吧,比如要过滤文章中的图片选择常用规则 再勾选 IMG 然后确定 这样我们就把正文中的图片过滤了 设置完毕后点保存设置并预览这样一个采集规则就写好了,很简单吧有些网站很难写,可要多下点功夫了哦 我们点保存并开始采集――开始采集网页 一会的功夫就采集完了 我们看看我们采集到的文章456 看来是成功了,我们导出数据吧首先选择要导入到的栏目,按“请选择”那里即可在弹出的窗口中选择你需要导入的栏目发布 选项这里一般默认即可,除非你不想马上发布。每批导入默认是30条,这里修改与否都无所 谓,附带选项一般选“排除重复标题”,至于自动生成 HTML 那个选项建议先别生成,因为我 们还要去批量提取摘要和关键字。DedeCMS&织梦自带采集功能介绍之文章采集
  织梦CMS文章采集
  新建一个文章采集节点,后台——采集——采集节点管理——增加新节点,选择内容模型为普通文章。
  设置节点基本信息。目标源码同上篇文章所说,通过查看目标网站源代码后设置,区域匹配模式默认字符串,只有在字符串无法确定区域的时候才用正则表达式,不过一般都用不上。最后就是织梦cms采集的特点之一防盗链模式,如果目标网站有防盗链功能则开启次功能可以成功采集,但是会降低采集速度。次测试目标网站没防盗链功能,所以不开启。
  列表网站获取规则。同上篇文章分析,列表网址是有规律的可批量生成。这里要说下dedecms的强大之处,不仅获取列表网址的方式能灵活组合,而且如果目标网站整站使用的都是同一个模板,就可以启用“多栏目通配(#)”功能,通过设置后一个采集规则就可以采集整站并发布不同栏目了,而不需要一个栏目对应一个规则。
  文章网址匹配规则。查看目标列表页源代码,设置要采集文章网址区域的开始和结束的html(跟大家平时经常用的火车头采集规则是一样的),接下来又是dedecms特点之一,如果采集网址页面链接有图片可直接设置采集为缩略图,非常方便。对区域网址进行再次筛选功能也有特色,除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级。(再次筛选列表页网址,排除杂乱页面的影响)
  保存并测试,系统会应用前面的设置测试采集网址,完整无误后保存信息并进入下一步内容采集设置。
  网页内容获取规则。系统会默认一个采集url为预览网址,另外内容分页导航所在的区域匹配规则也很灵活,除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外,还多了一个“分页列表规则”。
  各字段内容采集,dedecms的内容匹配规则和phpcms一样:“起始无重复HTML[内容]结尾无重复HTML”,[内容]即为所采内容。过滤规则是{dede:trim
replace=""}规则{/dede:trim},多个规则的话一个一行,如果要替换成指定的值,则只要在replace=""的引号里设置即可。
  其中,内容摘要、关键字、缩略图系统会用正则进行自动匹配,我们只需设置过滤内容即可。其余字段分别设置匹配规则和过滤规则,系统同样自带了几个常用的过滤规则,但是点击“常用规则”后为弹出小窗口模式,稍微有点不方便。针对本测试的标题采集,以下两种方式都是可以的,如图:
  文章作者、文章来源和发布时间字段一样采集,但是此版本dedecms在这几个字段下没有“自定义处理接口”了,如果有的话会稍显灵活,例如设置固定值可直接用="固定值"”实现。现在不能用自定义处理接口设定固定值,也没有字段值设置,只能通过采集网页某一固定值然后用替换。如图:
  dedecms的文章内容采集非常强大,除了匹配规则和过滤规则,还有个“自定义处理接口”。如果你有php基础的话,可以通过此功能对采集结果@me进行各种处理,强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后,不能直接在采集管理处新增采集字段,只能在对应内容模型管理中增加字段,采集管理会自动增加。如小编在“普通文章”内容模型那增加了一个“chinaz字段”,则采集设置中自动增了一个“chinaz字段”项目。
  保存并测试,查看列表测试信息和网页规则测试,检查是否正确,无误后确定并开始采集。进入采集指定节点设置页面,因为小编之前有测试一遍,所以有60个历史种子网址,即小编之前已经采集了60个网址,另外还有几个选项大家按需求选择。
  点开始采集网页,出现此采集提示信息显示采集进度,不知道是小编人品不好还是dede采集本身缺点,经常会浏览器没反应,采集停止在那,只有手动点击了才会继续。
  采集完成后点右上角的“导出数据”,然后选择导出栏目,如果你在前面启用了“多栏目通配(#)”并指定了栏目ID,则要勾选此处的“批量采集选项”,其余选项根据自己需求选择,然后确定。如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站,否则就要先手动去生成。
  文章采集完成,看看效果:
已投稿到:
以上网友发言只代表其个人观点,不代表新浪网的观点或立场。}

我要回帖

更多关于 dede采集规则 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信