GVKun编程网logo

织梦CMS用火车头采集分页教程(织梦火车头采集规则教程)

14

对于织梦CMS用火车头采集分页教程感兴趣的读者,本文将会是一篇不错的选择,我们将详细介绍织梦火车头采集规则教程,并为您提供关于(仿)火车头采集器源码开源、dedecms火车头无法采集怎么解决、Dede

对于织梦CMS用火车头采集分页教程感兴趣的读者,本文将会是一篇不错的选择,我们将详细介绍织梦火车头采集规则教程,并为您提供关于(仿)火车头采集器 源码开源、dedecms火车头无法采集怎么解决、DedeCMS用火车头自动发布文章并更新HTMl、DedeCMS用火车头自动发布新闻并更新HTMl的有用信息。

本文目录一览:

织梦CMS用火车头采集分页教程(织梦火车头采集规则教程)

织梦CMS用火车头采集分页教程(织梦火车头采集规则教程)

 

*步,编辑任务,切换到“采集内容规则”标签,选中“内容”,点击修改,勾选上“该标签在分页中匹配”,很多人没有采集到分页就是因为少了这一步。

织梦CMS用火车头采集分页教程

第二步,找到下面的“分页获取规则”,选择“全部列出模式”,然后填写“分页URL提取区域”,并选择“自动识别”。

织梦用火车头采集分页教程

第三步,切换到“标签循环处理”,在“分页内容连接代码”里填写“”。

织梦用火车头采集分页教程

通过采集测试,我们可以看到,分页的内容可以采集了,同时分页处自动加上了织梦的分页标签。

织梦用火车头采集分页教程

本文章网址:http://www.ppssdd.com/code/12047.html。转载请保留出处,谢谢合作!

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

菜鸟作品,不喜勿喷

前两年自己花了很久想仿制一款火车头采集器

然后也付出了很多努力,最终未能修成正果

代码一直在电脑中吃灰,本着无私奉献的精神

免费开源,给有需要的人参考和完善

软件功能大部分都已实现

  • 任务新建和编辑
  • 网址采集
  • 标签编辑
  • 数据采集
  • 数据发布
  • 发布配置的修改,编辑和测试
  • 发布模块的修改和编辑

 

 

先上一些效果图

运行效果

主窗口

 

 

任务窗口

 

 

 

采集内容

 

 

 

网址采集

 

 

 

发布选择

 

 

多级网址采集

 

浏览器获取信息

 

标签编辑(这个部分耗时比较久)

 

 

 

接下来是发布部分

 

发布配置

 

 

 

发布模块

 

发布测试

 

 

 

开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)

5.23
[窗口]主界面布局
[窗口]信息提示窗口
 
 
5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善
 
 
5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件
 
5.26
[优化]分组增删改重写,改用sqlite3
 
 
5.27
 [窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)
 
5.28
 [控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成
 
5.29
 [优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取
 
5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正
 
5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)
 
6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)
 
6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址
 
6.4-6.9暂停开发六天
 
6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成
 
6.12
-16[辅助]xml生成实体类工具开发
 
6.17
暂停一天
 
6.18
[窗口]多页管理实现
 
6.19
[窗口]标签编辑基本布局
 
6.20
[新增]标签处理列表读取
 
6.21-6.22
[优化]部分标签处理编辑
 
6.24
[优化]除ocr外所有标签读取编辑保存
[优化]固定格式读取,测试 
后面懒得写了
分页采集 拼音处理 翻译 开发细节 多页名称禁用 分页\d
 
 
2018-07-06
[修复]支持多页保存
[新增]支持新增标签
[优化]新建任务自带标签
[优化]制作启动欢迎页,改用本地文件,避免突然失效
[优化]添加多级网址采集部分的标签存在检测和标签不存在检测
 
2018-07-07
[修复]规则没有默认值引起的错误
[修复]批量多页导入没有解码
[新增]起始网址支持编辑
 
2018-07-08
[优化]保存任务时的各种参数赋值
[修复]编辑任务时多级网址不存在而引发的错误
 
2018-07-09
[新增]支持任务新增和保存
[修复]修复添加标签处理时覆盖旧的处理
[优化]保存最近测试的网址
 
2018-07-12
[优化]任务编辑界面循环匹配换行功能
[修复]标签不存在引起的错误
[修复]多次保存任务导致的重复编码问题
[修复]单条起始网址无法编辑的问题
[修复]没有多级网址无法获取网址列表的问题
 
2018-07-15
[新增]循环标签添加为新记录,循环不足第一条记录补齐
[优化]标签编辑中保存文件名,保存目录和系统时间高亮显示
[修复]循环获取和非循环获取同时存在时的逻辑
 
2018-07-16
[优化]将标签测试代码移植到类中,方便后期调用
[新增]标签下载的各项功能实现
 
2018-07-17
[新增]下载部分布局
[优化]重写http请求全部代码,实现代理功能
[优化]增加默认页重试
 
2018-07-18
[新增]增加标签保留字段,禁止用户使用
[优化]重写网址爬取,实现类中爬取网址
[新增]实现列表标签
[新增]实现标签排序
[新增]支持开始任务,结束任务
[新增]支持任务抓取网址
[优化]禁止关闭欢迎窗口
[优化]采集网址进度展示
[优化]开启任务或结束任务时判断是否已存在
 
2018-07-19至21
[新增]实现数据库转换功能
[优化]支持access,sqlite,mysql,sqlserver
 
2018-07-25
[新增]实现采集网址,统计网址数量
[新增]实现采集待采集单条内容,录入更新至数据库
[修复]保存任务,任务状态丢失
[修复]标签自动获取内容选项具体配置丢失
[优化]提升控件速度
[修复]多次开始并停止内容时注册多次事件
[优化]每次开始任务时重新读取配置
 
2018-07-26
[修复]固定标签内容为空
[新增]标签结果检测
[新增]内容多线程采集
 
2018-07-27
[优化]实现标签的内容过滤(标签不得为空,包含,不得包含,重复检测,长度判断等)
[优化]实现一个网址多条结果的采集并录入数据库
[新增]实现采集完成后提示
 
2018-10-06
[修复]网址自定义规则存在多个标签时的错误
[优化]保存存在错误时,自动跳转对应界面
[修复]匹配时可能会有多种换行符的问题
[修复]采集网址时支持填写多个标签
[修复]采集网址时自动增减标签 
[新增]增加标签名导出功能
 
2018-10-09
[新增]支持文件发布
[优化]过滤保存文件时路径或文件名包含特殊字符
[优化]实现发布时进度条
[新增]支持设置发布状态,发布成功自动标注(支持全部成功才标记)
[新增]支持全部标记为已发和未发
 
2018-10-24
[新增]新增数据发布配置界面布局
 
2018-11-26
[新增]发布模块配置界面
[新增]支持加载发布模块
[新增]新增点选菜单控件
[优化]代码框支持插入标签
 
2018-11-27
[优化]支持新增和修改发布模块
[优化]支持带有密码的火车头模块和GAC模块
[优化]发布配置支持读取模块列表,支持点击编辑模块
 
2018-11-29
[优化]发布配置管理支持读取数据库中的配置
[优化]可以通过微型浏览器获取cookies
[优化]发布配置可以修改和保存
[优化]重写发布配置方面XML操作方式
[优化]重写发布模块的XML读写方式
 
2018-11-30
[优化]支持编辑和删除发布配置信息
[新增]webpost可测试发布
[新增]支持测试发布模块和配置
[优化]测试标签自动保存,方便下次测试
[优化]登陆后的cookies进行保存
[优化]发布模块支持导入,导出,删除
至此,发布模块编辑,发布配置全部完毕
 
2018-12-01
[新增]规则编辑支持导入发布模块中的标签
[新增]规则编辑支持添加发布配置,删除,修改配置
 
2018-12-03
[新增]支持测试页面测试web发布
[优化]修改web发布,迎合通用发布接口,使其可以实现正常发布内容
[修复]列表标签编辑后成为标签的bug
[优化]优化必须包含和不得包含返回结果,迎合测试日志
 
2018-12-21
[优化]修改采集规则和标签规则迎合插件
[优化]修改下载列表迎合插件
[优化]修改采集迎合插件
 
2018-12-24
[优化]迎合插件合并网址采集和内容采集
[修复]采集网址列表时,范围不支持(*)的bug
[优化]迎合插件重写采集网址部分
 
2019-01-07
[修复]多个多级网址,会让列表标签消失
[修复]无法取消插件选择的情况
[优化]迎合插件网址获取结果改为List<KeyValuePair<string, Dictionary<string, string>>>
[修复]采集网址时,不是最后一层也入库的情况
[修复]未勾选采内容依旧采集内容的情况
[修复]列表标签多级继承

 

最后的最后,代码下载地址

链接: https://pan.baidu.com/s/1oyzO-Cnc_YS23svI9QiFYg 提取码: nu4n 

代码未完全完成,测试时发现的bug均已全部修复

由于代码未进行大量测试,可能还存在过多问题,望见解

新手开发,仅供参考

 

dedecms火车头无法采集怎么解决

dedecms火车头无法采集怎么解决

dedecms无法采集解决方法:1、尝试使用代理服务器,隐藏真实的ip地址,绕过服务器的限制;2、修改采集规则,使其适应页面的新结构;3、通过dedecms提供的“采集规则”功能或者手动添加代码的方式进行设置;4、使用浏览器的开发者工具,检查页面结构和网络请求,帮助分析问题所在;5、联系dedecms官方或者相关的技术支持人员。

dedecms火车头无法采集怎么解决

本教程操作环境:windows10系统、dedecms5.7版本、DELL G3电脑。

dedecms作为一款非常受欢迎的建站系统,具有强大的功能和灵活的扩展性。然而,在使用dedecms进行采集时,有时会遇到一些问题。其中最常见的问题之一就是无法正常进行采集。那么,这种情况下应该怎么办呢?

首先,我们需要了解一些导致无法采集的可能原因。

常见的原因包括:网站服务器有限制、页面结构变化、采集规则设置不正确等。接下来,我们将针对这些原因逐一进行讨论,并提供相应的解决方案。

1、如果网站服务器对采集有限制,我们可以尝试使用代理服务器。代理服务器可以帮助我们隐藏真实的IP地址,绕过服务器的限制。我们可以通过设置代理服务器的方式,让dedecms使用代理进行采集。可以选择一些稳定的代理服务供应商,确保采集的顺利进行。

2、有时页面结构会发生变化,导致dedecms无法正确解析页面数据。这时,我们需要修改采集规则,使其适应页面的新结构。可以通过检查页面源代码,找出页面元素的改变,并相应地修改dedecms的采集规则。这就需要一些对HTML、CSS、XPath等知识的了解,以便能够准确地定位页面元素。

3、采集规则设置不正确也是导致无法采集的常见问题之一。在设置采集规则时,我们需要仔细分析目标网站的页面结构和数据特点,合理地设置规则。可以通过dedecms提供的“采集规则”功能或者手动添加代码的方式进行设置。在设置规则时,需要注意选择正确的数据类型,设置正确的正则表达式和XPath表达式,以确保能够正确地提取所需的数据。

4、还可以考虑使用一些辅助工具来辅助采集。例如,可以使用浏览器的开发者工具,检查页面结构和网络请求,帮助分析问题所在。也可以使用一些第三方插件或者脚本,帮助自动化采集。

5、如果以上的方法都无法解决问题,我们可以尝试联系dedecms官方或者相关的技术支持人员。他们可能会有更专业的解决方案或者提供更及时的支持。

总之,dedecms无法采集的问题可能会让人感到头疼,但是通过一些合理的解决方法,我们通常可以克服这些问题。需要注意的是,在进行采集时,要合法合规,尊重他人的权益,遵守相关法律法规。只有合法合规的采集才能提高效率,保障网站的稳定运营 。

以上就是dedecms火车头无法采集怎么解决的详细内容,更多请关注php中文网其它相关文章!

DedeCMS用火车头自动发布文章并更新HTMl

DedeCMS用火车头自动发布文章并更新HTMl

DEDE使用火车采集器实现的自动实时发布文章和更新HTMl的功能。
 
一,为什么有这个想法: 
 
使用火车发布文章,有三大不足。 
需要登陆发布,受DEDE系统限制太大 
就是一次发布的数量有限制,可能造成一次性发布太多遭K的恶果 
如果网站首页是静态文件,则不能更新首页,用户就不知道网站的更新情况 
如果没有一台可以一直运行的服务器,使用火车采集器的自动更新功能就不太现实 
火车采集器的自动更新功能是收费的,呵呵。 
自己需要咯,想挑战一下自己咯等。
 
二,Do it. 
 
首先想到,让火车发布大量数据,且将文章属性设置为未审核状态,这个问题很简单,使用DEDEv5.3.1时却遇到DEDE的一个Bug。就是未审核的文章居然会在前台显示。先是对DEDE一气臭骂,后来找了一些原因,发现了DEDEv5.3.1中的一个Bug.经修复后可以实现未审核的文章不在前台显示。1月13号到DEDE报告Bug以后,1月14号DEDE出的补丁中修复了这个问题,呵呵,所以,1月15号,就是今天咯,开始正式整理此开发文档。 
实际发现,发布和保存大量未审核文章不成问题,难在如何实现随机激发发布功能。想了很久,觉得使用时间限制最好。当前台JS调用了审核文章的链接,传递一个访问用户的信息,程序取得用户的IP并保存为SESSION信息,此时,审核一篇文章并生成文章与首页静态文件。一个用户在一定的时间内,只能激活限定数量的文章,且,发布时使用此用户的IP信息,呵,挺个性的。 
激活文章,生成文章静态页和首页静态文章,受网站模板的影响,可能会比较慢,则会出现首页未生成完页面就被关闭的问题。所以,最好的办法是,在发布时文章时就生成文章静态文件,然后把文章设置为未审核状态。激活文章时则只需要很短的查询。首页或者列表页尽量使用动态页,这两个问题不好处理,只能以此法代之。 
完整的过程就是,发布文档时,将文档设置为未审核状态;调用程序时,先判断上一次查询的缓存有没有超时,如果超过缓存时间,则清除缓存,以显示最新的文章。清除缓存以后,查询出一定数量属性为未审核的文档,将Archives和Arctiny表中的未审核属性取消,并更新一下文档的Pubdate字段,实现一点随机化。最后写入缓存,禁止缓存有效期内的重复更新!
 
三,文件使用方法: 
 
发布文档时请把文档属性设置为未审核状态,即发布时提交的文档属性参数为:arcrank=-1,这时为动态浏览; 
如果你想生成静态文档,请将文档状态设置为正常浏览状态,即arcrank=0;然后修改默认文档添加程序。 
如:arcticle_add.PHP,在文件最下边“//生成HTML”处添加一段代码: 
 
//生成HTML 
InsertTags($tags,$arcID); 
$artUrl = MakeArt($arcID,true,true); 
 
if($artUrl=='') 
$artUrl = $cfg_PHPurl."/view.PHP?aid=$arcID"; 
$dsql->ExecuteNoneQuery("UPDATE `cmsxx_archives` SET `arcrank`='-1' WHERE (`id`='$arcID');"); 
$dsql->ExecuteNoneQuery("UPDATE `cmsxx_arctiny` SET `arcrank`='-1' WHERE (`id`='$arcID');"); 
 
然后,上传New.PHP到你的网站根目录,到Dede后台设置系统基本设置中,将性能选项卡中的arclist标签调用缓存时间设置为一个合适的数,如3600表示一个小时刷新一次缓存。 
最后,在模板文件顶部调用一段代码即可: 

总结

以上是小编为你收集整理的DedeCMS用火车头自动发布文章并更新HTMl全部内容。

如果觉得小编网站内容还不错,欢迎将小编网站推荐给好友。

DedeCMS用火车头自动发布新闻并更新HTMl

DedeCMS用火车头自动发布新闻并更新HTMl

 

DEDE使用火车采集器实现的自动实时发布新闻和更新HTMl的功能。

 

一,为什么有这个想法: 

 

使用火车发布新闻,有三大不足。 

需要登陆发布,受DEDE系统限制太大 

就是一次发布的数量有限制,可能造成一次性发布太多遭K的恶果 

如果网站首页是静态文件,则不能更新首页,用户就不知道网站的更新情况 

如果没有一台可以一直运行的服务器,使用火车采集器的自动更新功能就不太现实 

火车采集器的自动更新功能是收费的,呵呵。 

自己需要咯,想挑战一下自己咯等。

 

二,Do it. 

 

首先想到,让火车发布大量数据,且将新闻属性设置为未审核状态,这个问题很简单,使用DEDEv5.3.1时却遇到DEDE的一个Bug。就是未审核的新闻居然会在前台显示。先是对DEDE一气臭骂,后来找了一些原因,发现了DEDEv5.3.1中的一个Bug.经修复后可以实现未审核的新闻不在前台显示。1月13号到DEDE报告Bug以后,1月14号DEDE出的补丁中修复了这个问题,呵呵,所以,1月15号,就是今天咯,开始正式整理此开发文档。 

实际发现,发布和保存大量未审核新闻不成问题,难在怎么实现随机激发发布功能。想了很久,觉得使用时间限制*好。当前台JS调用了审核新闻的链接,传递一个访问用户的信息,程序取得用户的IP并保存为SESSION信息,此时,审核一篇新闻并生成新闻与首页静态文件。一个用户在一定的时间内,只能激活限定数量的新闻,且,发布时使用此用户的IP信息,呵,挺个性的。 

激活新闻,生成新闻静态页和首页静态新闻,受网站源码的影响,可能会比较慢,则会出现首页未生成完页面就被关闭的问题。所以,*好的方案是,在发布时新闻时就生成新闻静态文件,然后把新闻设置为未审核状态。激活新闻时则只需要很短的查询。首页或者栏目页尽量使用动态页,这两个问题不好处理,只能以此法代之。 

完整的过程就是,发布文档时,将文档设置为未审核状态;调用程序时,先判断上一次查询的缓存有没有超时,如果超过缓存时间,则清除缓存,以显示*新的新闻。清除缓存以后,查询出一定数量属性为未审核的文档,将Archives和Arctiny表中的未审核属性取消,并更新一下文档的Pubdate字段,实现一点随机化。*后写入缓存,禁止缓存有效期内的重复更新!

 

三,文件使用办法: 

 

发布文档时请把文档属性设置为未审核状态,即发布时提交的文档属性参数为:arcrank=-1,这时为动态浏览; 

如果你想生成静态文档,请将文档状态设置为正常浏览状态,即arcrank=0;然后修改默认文档添加程序。 

如:arcticle_add.php,在文件*下边“//生成HTML”处添加一段代码: 

 

//生成HTML 

InsertTags($tags,$arcID); 

$artUrl = MakeArt($arcID,true,true); 

 

if($artUrl=='') 

$artUrl = $cfg_phpurl."/view.php?aid=$arcID"; 

$dsql->ExecuteNoneQuery("UPDATE `cmsxx_archives` SET `arcrank`='-1' WHERE (`id`='$arcID');"); 

$dsql->ExecuteNoneQuery("UPDATE `cmsxx_arctiny` SET `arcrank`='-1' WHERE (`id`='$arcID');"); 

 

然后,上传New.php到你的网站根目录,到Dede后台设置系统基本设置中,将性能选项卡中的arclist标签调用缓存时间设置为一个合适的数,如3600表示一个小时刷新一次缓存。 

*后,在源码文件顶部调用一段代码即可: 

“ <script type=”text/javascript” src=http://www.dede58.com/a/dedejq/”{dede:global.cfg_cmsurl/}/new.php”></script> ”。 

支持的参数: 

no=每次随机更新的数量,为空时默认为5; 

typeid=栏目ID,为空则是全站数据 

order=排序方式,支持Desc:倒序,Asc:顺序,Rand:随机,默认为随机查询。 

如:“ <script type=”text/javascript” src=http://www.dede58.com/a/dedejq/”{dede:global.cfg_cmsurl/}/new.php?no=100&typeid=2&order=desc”></script> ” 

排序为Desc的时候,是按先发布的新闻先审核的方式进行发布的,Asc反之,Rand为随机。 

四,这是我们在数据处理方面做的一个尝试,也许这种新的模式会是一次突破。祝大家使用愉快。有Bug或者建议请回复于后。 

本文章网址:http://www.ppssdd.com/code/4730.html。转载请保留出处,谢谢合作!

关于织梦CMS用火车头采集分页教程织梦火车头采集规则教程的介绍现已完结,谢谢您的耐心阅读,如果想了解更多关于(仿)火车头采集器 源码开源、dedecms火车头无法采集怎么解决、DedeCMS用火车头自动发布文章并更新HTMl、DedeCMS用火车头自动发布新闻并更新HTMl的相关知识,请在本站寻找。

本文标签: