GVKun编程网logo

火车头采集器免登录采集数据发布到DEDECMS的办法(火车头采集器发布教程)

23

想了解火车头采集器免登录采集数据发布到DEDECMS的办法的新动态吗?本文将为您提供详细的信息,我们还将为您解答关于火车头采集器发布教程的相关问题,此外,我们还将为您介绍关于(仿)火车头采集器源码开源

想了解火车头采集器免登录采集数据发布到DEDECMS的办法的新动态吗?本文将为您提供详细的信息,我们还将为您解答关于火车头采集器发布教程的相关问题,此外,我们还将为您介绍关于(仿)火车头采集器 源码开源、dedecms 模板 手把手教你使用DedeCms的采集的图文教程、DedeCMS 采集更改为当前审查时间的办法、dedecms火车头无法采集怎么解决的新知识。

本文目录一览:

火车头采集器免登录采集数据发布到DEDECMS的办法(火车头采集器发布教程)

火车头采集器免登录采集数据发布到DEDECMS的办法(火车头采集器发布教程)

 

将dede/config.php中的下面代码:

//检验用户登录状态   $cuserLogin = new userLogin(); if($cuserLogin->getUserID()==-1) { header("location:日志in.php?gotopage=".urlencode($dedeNowurl)); exit(); }  



修改为:

 

//检验用户登录状态 $cuserLogin = new userLogin(); if($cuserLogin->getUserID()==-1) { if($my_u != '') { $res = $cuserLogin->checkUser($my_u,$my_p); if($res==1) $cuserLogin->keepUser(); } if($cuserLogin->getUserID()==-1) { header("location:日志in.php?gotopage=".urlencode($dedeNowurl)); exit(); } }  



然后火车头发布模块修改为

article_add.php?my_u=你后台用户名&my_p=你后台密码

本文章网址:http://www.ppssdd.com/code/10221.html。转载请保留出处,谢谢合作!

(仿)火车头采集器 源码开源

(仿)火车头采集器 源码开源

菜鸟作品,不喜勿喷

前两年自己花了很久想仿制一款火车头采集器

然后也付出了很多努力,最终未能修成正果

代码一直在电脑中吃灰,本着无私奉献的精神

免费开源,给有需要的人参考和完善

软件功能大部分都已实现

  • 任务新建和编辑
  • 网址采集
  • 标签编辑
  • 数据采集
  • 数据发布
  • 发布配置的修改,编辑和测试
  • 发布模块的修改和编辑

 

 

先上一些效果图

运行效果

主窗口

 

 

任务窗口

 

 

 

采集内容

 

 

 

网址采集

 

 

 

发布选择

 

 

多级网址采集

 

浏览器获取信息

 

标签编辑(这个部分耗时比较久)

 

 

 

接下来是发布部分

 

发布配置

 

 

 

发布模块

 

发布测试

 

 

 

开发日志(当时手机记录的,比较长,可跳过,下载地址在最后)

5.23
[窗口]主界面布局
[窗口]信息提示窗口
 
 
5.24
[窗口]任务分组列表
[新增]任务列表实现保存和读取
[优化]主界面窗口尺寸自适应完善
 
 
5.25
[新增]分组增加,删除以及修改功能实现,已xml文本形式保存文件
 
5.26
[优化]分组增删改重写,改用sqlite3
 
 
5.27
 [窗口]采集任务第一步布局
[窗口]动态提醒帮助窗口
[控件]PicMenu——菜单选择改变文本框
[窗口]网址添加(半成品)
 
5.28
 [控件]高亮显示编辑框
[控件]lable——选项修改代码框
[窗口]添加采集地址添加窗口布局完成
[新增]网址添加部分各个规则生成预览完成
 
5.29
 [优化]重新优化代码高亮编辑框,更多属性和配置,更多展现组合方式
[新增]任务编辑基本信息读取(标题,备注等)
[窗口]多页管理窗口布局完成
[新增]多页管理网址替换和源码中提取
 
5.30
[新增]GAC浏览器支持Xpath,可视化选取采集元素,支持多选和单选,网址自动纠正
 
5.31
[窗口]添加任务第一步全部布局完成(尺寸自适应)
[新增]通过xpath获取网址
[优化]代码高亮,支持post随机值和分页
[代码]新增获取规则网址列表(待测试)
 
6.1
[窗口]第一步读取配置信息完成
[新增]多级网址规则增删改
[新增]POST参数增删改
[新增]自动获取网址链接
[新增]手动获取网址链接
[新增]GET和POST方式获取链接6.2[新增]多级网址支持标签
[新增]支持附加参数
[新增]列表分页获取
[核心]获取网址列表(一级网址)
 
6.3
[新增]获取网址列表支持Xpath
[新增]测试地址采集结果,实时状态
[新增]测试结果的导出,复制,浏览
[新增]获取网址列表支持多级
[新增]检测重复网址
[新增]多级网址只测试第一级
[新增]网址列表结果支持标签
[优化]浏览器获取cookies自动跳转第一个网址
 
6.4-6.9暂停开发六天
 
6.10
[优化]网址采集支持多级标签
[布局]新建任务第三步布局完成
 
6.12
-16[辅助]xml生成实体类工具开发
 
6.17
暂停一天
 
6.18
[窗口]多页管理实现
 
6.19
[窗口]标签编辑基本布局
 
6.20
[新增]标签处理列表读取
 
6.21-6.22
[优化]部分标签处理编辑
 
6.24
[优化]除ocr外所有标签读取编辑保存
[优化]固定格式读取,测试 
后面懒得写了
分页采集 拼音处理 翻译 开发细节 多页名称禁用 分页\d
 
 
2018-07-06
[修复]支持多页保存
[新增]支持新增标签
[优化]新建任务自带标签
[优化]制作启动欢迎页,改用本地文件,避免突然失效
[优化]添加多级网址采集部分的标签存在检测和标签不存在检测
 
2018-07-07
[修复]规则没有默认值引起的错误
[修复]批量多页导入没有解码
[新增]起始网址支持编辑
 
2018-07-08
[优化]保存任务时的各种参数赋值
[修复]编辑任务时多级网址不存在而引发的错误
 
2018-07-09
[新增]支持任务新增和保存
[修复]修复添加标签处理时覆盖旧的处理
[优化]保存最近测试的网址
 
2018-07-12
[优化]任务编辑界面循环匹配换行功能
[修复]标签不存在引起的错误
[修复]多次保存任务导致的重复编码问题
[修复]单条起始网址无法编辑的问题
[修复]没有多级网址无法获取网址列表的问题
 
2018-07-15
[新增]循环标签添加为新记录,循环不足第一条记录补齐
[优化]标签编辑中保存文件名,保存目录和系统时间高亮显示
[修复]循环获取和非循环获取同时存在时的逻辑
 
2018-07-16
[优化]将标签测试代码移植到类中,方便后期调用
[新增]标签下载的各项功能实现
 
2018-07-17
[新增]下载部分布局
[优化]重写http请求全部代码,实现代理功能
[优化]增加默认页重试
 
2018-07-18
[新增]增加标签保留字段,禁止用户使用
[优化]重写网址爬取,实现类中爬取网址
[新增]实现列表标签
[新增]实现标签排序
[新增]支持开始任务,结束任务
[新增]支持任务抓取网址
[优化]禁止关闭欢迎窗口
[优化]采集网址进度展示
[优化]开启任务或结束任务时判断是否已存在
 
2018-07-19至21
[新增]实现数据库转换功能
[优化]支持access,sqlite,mysql,sqlserver
 
2018-07-25
[新增]实现采集网址,统计网址数量
[新增]实现采集待采集单条内容,录入更新至数据库
[修复]保存任务,任务状态丢失
[修复]标签自动获取内容选项具体配置丢失
[优化]提升控件速度
[修复]多次开始并停止内容时注册多次事件
[优化]每次开始任务时重新读取配置
 
2018-07-26
[修复]固定标签内容为空
[新增]标签结果检测
[新增]内容多线程采集
 
2018-07-27
[优化]实现标签的内容过滤(标签不得为空,包含,不得包含,重复检测,长度判断等)
[优化]实现一个网址多条结果的采集并录入数据库
[新增]实现采集完成后提示
 
2018-10-06
[修复]网址自定义规则存在多个标签时的错误
[优化]保存存在错误时,自动跳转对应界面
[修复]匹配时可能会有多种换行符的问题
[修复]采集网址时支持填写多个标签
[修复]采集网址时自动增减标签 
[新增]增加标签名导出功能
 
2018-10-09
[新增]支持文件发布
[优化]过滤保存文件时路径或文件名包含特殊字符
[优化]实现发布时进度条
[新增]支持设置发布状态,发布成功自动标注(支持全部成功才标记)
[新增]支持全部标记为已发和未发
 
2018-10-24
[新增]新增数据发布配置界面布局
 
2018-11-26
[新增]发布模块配置界面
[新增]支持加载发布模块
[新增]新增点选菜单控件
[优化]代码框支持插入标签
 
2018-11-27
[优化]支持新增和修改发布模块
[优化]支持带有密码的火车头模块和GAC模块
[优化]发布配置支持读取模块列表,支持点击编辑模块
 
2018-11-29
[优化]发布配置管理支持读取数据库中的配置
[优化]可以通过微型浏览器获取cookies
[优化]发布配置可以修改和保存
[优化]重写发布配置方面XML操作方式
[优化]重写发布模块的XML读写方式
 
2018-11-30
[优化]支持编辑和删除发布配置信息
[新增]webpost可测试发布
[新增]支持测试发布模块和配置
[优化]测试标签自动保存,方便下次测试
[优化]登陆后的cookies进行保存
[优化]发布模块支持导入,导出,删除
至此,发布模块编辑,发布配置全部完毕
 
2018-12-01
[新增]规则编辑支持导入发布模块中的标签
[新增]规则编辑支持添加发布配置,删除,修改配置
 
2018-12-03
[新增]支持测试页面测试web发布
[优化]修改web发布,迎合通用发布接口,使其可以实现正常发布内容
[修复]列表标签编辑后成为标签的bug
[优化]优化必须包含和不得包含返回结果,迎合测试日志
 
2018-12-21
[优化]修改采集规则和标签规则迎合插件
[优化]修改下载列表迎合插件
[优化]修改采集迎合插件
 
2018-12-24
[优化]迎合插件合并网址采集和内容采集
[修复]采集网址列表时,范围不支持(*)的bug
[优化]迎合插件重写采集网址部分
 
2019-01-07
[修复]多个多级网址,会让列表标签消失
[修复]无法取消插件选择的情况
[优化]迎合插件网址获取结果改为List<KeyValuePair<string, Dictionary<string, string>>>
[修复]采集网址时,不是最后一层也入库的情况
[修复]未勾选采内容依旧采集内容的情况
[修复]列表标签多级继承

 

最后的最后,代码下载地址

链接: https://pan.baidu.com/s/1oyzO-Cnc_YS23svI9QiFYg 提取码: nu4n 

代码未完全完成,测试时发现的bug均已全部修复

由于代码未进行大量测试,可能还存在过多问题,望见解

新手开发,仅供参考

 

dedecms 模板 手把手教你使用DedeCms的采集的图文教程

dedecms 模板 手把手教你使用DedeCms的采集的图文教程

这是我们要采集的目标网址
-------------------------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
看看分页是怎么设置的
---------------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
标题里有些多出来的东西处理一下
---------------------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
其它内容
---------------------------------
 手把手教你使用DedeCms的采集的图文教程
文章body部份
--------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
结束
-----------------------------------
 手把手教你使用DedeCms的采集的图文教程
测试采集
--------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
ok
 手把手教你使用DedeCms的采集的图文教程
开始采集
------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
先下载种子网址
-------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
下载完后开始采集
--------------------------------------
 手把手教你使用DedeCms的采集的图文教程
导出
----------------------------------------------------------
 手把手教你使用DedeCms的采集的图文教程
 手把手教你使用DedeCms的采集的图文教程
更新HTML后,OK
 手把手教你使用DedeCms的采集的图文教程
就这么简单了,懂了毛?

以上就介绍了dedecms 模板 手把手教你使用DedeCms的采集的图文教程,包括了dedecms 模板方面的内容,希望对PHP教程有兴趣的朋友有所帮助。

DedeCMS 采集更改为当前审查时间的办法

DedeCMS 采集更改为当前审查时间的办法

 

很多人采集很多新闻,每天审查几条,但是发现审查后时间没有变,这里我该了下,审查后的时间新闻的时间变更为当前时间,直接download放到后面文件夹,就可以了。

 

/*-------------------------- 

//审核文档 

function checkArchives() { } 

---------------------------*/ 

else if($dopost=="checkArchives") 

$lasttime=time(); 

CheckPurview('a_Check,a_AccCheck,sys_ArcBatch'); 

require_once(DEDEADMIN."/inc/inc_archives_functions.php"); 

if( !empty($aid) && empty($qstr) ) 

$qstr = $aid; 

if($qstr=='') 

ShowMsg("参数无效!",$ENV_GOBACK_网址); 

exit(); 

$arcids = ereg_replace('[^0-9,]','',ereg_replace('`',',',$qstr)); 

$query = "Select arc.id,arc.typeid,ch.issystem,ch.maintable,ch.addtable From `dede_arctiny` arc 

left join `dede_arctype` tp on tp.id=arc.typeid 

left join `dede_channeltype` ch on ch.id=tp.channeltype 

where arc.id in($arcids) "; 

$dsql->SetQuery($query); 

$dsql->Execute('ckall'); 

while($row = $dsql->GetArray('ckall')) 

$aid = $row['id']; 

//print_r($row); 

$maintable = ( trim($row['maintable'])=='' ? 'dede_archives' : trim($row['maintable']) ); 

if($dsql->ExecuteNoneQuery("Update `dede_arctiny` set arcrank='0',sortrank='$lasttime',senddate='$lasttime' where id='$aid' ")) 

$dsql->ExecuteNoneQuery("Update `dede_taglist` set arcrank='0' where aid='$aid' "); 

if($row['issystem']==-1) 

$dsql->ExecuteNoneQuery("Update `".trim($row['addtable'])."` set arcrank='0',pubdate='$lasttime',sortrank='$lasttime',senddate='$lasttime' where aid='$aid' "); 

else 

$dsql->ExecuteNoneQuery("Update `$maintable` set arcrank='0',pubdate='$lasttime',sortrank='$lasttime',senddate='$lasttime', dutyadmin='".$cuserLogin->getUserID()."' where id='$aid' "); 

$pageurl = MakeArt($aid,false); 

ShowMsg("成功审核指定的文档!",$ENV_GOBACK_网址); 

本文章网址:http://www.ppssdd.com/code/4368.html。转载请保留出处,谢谢合作!

dedecms火车头无法采集怎么解决

dedecms火车头无法采集怎么解决

dedecms无法采集解决方法:1、尝试使用代理服务器,隐藏真实的ip地址,绕过服务器的限制;2、修改采集规则,使其适应页面的新结构;3、通过dedecms提供的“采集规则”功能或者手动添加代码的方式进行设置;4、使用浏览器的开发者工具,检查页面结构和网络请求,帮助分析问题所在;5、联系dedecms官方或者相关的技术支持人员。

dedecms火车头无法采集怎么解决

本教程操作环境:windows10系统、dedecms5.7版本、DELL G3电脑。

dedecms作为一款非常受欢迎的建站系统,具有强大的功能和灵活的扩展性。然而,在使用dedecms进行采集时,有时会遇到一些问题。其中最常见的问题之一就是无法正常进行采集。那么,这种情况下应该怎么办呢?

首先,我们需要了解一些导致无法采集的可能原因。

常见的原因包括:网站服务器有限制、页面结构变化、采集规则设置不正确等。接下来,我们将针对这些原因逐一进行讨论,并提供相应的解决方案。

1、如果网站服务器对采集有限制,我们可以尝试使用代理服务器。代理服务器可以帮助我们隐藏真实的IP地址,绕过服务器的限制。我们可以通过设置代理服务器的方式,让dedecms使用代理进行采集。可以选择一些稳定的代理服务供应商,确保采集的顺利进行。

2、有时页面结构会发生变化,导致dedecms无法正确解析页面数据。这时,我们需要修改采集规则,使其适应页面的新结构。可以通过检查页面源代码,找出页面元素的改变,并相应地修改dedecms的采集规则。这就需要一些对HTML、CSS、XPath等知识的了解,以便能够准确地定位页面元素。

3、采集规则设置不正确也是导致无法采集的常见问题之一。在设置采集规则时,我们需要仔细分析目标网站的页面结构和数据特点,合理地设置规则。可以通过dedecms提供的“采集规则”功能或者手动添加代码的方式进行设置。在设置规则时,需要注意选择正确的数据类型,设置正确的正则表达式和XPath表达式,以确保能够正确地提取所需的数据。

4、还可以考虑使用一些辅助工具来辅助采集。例如,可以使用浏览器的开发者工具,检查页面结构和网络请求,帮助分析问题所在。也可以使用一些第三方插件或者脚本,帮助自动化采集。

5、如果以上的方法都无法解决问题,我们可以尝试联系dedecms官方或者相关的技术支持人员。他们可能会有更专业的解决方案或者提供更及时的支持。

总之,dedecms无法采集的问题可能会让人感到头疼,但是通过一些合理的解决方法,我们通常可以克服这些问题。需要注意的是,在进行采集时,要合法合规,尊重他人的权益,遵守相关法律法规。只有合法合规的采集才能提高效率,保障网站的稳定运营 。

以上就是dedecms火车头无法采集怎么解决的详细内容,更多请关注php中文网其它相关文章!

今天关于火车头采集器免登录采集数据发布到DEDECMS的办法火车头采集器发布教程的介绍到此结束,谢谢您的阅读,有关(仿)火车头采集器 源码开源、dedecms 模板 手把手教你使用DedeCms的采集的图文教程、DedeCMS 采集更改为当前审查时间的办法、dedecms火车头无法采集怎么解决等更多相关知识的信息可以在本站进行查询。

本文标签: