一、新建一个使用UBB格式的Web在线发布模块
因为采集下来的文章内容是HTML格式,如:<p>正文</p>这样带有HTML标签的文本。
而DZ论坛使用的是UUB格式,如:[p]正文[/p],所以在发布时要做一个自动转换。下面就是设置这个自动转换功能。
如果你的文章发布的DZ门户,就不需要转换为UBB.
1、 打开发布模块配置:
2、 以软件里自带的Discuz!X 2.0论坛 为模板进行修改。我试过了可以正常住Discuz!X 2.5发布文章。
3、 设置为:对 [标签: 内容]做 UBB转换,如下图中的样子: 最后,另存为一个新的“发布模块”,起一个新名字,后面要使用。
4、在“内容发布参数”选项卡中修改: [标签: 内容] 的值可以用使用{0} 来替代。如上图
黄色框内的[标签: 内容]替换成{0} ,
第一部分工作就完成了。
二、使用Web在线发布模块
前面我新建了一个新的Web在线发布模块,下面就是使用它。 第一步:新一个“发布”,操作如上图
注意:请到论坛的后台修改设置,要求登录时不需要输入验证码,才能登录成功,才能测试成功,记得以后要改回来啊。
最后保存时要起个新名字。
三、准备采集
这里以火车自带的采集演示来说明 。鼠标右击“腾讯新闻”—“编辑任务”,打开如下窗口。 如下图设置,使用前一步 建立 的“发布模块”,可以把采集到的内容发布到论坛的某个栏目中。
设置如下图:
还有下图
7
对于采集工作,还有一些重要的设置,很重要。
如果你不是使用火车头自带的演示任务,而是自己新建采集任务,下面的内容就很重要。
下面的设置,是对采集的文章正文进行的设置。
“开始字符串”,“结束字符串”是所有设置中最重要的内容,它用来分析页面的HTML源码,找出文章正文的开始点与结束点。下图中使用的是火车头为腾讯准备默认值,不需要修改。 如果你不采集腾讯而采其它网站,这个就要你自己看HTML源码来人工分析了。
采集时,可选择性的过滤掉一些HTML标签,如<script><iframe>, 如果你不知道要去掉哪些,就什么也不用改,使用默认值吧。
下载的图片存目录设置
图片下载后被保存在:
火车头软件安装目录\Data\LocoySpider\80\ 文件夹中。
为什么叫80,其实叫什么都可以,但为了方便管理,这个腾讯采集任务编号是80,所以放在80文件夹中。以后是腾讯采集任务,采集下来图片都放在这里,方便管理。
腾讯采集任务编号,请再后面一张图片中查看
客户通过浏览器访问我论坛的文章里的图片时,统一访问服务器上DZ程序的根目录下的./pic/目录,使用相对路径,pic目录下面我们再新建一个80目录, 所以,把火车头安装目录下的\Data\LocoySpider\中的 80 文件夹,COPY到服务器DZ程序的根目录下的pic目录中, 这样,图片就存储在了:服务器DZ程序的根目录\pic\80\ 目录
同时 文章中的图片的地址是指向 ./pic/80/xxx.jpg 。文章就可以显示图片了。
补充:后来经过实践,目录定为:/data/attachment/pic ,好处是:为了通过程序取文章中的第一张图片做为文章的“封面”,这个路径是合适的。
相关推荐
学会火车头采集器的使用,实操教您自定义一些格式规则来采集,然后保存到word或者excel又或者html的形,帮助您提高效率。适合人群:具有一定网站知识基础的网站编辑、SEOER、想提高自己对数据采集、网络营销从业者,...
1、首先使用火车头采集网址; 2、将采集的网址所在数据库复制到本工具同一文件夹;亦可自建数据库,但是文件名必须为“SpiderResult.mdb”,数据表名为“content”,至少包含“标题”“内容”“pageurl”等字段,且...
火车头采集和伪原创使用的同义词近义词库4万多条,txt文件以空格和逗号分割共二个文件,火车头可以直接用
phpok采集器插件简介 在建 站过程中,数据是很重要的一块。...此插件功能简陋,如您需要更加强大的数据采集功能,建议您使用火车头采集器 phpok采集器插件页面展示: 相关阅读 同类推荐:站长常用源码
火车头采集器使用手册.docx
完全免费的网站采集器,使用c#和wpf编写,可以自定义采集规则,完全免费,无任何偷窥代码。
解决火车头7.6网站报错System.Net.HttpWebRequest问题的处理 插件 无限制。 https.dll 永久使用无限制版本https
3. 通用灵活,可以对接大多数网页采集工具,只要支持http方式发送数据,例如火车头,简数采集器,八爪鱼采集器等; 4. 插件安装方式简单:上传对应文件,添加对应TP框架,详情可看readme文件; 5. 插件特别兼容简数...
火车头同义词替换库伪原创词库共计16w词
适用于火车采集器的伪原创同义词替换。 2019年最新出品
在建 站过程中,数据是很重要的一块。刚开始的网站数据八成以上都是...因此,我们专门开发了一个小小的插件功能,以方便数据填充特别说明:此插件功能简陋,如您需要更加强大的数据采集功能,建议您使用火车头采集器
本次更新10096个。非常优质的词库。...每个词用==隔开,可以ctrl+h 批量更改为你想要的格式,非常方便,火车头,cms 采集器直接用【本次预计重复142个词,】跟之前发的不重复。可以结合使用,更给力!
目前市面上基本没有typecho火车头采集器 而分享的这一款采集器,牛的一批 内置使用方法与教程!
本次更新22081个。非常优质的词库。刚好自己要用到,所以整理了几天,分享出来...每个词用==隔开,可以ctrl+h 批量更改为你想要的格式,非常方便,火车头,cms 采集器直接用【本次预计重复165个词,】跟之前发的绝不重复
3、使用了SQLite数据库连接池,保证在多线程下Sqlite的稳定操作。 4、修正了在多任务同时更新时,同任务不断增加,导致界面上任务数越来越多的问题。 5、状态栏小提示同完成提示音一起,可以关闭显示。 6、去掉了...
火车头采集,采集站群、SEO伪原创、淘客忒低网等群发伪原创文章词库
目前市面上基本没有typecho火车头采集器 而分享的这一款采集器,牛的一批 内置使用方法与教程!
ET资源采集器,免费全功能,比火车头好用,最新采集器 堪称没有采集不了的网站 采集图片,电影,文字,链接,功能很强大.