紅葉文章采集器是一款超級(jí)強(qiáng)大的網(wǎng)站文章采集器,英文名稱(chēng)Fast_Spider,屬于蜘蛛爬蟲(chóng)類(lèi)程序,用于從指定網(wǎng)站采集海量精華文章,將直接丟棄其中的垃圾網(wǎng)頁(yè)信息,僅保存具備閱讀價(jià)值和瀏覽價(jià)值的精華文章,自動(dòng)執(zhí)行HTM-TXT轉(zhuǎn)換,有需要的趕緊來(lái)下載使用吧。
紅葉文章采集器軟件特色
(1)本軟件采用北大天網(wǎng)MD5指紋排重算法,對(duì)于相似相同的網(wǎng)頁(yè)信息,不再重復(fù)保存。
(2)采集信息含義:[[HT]]表示網(wǎng)頁(yè)標(biāo)題,[[HA]]表示文章標(biāo)題,[[HC]]表示10個(gè)權(quán)重關(guān)鍵字,[[UR]]表示網(wǎng)頁(yè)中的圖片鏈接,[[TXT]]之后為正文。
(3)蜘蛛性能:本軟件開(kāi)啟300個(gè)線程來(lái)保證采集效率。通過(guò)采集100萬(wàn)精華文章來(lái)執(zhí)行壓力測(cè)試,以普通網(wǎng)民的聯(lián)網(wǎng)計(jì)算機(jī)為參考標(biāo)準(zhǔn),單臺(tái)計(jì)算機(jī)可以在一天內(nèi)遍歷200萬(wàn)網(wǎng)頁(yè)、采集20萬(wàn)精華文章,100萬(wàn)精華文章僅需5天就可采集完畢。
(4) 正式版與免費(fèi)版的區(qū)別在于:正式版允許將采集的精華文章數(shù)據(jù)自動(dòng)保存為ACCESS數(shù)據(jù)庫(kù)。
紅葉文章采集器使用注意
1、抓取深度:填寫(xiě)0表示不限制抓取深度;填寫(xiě)3表示抓到第3層。
2、通用蜘蛛模式與分類(lèi)蜘蛛模式的區(qū)別:假定網(wǎng)址入口為“http://youxi.baidu.com/”,若選擇通用蜘蛛模式,將遍歷“baidu.com”里面的每一個(gè)網(wǎng)頁(yè);若選擇分類(lèi)蜘蛛模式,則只遍歷“youxi.baidu.com”里面的每一個(gè)網(wǎng)頁(yè)。
3、按鈕“從MDB導(dǎo)入”:網(wǎng)址入口從TASK.MDB中批量導(dǎo)入。
4、本軟件采集的原則是不越站,例如給的入口是“http://youxi.baidu.com/”,就只在百度站點(diǎn)內(nèi)部抓取。
5、本軟件采集過(guò)程中,偶爾會(huì)彈出一個(gè)或數(shù)個(gè)“錯(cuò)誤對(duì)話框”,請(qǐng)不予理會(huì),倘若關(guān)閉“錯(cuò)誤對(duì)話框”,采集軟件就會(huì)掛掉。如果軟件掛掉,之前已采集的信息,不會(huì)丟失。當(dāng)再次啟動(dòng)軟件執(zhí)行采集,對(duì)于以前已采集的信息不會(huì)重新采集,可實(shí)現(xiàn)良好的增量采集。
6、使用者如何選擇采集題材:例如你若想采集 “股票類(lèi)”文章,只需把那些“股票類(lèi)”站點(diǎn)作為網(wǎng)址入口即可。
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版