關(guān)關(guān)采集器是一款非常實(shí)用的網(wǎng)絡(luò)采集器,這里東坡小編帶來這款關(guān)關(guān)超級(jí)采集器牛X小說專用版,綠色破解,下載解壓后無需注冊(cè),可以直接使用,喜歡的朋友快來下載吧。
關(guān)關(guān)超級(jí)采集器牛X小說專用版功能特色
1、采集和生成速度更快更穩(wěn)定。
2、支持亂序采集模式。
3、替換采集模式+圖片行間水印+圖片F(xiàn)TP負(fù)載+文字圖片化等等。
4、支持server2003或server2008。
5、集圖片沒有黑塊和其他BUG,而且不會(huì)再有CPU達(dá)到100%。
6、不會(huì)出現(xiàn)界面卡死、運(yùn)行緩慢等。
7、敬重聲明:采集器僅提供研究和學(xué)習(xí),不提供商業(yè)應(yīng)用。
8、完善的技術(shù)售后支持。
關(guān)關(guān)采集規(guī)則
介紹一下關(guān)關(guān)采規(guī)則當(dāng)中需要用到的一些標(biāo)簽
\d* 表示數(shù)字 \s* 表示空格+換行 .+? 表示字符(不能為空) .* 表示字符(可以為空)
() 表示我們需要的部分 ((.|\n)*) 章節(jié)的內(nèi)容部分,包括了換行。
=====與杰奇后臺(tái)標(biāo)簽的對(duì)應(yīng)關(guān)系=====
!!!! 相當(dāng)于 ([^><]*)
~~~~ 相當(dāng)于 ([^><'"]*)
^^^^ 相當(dāng)于 ([^><\d]*)
$$$$ 相當(dāng)于 ([\d]*)
**** 相當(dāng)于 (.*)
現(xiàn)在開始編寫規(guī)則,假設(shè)目標(biāo)站為小說書庫[1]
首先我們需要復(fù)制一份原有的規(guī)則做模版(規(guī)則文件存放在Rules目錄下)。把復(fù)制的那份做模板的規(guī)則命名為xssk.xml 或小說書庫.xml,這個(gè)主要是便于規(guī)則管理。
運(yùn)行采集器里的規(guī)則管理工具,打開后載入剛剛我們命名為xssk.xml 或小說書庫.xml的文件。
現(xiàn)在可以正式的編寫規(guī)則了,我們寫規(guī)則時(shí)要找的標(biāo)志性代碼必需是整個(gè)頁面里唯一的代碼,其次我們?nèi)∮玫牟糠荽a超精簡超好。
1. GetSiteName(站點(diǎn)名稱) 這里我們寫小說書庫(在執(zhí)行任務(wù)時(shí)會(huì)在上方顯示)
2. GetSiteCharset(站點(diǎn)編碼) 這里我們打開小說書庫[1] 源代碼查找 charset= 得到charset=gbk這個(gè)gbk就是我們需要的站點(diǎn)編碼
3. GetSiteUrl(站點(diǎn)地址) 這個(gè)就不用我說了吧
4. NovelListUrl(站點(diǎn)最新列表地址) 因?yàn)檫@些每個(gè)站點(diǎn)的不同,這個(gè)就需要自己去找了小說書庫的是/modules/article/toplist.php?sort=lastupdate
5. NovelList_GetNovelKey(從最新列表中獲得小說編號(hào)) 此規(guī)則中需要同時(shí)獲得書名,獲得書名是在手動(dòng)模式的時(shí)候用到,如果你要用手動(dòng)模式那么必須獲得書名,否則手動(dòng)模式將會(huì)無法使用。我們 打開/modules/article/toplist.php?sort=lastupdate 這個(gè)地址查看源文件,我們編寫這個(gè)規(guī)則的時(shí)候找到想要獲得的內(nèi)容所在的地方,比如我們打開地址看到想要獲得的內(nèi)容的第一本小說的名字是“從零開始”我們?cè)谠次募锩嬲业健皬牧汩_始”復(fù)制代碼我們編寫規(guī)則用到的代碼其實(shí)也不是很多,編寫規(guī)則的原則是能省則省,也就是說代碼越短越好除非萬不得已一般精短一些比較好。好了不廢話了,在這個(gè)規(guī)則里面我們需要用到的是<td class="L"><a href="/modules/article/articleinfo.php?id=1959">從零開始</a></td>
復(fù)制代碼我們將這段改下<td class="L"><a href="/modules/article/articleinfo.php?id=(\d*)">(.+?)</a></td>
復(fù)制代碼其中 (\d*) 表示編號(hào) (.+?) 表示小說名 .+?表示代替此位置字符,經(jīng)過測試正確
6. NovelUrl(小說信息頁地址) 這個(gè)很容易,我們隨便點(diǎn)開一本小說就能知道了,比如說/modules/article/articleinfo.php?id=1959這本小說,我們可以看到的我們改下將里面的1959換成 {NovelKey} 一般情況表示小說編號(hào)/modules/article/articleinfo.php?id={NovelKey}
7. NovelName(獲得小說名稱正則) 我們還打開剛才那本書/modules/article/articleinfo.php?id=1959查看源代碼,獲得小說名稱那我們?cè)谠创a里查找到“從零開始”,需要得到前后代碼為唯一的位置,一般小說站的名稱都在H1或者H2標(biāo)簽里,這個(gè)我們得到的內(nèi)容是
<h1>從零開始 全文閱讀</h1>
復(fù)制代碼這一段 我們改下
<h1>(.+?) 全文閱讀</h1>
下面的 NovelAuthor(獲得小說作者)、LagerSort(獲得小說大類)、SmallSort(獲得小說大類)、NovelIntro(獲得小說簡介)、NovelKeyword(獲得小說主角(關(guān)鍵字))、NovelDegree(獲得寫作進(jìn)程)、NovelCover(獲得小說封面)這些呢我就不演示了,這些跟上面的那個(gè)獲得小說名方法是一樣的,也就所謂的一通百通。需要說到的是獲得簡介的時(shí)候最好用 ((.|\n)*)來代替,因?yàn)橹虚g可能包含換行。
8. NovelInfo_GetNovelPubKey(獲得小說公眾目錄頁地址)很多站目錄頁的地址有子ID在前邊,所以我們要采集目錄頁的地址我們獲得代碼如下:
<a class="read" href="/1959.html" title="從零開始全文閱讀">全文閱讀</a> 復(fù)制代碼這一段 我們改下<a class="read" href="/(.+?)" title=".+?">全文閱讀</a>
9. PubIndexUrl(公眾目錄頁地址) 這個(gè)里面寫入{NovelPubKey}
10. PubVolumeSplit(分割分卷) 這個(gè)分割分卷 有寫地方需要注意到 如果分割分卷的正則沒對(duì) 那么有可能 對(duì)于下面的 獲得章節(jié)名那些有很大的影響 這里 我們獲得 分割部分的代碼呢 按我的經(jīng)驗(yàn)?zāi)?是找到第一個(gè) 分卷 跟下面的分卷 查看他們的共同處 在我們分析/1959.html 這個(gè)目錄章節(jié)里面的源代碼 可以看出分卷的代碼為H2標(biāo)簽,因此分割分卷就填寫<h2>
11 . PubVolumeName(獲得分卷名) 上面我們說明分割部分用到<h2>因此分卷名為
<h2>(.+?)</h2>
12. PubChapterName(獲得章節(jié)名) 這個(gè)我們拿一段來說明
<li style="width:24%;"><div class="novel_num"></div><a href="481855.html" title="一章 時(shí)間方恨少">一章 時(shí)間方恨少</a></li>
復(fù)制代碼如果有碰到時(shí)間、日期、更新字?jǐn)?shù)什么的我們直接忽略,因?yàn)檫@些不是我們要獲得的內(nèi)容,這個(gè)我們可以用 .+? 來表示。 好了我們吧上面的那一段改下改成表達(dá)式
<li style="width:24%;"><div class="novel_num"></div><a href="\d*.html" title=".+?">(.+?)</a></li>
復(fù)制代碼正常獲得內(nèi)容。(如果不是單行的話我們用\s* 來表示N個(gè)換行符)
13. PubChapter_GetChapterKey(獲得章節(jié)地址(章節(jié)編號(hào))) 這里說明下 這個(gè)里面的章節(jié)編號(hào)是在下面的 PubContentUrl(章節(jié)內(nèi)容頁地址)用到,那么這里我們需要獲得的是章節(jié)地址分析得到
<li style="width:24%;"><div class="novel_num"></div><a href="(\d*).html" title=".+?">.+?</a></li>
這里既然是獲得章節(jié)地址那為什么我們還有用到章節(jié)名的呢?這個(gè)說下主要就是為了避免獲得的章節(jié)名跟獲得的章節(jié)地址不匹配。
如果是章節(jié)頁是亂序的這里就要獲得章節(jié)編號(hào)了(強(qiáng)烈見意用戶用獲得章節(jié)編號(hào))
14. PubContentUrl(章節(jié)內(nèi)容頁地址) 這里拿/1959/432738.html 這個(gè)來說明下該怎么用,其中/1959/432738這個(gè)是前邊獲得的目錄地址我們用{NovelPubKey}替代,1693778這個(gè)就是在 PubChapter_GetChapterKey 里面獲得的 章節(jié)編號(hào)我們{ChapterKey} 替代,填入{NovelPubKey}{ChapterKey} .html
15. PubContentText(獲得章節(jié)內(nèi)容) 這個(gè)獲得方法我們就拿/1959/432738.html這個(gè)地址來說吧,打開源代碼在內(nèi)容上下我們看到
復(fù)制代碼這里我就直接改成正規(guī)的內(nèi)容獲得代碼如下
<dd id="contents">((.|\n)+?)</dd>
復(fù)制代碼這里說明下((.|\n)+?)為我們要獲取的內(nèi)容,<dd id="contents">這個(gè)必需要是唯一的。
16. PubContentImages(章節(jié)內(nèi)容中提取圖片正則) 章節(jié)中圖片也就是我們所說的圖片章節(jié),這里我們可以用萬能圖片規(guī)則
<[^<]*((?<=<(?:img|IMG)[^>]*(?:(?:src|SRC)(?:\s*=\s*(?:["']?))))(?:[^\s"'>]*)\.(?:jpg|gif|jpeg|bmp|png|GIF|JPG))[^>]*>
現(xiàn)在說下替換,每行一個(gè)替換,格式如下需要替換的內(nèi)容♂替換結(jié)果
<div.+?>
復(fù)制代碼這個(gè)表示過濾
<div.+?>♂<br>
復(fù)制代碼這個(gè)表示替換現(xiàn)在的站長們都會(huì)在小說章節(jié)內(nèi)容上加入自己的廣告
如(**站第一時(shí)間更新vip章節(jié))、(**站首發(fā))等廣告我們可以用
**站第一時(shí)間更新vip章節(jié)♂替換的內(nèi)容
**站首發(fā)♂替換的內(nèi)容
復(fù)制代碼其他的替換類似
出現(xiàn)空章節(jié)情況有可能是目標(biāo)站正好重啟網(wǎng)站或者你的采集IP被封等原因
如果不是以上原因,請(qǐng)先檢查你采集的章節(jié)是否是圖片章節(jié),如果你的PubContentImages(章節(jié)內(nèi)容中提取圖片) 沒有獲得圖片章節(jié)內(nèi)容的話軟件就會(huì)檢查你的采集文字內(nèi)容 PubContentText(獲得章節(jié)內(nèi)容)這個(gè)里面的正則的匹配,如果 PubContentImages(章節(jié)內(nèi)容中提取圖片) 跟PubContentText(獲得章節(jié)內(nèi)容) 都沒有匹配的內(nèi)容,那么就出現(xiàn)了上面我們說的空章節(jié)的原因。關(guān)關(guān)采集器規(guī)則
關(guān)關(guān)超級(jí)采集器牛X小說專用版更新日志
1增加手工模式分卷刪除
2增加手工模式選擇性插入采集
3增加手工模式編輯文章
4更新數(shù)字化BUG速度更快
5增加定時(shí)生成靜態(tài)首頁提高網(wǎng)站穩(wěn)定性
6支持定義不同生成方式目錄和內(nèi)容獨(dú)立
7支持章節(jié)重復(fù)檢測手工模式
8支持章節(jié)缺少TXT檢測手工模式
9支持批量刪除支持jieqi和qiwen
10支持批量生成增加自定語句多ID切割
11增加自定章節(jié),缺少字?jǐn)?shù),或缺少內(nèi)容為空替換指定內(nèi)容
12增加雜項(xiàng)可以獲取段內(nèi)容調(diào)用標(biāo)簽
13增加相鄰書推薦功能
14增加隨機(jī)推薦書功能
15增加TXT專頁面生成功能
16支持上一頁下一頁地址定義
17支持規(guī)則設(shè)置專碼提取新地址內(nèi)容
18支持jieqi18Cms最新建站系統(tǒng)
19增加超級(jí)防采集器模式混合模式
- PC官方版
- 安卓官方手機(jī)版
- IOS官方手機(jī)版