|
今天要給大家做示例的網(wǎng)站是163的 娛樂頻道 這個應(yīng)該是個比較通用和實用的規(guī)則,下面開始。
如果您是火車采集器的老手,那么您可以參考下,因為我要講解的會有違傳統(tǒng)的思維;如我您是新手那么您最好能仔細看下,因為這將加快您的入門,同時在以后給您節(jié)省很多時間。以下是一些采集的基本步驟,您可以靈活運用:
一、建立站點
1、請先打開火車采集器,新建站點,看下圖:

為了方便管理您可以為您的站點取任何的您覺得易記的名稱,但是我建議用目標源的名字作為站點的名稱有利于日后的管理,如下圖

大部分的站點,通站往往只有一套模版或者有幾套類似的模版,這邊所謂的類似講的是模版中的標記很接近,那什么是模版標記?模版標記指的是某部分內(nèi)容開始和結(jié)束記號。比如很多正規(guī)的網(wǎng)站(通常是一些站點比較大,內(nèi)容比較多的網(wǎng)站,比如sina、163等)會在內(nèi)容開始的部分用類似于或 等標志來表示內(nèi)容的開始。他們這么作的原因有兩個,一個是由于內(nèi)容多,為了各個部門之間的配合而作了對應(yīng)的標記以便于工程的交接,另一個原因就是內(nèi)容控制的需要,隨著xhtml的流行,用層控制越來越多,這就使得我們尋找采集標示越來越簡單(這點你們以后會慢慢理解的)。上面給各位講這些是因為接下來要我們要講解的是整站內(nèi)容規(guī)則。
2、標題標簽講解。對應(yīng)的頁面在這:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先從“站點基本信息”切換到“整站內(nèi)容規(guī)則”,然后把要采集的內(nèi)容頁面的網(wǎng)址拷貝到“典型頁面”接著點擊“測試”讀取源碼。先從標題標簽開始,我們發(fā)現(xiàn)按默認標簽采集回來的標題多了“_網(wǎng)易娛樂”,請雙擊標題標簽或者選種標題標簽在點擊修改,把“_網(wǎng)易娛樂”添加到排除內(nèi)容框里,標題標簽完成。如圖:

3、內(nèi)容標簽講解。制作采集規(guī)則(任務(wù))的任何一個標簽最重要的就在于尋找開始也結(jié)束的標志。目前大部分的采集器要求開始和結(jié)束的標志必須是整個源代碼的唯一標志,也就是所有的html源碼里只能找到一個開始或結(jié)束的標志。但是火車采集器并不需要這么作,你要找的只需要是從上到下第一個標志就可以了,我的意思是說,html代碼中允許有n個相同的開始(結(jié)束,下同)標志,但是只要這個位于我們要采集的內(nèi)容的地方的標志是html從上到下的第一個就可以了。打開任何一個內(nèi)容頁面,這邊以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 為例,我們發(fā)現(xiàn)他的內(nèi)容從“進入論壇”,因此雙擊代碼測試框,查找需要的代碼,如圖:

我們可以用這個作為內(nèi)容開始的標志,不過這樣還不完美,請自己在打開幾個內(nèi)容頁面,在網(wǎng)頁中“右鍵點擊”――“查看源碼”,然后對比代碼,并提取相同的部分,我以 作為內(nèi)容開始的標志。

接下來看內(nèi)容結(jié)束標志,如下兩圖:


下面是根據(jù)我么設(shè)置規(guī)則采集回來的內(nèi)容

一般來說我們從開始標志到結(jié)束標志所采集回來的內(nèi)容中都會包含有必須排除的內(nèi)容或廣告,或鏈接。這邊我們需要排除的內(nèi)容是“相關(guān)專題>>> 第六屆金鷹電視藝術(shù)節(jié)”。排除的方法是,找到相對應(yīng)的代碼把代碼完整的拷貝進內(nèi)容排除窗口,變動的部分用“(*)”替代。由于這個是整站規(guī)則,所以必須多找?guī)讉€類別,比如現(xiàn)在的這個163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規(guī)則做的通用完美,如果你只要其中的一個分類,比如“圖片”那么你直接做這個的規(guī)則即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 這個頁面剛好有分頁,所以就順便講下上下頁的設(shè)置。他這邊的“”和“”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點擊對應(yīng)的圖片查看屬性,拷貝圖片名即可)拷貝進對應(yīng)的代碼框即可,詳細的看圖片:

這邊提示下,任何內(nèi)容的排除你只要找到對應(yīng)的代碼完整的拷貝進代碼排除窗并把其中可變的部分替換成"(*)"即可。由于他這邊沒有廣告,所有整站規(guī)則就算制作完畢,點擊保存進入單任務(wù)制作。好了,整站規(guī)則就講這兩個標簽,其他的根據(jù)需要自己按上面的步驟添加,記住,萬變不離其宗。其他的問題請到火車采集器論壇:http://bbs.locoy.com 探討。
二、下面講解單任務(wù)規(guī)則制作:
1、內(nèi)容規(guī)則的制作,很多人到現(xiàn)在可能都還不明白火車采集器好在哪,現(xiàn)在講的這個絕對是火車獨有的特色(至少到目前為止是這樣,以后有沒有人出相同的功能就不得而知了!)
火車采集器是不需要經(jīng)過網(wǎng)址規(guī)則制作即可直接進入內(nèi)容采集,這樣你就可以根據(jù)站點的難易決定是否采集選定的目標源,而不必等到網(wǎng)址采集后才發(fā)現(xiàn)原來這個網(wǎng)站你沒辦法采或者根本不值得你浪費這個時間(前面的時間白搭了!)。
火車v3.0最大的功能之一既是可以繼承站點的規(guī)則,只要你前面制作的規(guī)則通用,那么在接下來的所有任務(wù)都不需要再制作內(nèi)容采集規(guī)則了。由于前面我們制作的內(nèi)容采集規(guī)則通用,所以這邊的規(guī)則我們就不用講解了,直接繼承站點的,如圖:

2、網(wǎng)址采集規(guī)則制作
步驟:“新建”――“新建任務(wù)”,其他的操作如下圖:

作規(guī)則需要善于去發(fā)現(xiàn)規(guī)律性的東西,作到這點采集就沒什么問題了。我們要采集示例的地址在這http://ent.163.com/special/00031HI0/entnews.html
這板只采集其中的1-3頁作為范例。我們發(fā)現(xiàn)每個葉面的網(wǎng)址開始前面都包含“過往娛樂熱點”結(jié)束都是“第1 2……頁”,所以請到html源代碼里面拷貝對應(yīng)的代碼,到特定區(qū)域采集范圍中,另外,網(wǎng)址中必須包含“/06/” 這樣網(wǎng)址采集就搞定了(簡單吧,自己試試看),如下圖:

3、發(fā)布方式。發(fā)布方式有5種,這邊以最常用的“在線發(fā)布”為例。
選定web在線發(fā)布到網(wǎng)站,點擊“定義全局發(fā)布方式”,然后按系統(tǒng)提示的步驟:選定發(fā)布模塊――》填寫網(wǎng)站/cms根地址――》使用火車內(nèi)置瀏覽器登陸――》登陸后關(guān)閉內(nèi)置瀏覽器――》刷新列表――》測試模塊,測試成功――》保存配置――》保存任務(wù)――》發(fā)表 如下圖高亮的部分是你要操作的步驟,從左到右從上到下:

下面是剛才我采集到本地論壇采集測試的兩個截屏:


php技術(shù):火車頭采集器3.0采集圖文教程,轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯(lián)系我們修改或刪除,多謝。