一区二区久久-一区二区三区www-一区二区三区久久-一区二区三区久久精品-麻豆国产一区二区在线观看-麻豆国产视频

火車頭采集器3.0采集圖文教程

以采集示例詳解部分功能
今天要給大家做示例的網站是163的 娛樂頻道 這個應該是個比較通用和實用的規則,下面開始。
如果您是火車采集器的老手,那么您可以參考下,因為我要講解的會有違傳統的思維;如我您是新手那么您最好能仔細看下,因為這將加快您的入門,同時在以后給您節省很多時間。以下是一些采集的基本步驟,您可以靈活運用:
一、建立站點
1、請先打開火車采集器,新建站點,看下圖:
點擊在新窗口中瀏覽此圖片
為了方便管理您可以為您的站點取任何的您覺得易記的名稱,但是我建議用目標源的名字作為站點的名稱有利于日后的管理,如下圖點擊在新窗口中瀏覽此圖片
大部分的站點,通站往往只有一套模版或者有幾套類似的模版,這邊所謂的類似講的是模版中的標記很接近,那什么是模版標記?模版標記指的是某部分內容開始和結束記號。比如很多正規的網站(通常是一些站點比較大,內容比較多的網站,比如sina、163等)會在內容開始的部分用類似于或 等標志來表示內容的開始。他們這么作的原因有兩個,一個是由于內容多,為了各個部門之間的配合而作了對應的標記以便于工程的交接,另一個原因就是內容控制的需要,隨著xhtml的流行,用層控制越來越多,這就使得我們尋找采集標示越來越簡單(這點你們以后會慢慢理解的)。上面給各位講這些是因為接下來要我們要講解的是整站內容規則。
2、標題標簽講解。對應的頁面在這:http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html
首先從“站點基本信息”切換到“整站內容規則”,然后把要采集的內容頁面的網址拷貝到“典型頁面”接著點擊“測試”讀取源碼。先從標題標簽開始,我們發現按默認標簽采集回來的標題多了“_網易娛樂”,請雙擊標題標簽或者選種標題標簽在點擊修改,把“_網易娛樂”添加到排除內容框里,標題標簽完成。如圖:
點擊在新窗口中瀏覽此圖片
3、內容標簽講解。制作采集規則(任務)的任何一個標簽最重要的就在于尋找開始也結束的標志。目前大部分的采集器要求開始和結束的標志必須是整個源代碼的唯一標志,也就是所有的html源碼里只能找到一個開始或結束的標志。但是火車采集器并不需要這么作,你要找的只需要是從上到下第一個標志就可以了,我的意思是說,html代碼中允許有n個相同的開始(結束,下同)標志,但是只要這個位于我們要采集的內容的地方的標志是html從上到下的第一個就可以了。打開任何一個內容頁面,這邊以http://ent.163.com/06/1029/11/2UJNHOS3000322EL.html 為例,我們發現他的內容從“進入論壇”,因此雙擊代碼測試框,查找需要的代碼,如圖:
點擊在新窗口中瀏覽此圖片
我們可以用這個作為內容開始的標志,不過這樣還不完美,請自己在打開幾個內容頁面,在網頁中“右鍵點擊”――“查看源碼”,然后對比代碼,并提取相同的部分,我以 作為內容開始的標志。點擊在新窗口中瀏覽此圖片
接下來看內容結束標志,如下兩圖:
點擊在新窗口中瀏覽此圖片 點擊在新窗口中瀏覽此圖片
下面是根據我么設置規則采集回來的內容
點擊在新窗口中瀏覽此圖片
一般來說我們從開始標志到結束標志所采集回來的內容中都會包含有必須排除的內容或廣告,或鏈接。這邊我們需要排除的內容是“相關專題>>> 第六屆金鷹電視藝術節”。排除的方法是,找到相對應的代碼把代碼完整的拷貝進內容排除窗口,變動的部分用“(*)”替代。由于這個是整站規則,所以必須多找幾個類別,比如現在的這個163娛樂還包括了“明星 | 圖片 | 電影 | 電視 | 音樂 | 論壇 | 專題 | 名人訪 ”等,在這邊我只抽取“明星、圖片、電影”作為列子跟大家講解。找其他的類別只是希望把規則做的通用完美,如果你只要其中的一個分類,比如“圖片”那么你直接做這個的規則即可。
http://ent.163.com/06/1018/15/2TNNT7EU00031H2L.html 這個頁面剛好有分頁,所以就順便講下上下頁的設置。他這邊的“”和“”是用圖片做鏈接的,所以只要不圖片的名字(右鍵點擊對應的圖片查看屬性,拷貝圖片名即可)拷貝進對應的代碼框即可,詳細的看圖片:
點擊在新窗口中瀏覽此圖片
這邊提示下,任何內容的排除你只要找到對應的代碼完整的拷貝進代碼排除窗并把其中可變的部分替換成"(*)"即可。由于他這邊沒有廣告,所有整站規則就算制作完畢,點擊保存進入單任務制作。好了,整站規則就講這兩個標簽,其他的根據需要自己按上面的步驟添加,記住,萬變不離其宗。其他的問題請到火車采集器論壇:http://bbs.locoy.com 探討。

二、下面講解單任務規則制作:
1、內容規則的制作,很多人到現在可能都還不明白火車采集器好在哪,現在講的這個絕對是火車獨有的特色(至少到目前為止是這樣,以后有沒有人出相同的功能就不得而知了!)
火車采集器是不需要經過網址規則制作即可直接進入內容采集,這樣你就可以根據站點的難易決定是否采集選定的目標源,而不必等到網址采集后才發現原來這個網站你沒辦法采或者根本不值得你浪費這個時間(前面的時間白搭了!)。
火車v3.0最大的功能之一既是可以繼承站點的規則,只要你前面制作的規則通用,那么在接下來的所有任務都不需要再制作內容采集規則了。由于前面我們制作的內容采集規則通用,所以這邊的規則我們就不用講解了,直接繼承站點的,如圖:
點擊在新窗口中瀏覽此圖片
2、網址采集規則制作
步驟:“新建”――“新建任務”,其他的操作如下圖:
點擊在新窗口中瀏覽此圖片
作規則需要善于去發現規律性的東西,作到這點采集就沒什么問題了。我們要采集示例的地址在這http://ent.163.com/special/00031HI0/entnews.html
這板只采集其中的1-3頁作為范例。我們發現每個葉面的網址開始前面都包含“過往娛樂熱點”結束都是“第1 2……頁”,所以請到html源代碼里面拷貝對應的代碼,到特定區域采集范圍中,另外,網址中必須包含“/06/” 這樣網址采集就搞定了(簡單吧,自己試試看),如下圖:
點擊在新窗口中瀏覽此圖片
3、發布方式。發布方式有5種,這邊以最常用的“在線發布”為例。
選定web在線發布到網站,點擊“定義全局發布方式”,然后按系統提示的步驟:選定發布模塊――》填寫網站/cms根地址――》使用火車內置瀏覽器登陸――》登陸后關閉內置瀏覽器――》刷新列表――》測試模塊,測試成功――》保存配置――》保存任務――》發表 如下圖高亮的部分是你要操作的步驟,從左到右從上到下:
點擊在新窗口中瀏覽此圖片
下面是剛才我采集到本地論壇采集測試的兩個截屏:
點擊在新窗口中瀏覽此圖片點擊在新窗口中瀏覽此圖片

php技術火車頭采集器3.0采集圖文教程,轉載需保留來源!

鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。

主站蜘蛛池模板: 一本色道久久综合狠狠躁 | 中文字幕在线视频观看 | 久久精品网站2019精品 | 亚洲天堂色视频 | 免费在线观看一区二区 | 精品欧美一区二区vr在线观看 | 加勒比色综合久久久久久久久 | 久久91视频 | 成 人免费va视频 | 亚洲美女免费视频 | 国产亚洲精品sese在线播放 | 欧美综合视频在线观看 | 在线观看视频黄色 | 激情图片激情文学 | 天堂在线观看 | 亚洲精品久中文字幕 | 成人免费xxx在线观看 | 99久久精品国产免看国产一区 | 色多多福利网站 | 浮力影院第一页小视频国产在线观看免费 | 92精品国产自产在线观看48 | a色视频| 天天爽天天 | 免费一区二区三区视频导航 | 日本三级一区二区 | www.91自拍| 天天做天天爱夜夜大爽完整 | 久久青草免费91线频观看站街 | 日本一区二区视频在线观看 | 黄视频入口 | 四虎4hu永久在线观看 | 97人人做人人添人人爱 | 日韩 国产 欧美视频一区二区三区 | 国产一级做a爰片久久毛片男 | 精品午夜久久网成年网 | 成人免费va视频 | 国产亚洲精品日韩香蕉网 | 国产精品久久免费视频 | 色播在线永久免费视频 | 久久综合亚洲鲁鲁五月天欧美 | 天天综合天天干 |