|
火車頭免費版本不支持采集結果的外掛處理,比如采用php來輔助處理結果,而火車頭本身對于正則表達式的不完整支持,
導致對于采集一些有混淆文字的內容效果不好,那么咱們怎么做到過濾那些混淆字串呢?
其實很簡單--采用服務器端過濾
比如采集發送到服務器端是:
$_POST = array("subject"=> "這里是標題","content"=> "<div class='1fadfafasfasdf'>混淆文字</div>這里是內容");
在服務器端我們稍加處理:
$_POST["content"] = preg_replace("正則表達式","",$_POST["content"]);
就可以使用熟悉的工具完成工作。
有朋友說了,我服務器端代碼是加密的怎么辦?
其實很簡單 比如 add.php 加密 ,那么將add.php 改名為 add_ori.php
然后建立新的 add.php
<?
//處理上傳來的數據
....
include dirname(__FILE__)."/add_ori.php";
?>
這樣就可以了
php技術:火車采集器 免費版使出收費版本功能實現原理,轉載需保留來源!
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。