|
復制代碼 代碼如下:
function escape($str){
preg_match_all('/[/x80-/xff].|[/x01-/x7f]+/',$str,$r);
$ar = $r[0];
foreach($ar as $k=>$v){
if(ord($v[0]) < 128)
$ar[$k] = rawurlencode($v);
else
$ar[$k] = '%u'.bin2hex(iconv('GB2312','UCS-2',$v));
}
return join('',$ar);
}
上面的函數主要是用php實現JavaScript的escape編碼過程,因為洪恩的查詢接口需要傳遞過去的值是經過escape編碼后的成語條目。
復制代碼 代碼如下:
function chacy($chengyu){
$chengyu=escape($chengyu);
$text=@file_get_contents('http://study.hongen.com/dict/ndsearchchengyu.ASPx?type=exact&word='.$chengyu);
$pos1=strpos($text,'<table class="root">');
$pos2=strrpos($text,'<table class="english">');
$text=substr($text,$pos1,$pos2-$pos1);
//把字符集由原來的UTF-8轉換到GB2312,注意在GB2312之后加上了//IGNORE,強制遇到特殊字符也繼續轉換,因為在遇到漢字“一”的時候iconv函數會終止轉換
$text=iconv('UTF-8','GB2312//IGNORE',$text);
if (strpos($text,'出處')){
return $text;
}
}
上面是自己定義的成語查詢函數,首先escape編碼要查詢的成語條目,然后使用file_get_contents函數獲取“http://study.hongen.com/dict/ndsearchchengyu.ASPx?type=exact&word=”頁面查詢的內容,使用substr去除前后一些不需要的多余代碼,中間就是成語條目的解釋部分(包括拼音、解釋、出處、例句),最后記得要轉碼,洪恩返回的結果是UTF-8編碼,一般情況下我們需要轉換為GB2312編碼,上面我寫了一個有關iconv函數轉換編碼有時會出現bug的注釋文本,需要加上一個//IGNORE參數。最后判斷結果中是否存在“出處”二字,有的話說明整個函數運行成功,可以把獲取到的內容return給頁面了。
程序主體實現完成,只需在相應位置調用查詢函數:chacy 就可以了。
php技術:洪恩在線成語詞典小偷程序php版,轉載需保留來源!
鄭重聲明:本文版權歸原作者所有,轉載文章僅為傳播更多信息之目的,如作者信息標記有誤,請第一時間聯系我們修改或刪除,多謝。