早上看到老趙的《一個(gè)較完整的關(guān)鍵字過濾解決方案(上)》文章,講到怎樣在項(xiàng)目中嵌入過濾方案的問題,以及提到 xingd 和 sumtec 兩位大師發(fā)表的系列互拼的文章,在此我也忍不住談?wù)勛约河龅降膯栴}以及一個(gè)的簡化版的算法。
因?yàn)檫^濾關(guān)鍵字機(jī)制到處可見,于是聰明的網(wǎng)友就會(huì)想到各種各樣的方法突破,例如:
1、中文會(huì)用繁體字的方法避開關(guān)鍵字掃描
2、在關(guān)鍵字中間插入無意思的特殊字符,例如 * & # @ 等,而且個(gè)數(shù)可變
3、使用諧音或拆字法變換關(guān)鍵字
在實(shí)現(xiàn)自己的算法時(shí)也有些問題:
4、隨著時(shí)間推移,關(guān)鍵字列表會(huì)越來越大,有些論壇常用的正則表達(dá)式N次掃描的方法顯得效率很低。
5、關(guān)鍵字有不同的嚴(yán)重級(jí)別,有些需要禁止,有些只需要替換,還有一些可能記錄一下即可。
針對(duì)這些問題,可采用的應(yīng)對(duì)方法:
1、加載關(guān)鍵字列表時(shí),將所有的關(guān)鍵字轉(zhuǎn)換成繁體字一份,以掃描繁體版的關(guān)鍵字;
這個(gè)轉(zhuǎn)換工作只需一句就可以實(shí)現(xiàn)了:
s=Microsoft.VisualBasic.Strings.StrConv(word, Microsoft.VisualBasic.VbStrConv.TraditionalChinese, 0);
2、在掃描原文本時(shí),如果遇到關(guān)鍵字的首個(gè)文字,忽略其后的特殊字符,直到下一個(gè)有意義的文字為止,當(dāng)然這里需要在定義關(guān)鍵字列表時(shí)指定哪些才需要這樣掃描,并不是所有關(guān)鍵字都采用這種方式;
例如有關(guān)鍵字 “你好”經(jīng)常會(huì)被人輸入成“你x好”或者“你xxxxx好”,那么在關(guān)鍵字列表里就需要定義成“你*好”,在匹配關(guān)鍵字時(shí),如果遇到星號(hào)就忽略原文本下一個(gè)為特殊的字符。
3、遇到諧音和拆字時(shí),沒什么好辦法了,只好將這些諧音詞和拆分詞也加入到關(guān)鍵字列表。
4、不用正則表達(dá)式或者 String.IndexOf方法,可以將所有關(guān)鍵字的首字相同的組成一個(gè)一個(gè)小組,然后在將首字放到一個(gè)散列表(HashTable/Dictionary),在掃描原文本時(shí)先在散列表里掃描,如果碰到了首字再掃描同組的關(guān)鍵字,這樣簡單處理一下效率可以提高很多。

還有一個(gè)比用散列表更好的方法,將散列表改成一個(gè)大小為char.MaxValue的數(shù)組,然后將首個(gè)文字轉(zhuǎn)成int,即char->int,然后將關(guān)鍵詞集合放到相應(yīng)下標(biāo)里。這樣在掃描原文本時(shí),將被掃描的字符轉(zhuǎn)成int,然后試探數(shù)組相應(yīng)下標(biāo)的元素是否不為NULL。這樣比用散列表會(huì)更快一些。
5、在定義關(guān)鍵字時(shí),同時(shí)給一個(gè)“級(jí)別”屬性,例如使用 E,R,B分別表示只記錄、替換、禁止等情況。
于是關(guān)鍵字的列表如下所示:
你滾 E
他niang的 R
成*人*網(wǎng)*站 B
這里貼一下關(guān)鍵的部分代碼:

Code
private WordGroup[] _wordTable;
public FilterResult Filter(ref string source,char replaceChar)
{
//NOTE::
// 如果方法返回 FilterResult.Replace或者FilterResult.Banned,則原字符串的某些字會(huì)被替代為星號(hào),替代后的字符串可以由source取得
if (String.IsNullOrEmpty(source)) return FilterResult.Pass;
FilterResult result = FilterResult.Pass;
char[] tempString = null;
int start = 0;
for (; start < source.Length; start++)
{
WordGroup fw = _wordTable[fastToLower(source[start])];
if (fw != null)
{
for (int idx = 0; idx < fw.Count; idx++)
{
WordEntity we = fw.GetItem(idx);
int matchLength=0;
if (we.Word.Length==0 || checkString(source, we.Word, start + 1, out matchLength))
{
FilterResult fr = we.HandleType;
if (fr > result) result = fr; //記錄最高級(jí)別的處理方法
if (fr == FilterResult.Replace || fr == FilterResult.Banned)
{
//替換關(guān)鍵字
if(tempString==null) tempString =source.ToCharArray();;
for (int pos = 0; pos < matchLength + 1; pos++)
{
tempString[pos + start] = replaceChar;
}
}
}
}
}
}
if (result > FilterResult.RecordOnly)
{
source = new string(tempString);
}
return result;
}
private bool checkString(string source, string keyword, int sourceStart, out int matchLength)
{
bool found = false;
int sourceOffset = 0;
int keyIndex = 0;
for (; keyIndex < keyword.Length; keyIndex++)
{
if (sourceOffset + sourceStart >= source.Length) break; //原始字符串已經(jīng)全部搜索完畢
if (keyword[keyIndex] == '*')
{
//跳過可忽略的字符
while (sourceOffset + sourceStart < source.Length)
{
if (isIgnorableCharacter_CN(source[sourceOffset + sourceStart]))
sourceOffset++;
else
break;
}
}
else
{
//比較字母
if (fastToLower(source[sourceOffset + sourceStart]) == (int)keyword[keyIndex])
{
if (keyIndex == keyword.Length - 1)
{
found = true;
break;
}
}
else
{
break;
}
sourceOffset++;//移動(dòng)原始字符串
}
}
//如果匹配中關(guān)鍵字,則返回原字符串中被匹配中的文字的長度,否則返回0
matchLength = sourceOffset + 1;
return found;
}
private int fastToLower(char character)
{
//將大寫英文字母以及全/半角的英文字母轉(zhuǎn)化為小寫字母
int charVal = (int)character;
if (charVal <= 90)
{
if (charVal >= 65) //字母A-Z
return charVal - 65 + 97;
}
else if (charVal >= 65313)
{
if (charVal <= 65338)
return charVal - 65313 + 97; //全角大寫A-Z
else if (charVal >= 65345 && charVal <= 65370)
return charVal - 65345 + 97; //全角小寫a-z
}
return charVal;
}
private bool isIgnorableCharacter_CN(char character)
{
//NOTE::
// 中文表意字符的范圍 4E00-9FA5
int charVal = (int)character;
return !(charVal >= 0x4e00 && charVal <= 0x9fa5);
}
// 單個(gè)過濾詞條目
class WordEntity
{
public string Word { get; set; }
public FilterResult HandleType { get; set; }
}
// 過濾詞的組
class WordGroup
{
//NOTE::用于裝載一組具有同一個(gè)字開頭的過濾詞
private List<WordEntity> _words;
public WordGroup()
{
_words = new List<WordEntity>();
}
public void AppendWord(string word, FilterResult handleType)
{
AppendWord(new WordEntity() { Word = word, HandleType = handleType });
}
public void AppendWord(WordEntity word)
{
_words.Add(word);
}
public int Count
{
get { return _words.Count; }
}
public WordEntity GetItem(int index)
{
return _words[index];
}
}
NET技術(shù):一個(gè)簡單的關(guān)鍵字過濾算法,轉(zhuǎn)載需保留來源!
鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。