基于Java的臟字過濾器設(shè)計

時間：2018-09-28 16:10:01

關(guān)鍵字： java 網(wǎng)絡(luò)管理設(shè)計教程臟字過濾器

手機看文章

掃描二維碼
隨時隨地手機看文章

[導讀]為了減少網(wǎng)絡(luò)中的不良信息對青少年造成的危害，設(shè)計了一種臟字過濾的軟件，可以發(fā)現(xiàn)那些網(wǎng)頁內(nèi)容中含有的不良信息，便于網(wǎng)絡(luò)管理員對網(wǎng)絡(luò)文化的維護。

良好的網(wǎng)絡(luò)文化對培養(yǎng)青少年的愛國意識、創(chuàng)新精神、促進青少年良好的個性發(fā)展以及文化學習等方面都有積極的作用。但是網(wǎng)絡(luò)文化中混雜著種種不良因素，對青少年造成許多負面影響：網(wǎng)絡(luò)中的不健康內(nèi)容不利于青少年的成長，甚至造成許多青少年犯罪行為的不斷發(fā)生；網(wǎng)絡(luò)世界的虛擬性還會造成青少年對現(xiàn)實社會的不滿，青少年對網(wǎng)絡(luò)世界的過分迷戀會導致網(wǎng)絡(luò)孤獨，網(wǎng)絡(luò)中多元化的內(nèi)容會導致青少年認識偏差，網(wǎng)絡(luò)的隱匿性容易使青少年道德弱化[1]。特別令人擔憂的是不良的網(wǎng)絡(luò)文化對青少年的犯罪起著推動作用，值得全社會關(guān)注和重視。

本文提出了一種臟字過濾器軟件的設(shè)計，對網(wǎng)絡(luò)中不良的內(nèi)容進行查找、發(fā)現(xiàn)，避免這些不良網(wǎng)絡(luò)文化侵蝕青少年的心靈健康。

1 臟字過濾器的設(shè)計原理

臟字過濾器的原理圖如圖1所示。其原理如下：（1）對臟字庫的內(nèi)容進行分割，把臟字庫中所有的臟字或詞組分開，并把這些臟字或詞組存入數(shù)組中；（2）將待測文件庫中的文件進行逐個讀取，并記錄文件的內(nèi)容；（3）在待測文件中查找是否存在剛存放臟字或臟詞組內(nèi)容的數(shù)組里面的內(nèi)容，如果有，進行標注等操作；如果沒有，繼續(xù)檢查待測文件庫中的下一個待測文件，直到待測文件庫中的待測文件都被檢查完為止；（4）輸出結(jié)果。即輸出待測文件庫中每個待測文件中包含臟字或臟詞組的個數(shù)及出處等信息。

2 算法實現(xiàn)

　軟件開發(fā)環(huán)境：myeclipse平臺，Java語言。首先以myeclipse平臺新建一個java project，在新建的project中需要導入下面相關(guān)文件：

import java.io.BufferedReader；
import java.io.File；
import java.io.FileNotFoundException；
import java.io.FileReader；
import java.io.IOException；
import java.io.InputStreamReader；
import java.util.StringTokenizer；

過濾器軟件中main函數(shù)的主要內(nèi)容如下：
public static void main（String[] args） {
BufferedReader br=new BufferedReader（new InputStreamReader（System.in））；
String ans=null；
int cnt=0；//字庫中關(guān)鍵詞個數(shù)
int number=0；//臟字出現(xiàn)次數(shù)
String filepath="D：\臟字待測文件庫"；
//待檢測文件路徑，此文件夾下可以放若干個待檢測的文件
String fileLibrarypath="D：\臟字典\file.txt"；
//臟字庫文件的存放路徑
File file = new File（filepath）；
try {

//讀入用戶輸入的回車鍵信息
System.out.println（"請按回車鍵，查看過濾信息："）；
String str = null；
str = br.readLine（）；
if （str != null） {
if （!file.isDirectory（）） {
System.out.println（"待檢測文件路徑
不對，請修改路徑。"）；
} else if （file.isDirectory（）） {
ans=getcontent（fileLibrarypath）；
int k；
StringTokenizer sst=new
StringTokenizer（ans， "|"）；
k = sst.countTokens（）；
String[] record = new String[k]；
while （sst.hasMoreElements（）） {
record[cnt] = sst.nextToken（）；
cnt++；
}
String[] filelist = file.list（）；
for （int i = 0， flen = filelist.length； i
< flen； i++）{
String temp = filepath +
"\" + filelist[i]；
number = searchkeyword（record，
cnt， temp）；
System.out.println（"第"+（i+1） +"文件中臟字出現(xiàn)的次數(shù)：" + number）；
//字庫中關(guān)鍵詞個數(shù)
}
} else {
//提示用戶按回車鍵
System.out.println（"你還沒有輸入回
車鍵信息"）；
}
}
} catch （IOException e） {
e.printStackTrace（）；
}

//輸出查詢結(jié)果
if （ans != null） {
System.out.println（"字庫中關(guān)鍵詞個數(shù)："+ cnt）；//字庫中關(guān)鍵詞個數(shù)
System.out.println（"臟字庫內(nèi)容如下："+ ans）；
} else {
System.out.println（"沒有可以匹配的信息"）；
//輸出臟字庫中的內(nèi)容
}
}

//得到指定路徑文件中的內(nèi)容
private static String getcontent（String filepath） {
String all = ""；
File file = new File（filepath）；
try {
if （!file.isFile（）） {
System.out.println（"文件路徑不對，請修改路徑"）；
} else {
File readfile = new File（filepath）；
BufferedReader br = new BufferedReader（new FileReader（readfile））；
String ss = br.readLine（）；
while （ss != null） {
all = all + ss；
//all中存放讀取的文件內(nèi)容信息
ss = br.readLine（）；
}
}
} catch （FileNotFoundException e） {
e.printStackTrace（）；
} catch （IOException e） {
e.printStackTrace（）；
}
return all；
}

//在待測文件中匹配臟字出現(xiàn)的次數(shù)
private static int searchkeyword（String[] str， int cnt， String filepath）{
int number = 0；
String s = ""；
s = getcontent（filepath）；
for （int i = 0； i < cnt； i++） {
if （s.indexOf（str[i]） > -1） {
number++；
}
}
return number；
}
至此，完成了臟字過濾器軟件代碼的編寫工作，接下來可以進行run操作，即可以得到待測文件庫中的待測文件包含臟字次數(shù)及出處等相關(guān)信息的結(jié)果。

3 實驗結(jié)果分析

臟字庫的存放路徑：D：臟字典file.txt；臟字庫文件中的內(nèi)容略。

待測文件庫的存放路徑：D：臟字待測文件庫；文件庫中存放了三個文件，分別為：test1.txt、test2.txt、test3.txt。

運行該過濾器軟件后，得出的檢測結(jié)果如圖2所示。

由圖可以看到把待測文件中臟字及臟詞組出現(xiàn)的次數(shù)全部顯示出來，結(jié)果與實際情況完全一致。
本文設(shè)計的臟字過濾器軟件，已在myeclipse環(huán)境下通過Java語言實現(xiàn)，并對整個過濾器軟件進行了測試，測試結(jié)果顯示該設(shè)計完全可以達到對網(wǎng)頁文件中的臟字進行過濾，還能指出這些臟字的數(shù)目及其出處。為網(wǎng)絡(luò)管理員的管理帶來方便，并給網(wǎng)絡(luò)管理方面的編程人員提供了一個良好的開發(fā)平臺。