網(wǎng)友評(píng)分: 9.5分
善肯網(wǎng)頁TXT采集器是款專業(yè)的網(wǎng)頁文本采集工具。它可以幫助用戶下載到一些網(wǎng)站的小說文章,通過專業(yè)的正則表達(dá)式篩選,去除掉不必要的內(nèi)容,非常的簡(jiǎn)單實(shí)用。
1、規(guī)則設(shè)置:
?、僭谝?guī)則設(shè)置窗口,在網(wǎng)站中隨便找一篇文,不寫任何規(guī)則,先點(diǎn)擊實(shí)時(shí)預(yù)覽,看看能不能獲取網(wǎng)頁源代碼,能獲取則再寫規(guī)則,不能獲取就沒必要繼續(xù)了。
?、谝?guī)則設(shè)置使用的是正則表達(dá)式匹配內(nèi)容,有一定基礎(chǔ)最好,沒基礎(chǔ)也可以參考給的范例,簡(jiǎn)單學(xué)習(xí)下,不需要深入學(xué)習(xí)正則。
?、垡?guī)則設(shè)置的時(shí)候,目錄頁和內(nèi)容頁需要分開預(yù)覽,也就需要兩個(gè)鏈接,一個(gè)目錄頁鏈接、一個(gè)內(nèi)容頁鏈接。
④關(guān)于替換,有通用替換和定制替換,這里目前不需要正則,普通替換就好,需要注意的是必須要輸入值,空格也行。刪除:選中整行,再按住delete鍵就行。內(nèi)置\n再作為替換數(shù)據(jù)的時(shí)候代表換行。
⑤編碼,目前只設(shè)置有GBK和UFT-8,差不多大多數(shù)網(wǎng)站就是這兩種編碼其中之一。
2、解析與下載
?、俳馕稣?qǐng)按解析地址2按鈕,1按鈕目前任性不想刪,后面要開發(fā)其他功能,
?、谥С謫握鹿?jié)下載和全文下載。
?、壑С痔砑诱鹿?jié)數(shù)【有的小說沒有章節(jié)數(shù)的時(shí)候就可以勾上】
?、苤С衷诰€看,但是需要聯(lián)網(wǎng),此功能只是輔助,并非專業(yè)的看小說軟件。
⑤下載進(jìn)度和總需時(shí)間顯示,內(nèi)置多線程。
3、關(guān)于軟件
?、倨鋵?shí)只要.exe就行,規(guī)則全是自己添加,commonrule.xml里面是通用替換規(guī)則。網(wǎng)站規(guī)則在rule文件夾下。我這邊在里面放了兩個(gè)網(wǎng)站的規(guī)則,主要是測(cè)試的時(shí)候是用的。其他網(wǎng)站規(guī)則,大家可以自己添加,或者支持開發(fā)者也行。
②軟件沒加殼,c#開發(fā)的,沒放病毒。不放心請(qǐng)不要用,我不背鍋。
?、坳P(guān)于軟件里面有個(gè)www.52pojie.cn跳轉(zhuǎn)到論壇,我個(gè)人測(cè)試跳轉(zhuǎn)的時(shí)候被360提示了,也有可能是因?yàn)樘D(zhuǎn)的是360瀏覽器,不知道你們會(huì)不會(huì)有這個(gè)問題。
?、躼ml里面的內(nèi)容,如果不清楚的話還是不要?jiǎng)铀?,免得軟件識(shí)別失敗報(bào)錯(cuò)。
標(biāo)簽: 文字采集 網(wǎng)頁采集器
關(guān)于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 hanheng168.com.All rights reserved.
浙ICP備06019006號(hào)-1 浙公網(wǎng)安備33038102330474號(hào)