網(wǎng)友評分: 9.7分
爬山虎采集器是一款新一代智能化的網(wǎng)頁采集工具,智能分析、可視化界面,一鍵采集無需編程,支持自動生成采集腳本,可以采集互聯(lián)網(wǎng)99%的網(wǎng)站。軟件簡單易學,通過智能算法+可視化界面,隨心所欲,抓取自己想到的數(shù)據(jù)。只要輕松點擊鼠標,就能采集網(wǎng)頁上的數(shù)據(jù)。
一鍵提取數(shù)據(jù)
簡單易學,通過可視化界面,鼠標點擊即可抓取數(shù)據(jù)
快速高效
內(nèi)置一套高速瀏覽器內(nèi)核,加上HTTP引擎模式,實現(xiàn)快速采集數(shù)據(jù)
適用各種網(wǎng)站
能夠采集互聯(lián)網(wǎng)99%的網(wǎng)站,包括單頁應用Ajax加載等等動態(tài)類型網(wǎng)站
向?qū)J?/p>
簡單易用,輕松通過鼠標點擊自動生成
腳本定時運行
可按照計劃定時運行,無需人工
獨創(chuàng)高速內(nèi)核
自研的瀏覽器內(nèi)核,速度飛快,遠超對手
智能識別
對于網(wǎng)頁中的列表、表單結構(多選框下拉列表等)能夠智能識別
廣告屏蔽
定制的廣告屏蔽模塊,兼容AdblockPlus語法,可添加自定義規(guī)則
多種數(shù)據(jù)導出
支持Txt 、Excel、MySQL、SQLServer、SQlite、Access、網(wǎng)站等
輸入采集網(wǎng)址
打開軟件,新建任務,輸入需要采集的網(wǎng)站地址。
智能分析,全程自動化提取數(shù)據(jù)
進入到第二步后,爬山虎采集器全自動智能分析網(wǎng)頁,并且從中提取出列表數(shù)據(jù)。
導出數(shù)據(jù)到表格、數(shù)據(jù)庫、網(wǎng)站等
運行任務,將采集到的數(shù)據(jù)導出為Csv、Excel以及各種數(shù)據(jù)庫,支持api導出。
問:如何過濾列表中的前N個數(shù)據(jù)?
1、有時我們需要對采集到的列表進行過濾,比如過濾掉第一組數(shù)據(jù)(在采集表格時,過濾掉表格列名)
2、點擊列表模式菜單中的,設置列表xpath
問:如何抓包獲取Cookie,并且手動設置?
1、首先,使用谷歌瀏覽器打開要采集的網(wǎng)站,并且登陸。
2、然后按下 F12,會出現(xiàn)開發(fā)者工具,選擇 Network
3、然后按下F5,刷新下頁面, 選擇其中一個請求。
4、復制完成后,在爬山虎采集器中,編輯任務,進入第三步,指定HTTP Header。
優(yōu)化網(wǎng)頁表格數(shù)據(jù)的識別,可按照表格列名自動命名字段
優(yōu)化時間提取
修復當有自定義字段,沒有匹配到不保存數(shù)據(jù)的問題
添加時間戳變量
計劃任務,每間隔分鐘增加開始秒
標簽: 網(wǎng)頁采集
關于本站|下載幫助|下載聲明|軟件發(fā)布|聯(lián)系我們
Copyright ? 2005-2024 hanheng168.com.All rights reserved.
浙ICP備06019006號-1 浙公網(wǎng)安備33038102330474號