親愛的用戶:
為了給用戶更好的采集體驗,2021年07月05日我們進行了火車采集器的版本更新,目前火車采集器V10.0版本已正式上線。
1、★數(shù)據(jù)獲取中支持調用其他標簽的值作為截取條件★ 數(shù)據(jù)提取方式支持調用其他標簽值可以讓采集過程更加靈活,在提取中點擊標簽符號即可調用其他標簽的值。下面介紹下具體使用方法: 我們以網(wǎng)址:https://detail.tmall.com/item.htm?id=644685533017,為例,目的為提取sku對應的顏色名稱,以一個顏色為示例: 目標網(wǎng)站獲取數(shù)據(jù)部分源碼: 注意:調用標簽在前后截取以及正則提取中皆可使用,使用方法相同。 2、★數(shù)據(jù)獲取支持CSS selector★ 火車采集器數(shù)據(jù)獲取新增支持CSS selector,很多網(wǎng)頁的css 的屬性唯一,此功能更利于批量從網(wǎng)頁中提取數(shù)據(jù)。 如要系統(tǒng)性學習css提取的知識,可以先看下教程:https://www.w3school.com.cn/cssref/css_selectors.asp。 在火車采集器集成了css提取功能,直接將css路徑填寫在界面中即可使用。Selector中填寫css路徑,節(jié)點屬性選擇需要采集的屬性。 比如: 注意:只有網(wǎng)頁源碼中有的元素,才能使用css獲取,若是源碼中沒有而是瀏覽器渲染過后才展示的css,無法通過火車采集器來獲取 3、★增加關聯(lián)區(qū)域功能★ 關聯(lián)區(qū)域功能,可以先截取網(wǎng)頁中指定區(qū)域內容,然后將該區(qū)域作為數(shù)據(jù)來源 進行采集處理。 關聯(lián)區(qū)域功能有利于網(wǎng)頁結構重復或者復雜的網(wǎng)頁形式的分析以及采集。 下面介紹下關聯(lián)區(qū)域功能的用法: 以網(wǎng)址:http://www.zzdzdt.com/download,為例,比如只想要采集2020年間的下載鏈接。如果直接循環(huán)采集,那么就會采集到其他年份的鏈接,干擾結果,所以我們可以使用關聯(lián)區(qū)域指定采集的區(qū)域。 下面介紹下具體的設置方法: (1)添加關聯(lián)區(qū)域 (2)數(shù)據(jù)來源中選擇關聯(lián)區(qū)域,然后按照一般的方式進行采集即可 4、★批量網(wǎng)址增加區(qū)間變化的網(wǎng)址增加方式★ 區(qū)間變化的變化原理為:地址中的兩個參數(shù)以固定的間隔進行增長,并且相鄰兩組值的結束值與起始值間隔為1,以這種形式變化增長的地址格式可以使用區(qū)間變化來處理。 比如以https://www.powerchina.cn/col/col7440/index.html?uid=46098&pageNum=1,網(wǎng)址為例,我們使用fiddler抓包網(wǎng)址變化如下: 第一頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=1&endrecord=16&perpage=16 第二頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=17&endrecord=32&perpage=16 第三頁:https://www.powerchina.cn/module/web/jpage/dataproxy.jsp?startrecord=33&endrecord=48&perpage=16 。。。 5、★批量設置步驟增加新增功能的相關設置★ 6、★運行統(tǒng)計日志設置添加默認關閉功能★ 7、★oss相關問題修復★ 8、★網(wǎng)址空格問題導致列表頁標簽錯誤問題修復★ 9、★下載相關問題修復★ 10、★修復“任務數(shù)據(jù)批量處理”中刪除為空記錄無效的問題★ 11、★文件下載插件增加文件下載后處理接口★ 感謝用戶的支持與使用,今后也請多多支持小采~如下圖,我們可以清晰的看到列表網(wǎng)址中,每一頁的起始值跟結束值都相差15,且相鄰的頁數(shù),上一頁的結束值與下一頁的起始值相差為1,符合區(qū)間變化的規(guī)律。
所以就可以按照下圖設置,變化的字段選用地址參數(shù),起始值用[地址參數(shù)],結束值用[地址參數(shù)1],區(qū)間步長使用起始值與結束值的間隔數(shù)。
注意:區(qū)間變化不可與批量網(wǎng)址中的其他方式混用,且必須有兩個地址參數(shù)
