點擊關注▲火車采集器
導讀:每周一數活動是小采贈送給所有商業(yè)版本用戶的一個福利,每周都會篩選用戶需求選擇網站進行爬取數據,并會附帶采集規(guī)則,讓用戶舉一反三,在更多場景中更好的使用小采。領取范圍:火車采集器、火車瀏覽器、觸控精靈三款軟件的商業(yè)用戶,軟件需在服務期限內。領取規(guī)則:添加文章內火車運營微信后,將會被拉入“每周一數福利群”,加群后私聊 客服·雅 就可。領取內容:網站旅游文章數據以及采集規(guī)則,如下圖
采集字段: 城市、標題、內容(前兩頁樓主發(fā)布的內容)點擊下一頁地址,可以發(fā)現變化的只有最后一個數字,所以分頁設置可以使用批量網址功能按Ctrl+U查看源碼,城市和標題可以在列表頁標簽采集因為帖子下面還有其他網友的回答,為了方便只采集作者發(fā)布的內容,我們可以點擊只看作者這個的鏈接我們在二級列表里采集,只看該作者的鏈接提取第一個就可以,可以在寫提取規(guī)則時多寫一部分來讓它只能匹配到一個,如下圖所示列表頁設置的城市標簽 內容沒做處理,會采集到a標簽,這里在數據處理里將標簽過濾這里需要采集前兩頁的內容,需要設置內容分頁,也是從源碼中查看分頁地址
因為只采集前兩頁內容,所以需要設置下,點擊內容分頁設置下面的其他設置,可以修改采集的內容分頁數量內容頁提取規(guī)則,這里我們選擇的是使用 xpath 提取(關于xpath的寫法,大家百度下就可以找到),數據來源記得要改成從默認頁和內容分頁源碼中獲取然后使用數據處理功能清洗數據,將一些不需要的內容刪除,內容里圖片可以點擊下面的文件下載,如圖設置,即可將圖片下載到本地,由于網址中圖片太多,本次實際沒有勾選下載6、最后我們將采集的數據導出到本地HTML文件里,可以根據需要修改模板文件

本次每周一數贈送的依然是數據+采集規(guī)則,僅限火車軟件的商業(yè)版本用戶哦!領取時間:2019年11月14 日發(fā)文后5個工作日內(節(jié)假日除外)領取方式:掃碼加運營微信,運營會拉您進每周一數群,群內加:【火車數據咨詢客服.雅】,經驗證為商業(yè)用戶后,即可領取。