性色欲网站人妻丰满中文久久不卡,99偷拍视频精品一区二区,小蜜被两老头吸奶头在线观看 ,老师好爽要尿了潮喷了视频高潮

網(wǎng)頁抓取工具之?dāng)?shù)據(jù)預(yù)處理

2017-05-26 15:05:39 瀏覽:8764


提取的數(shù)據(jù)還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網(wǎng)頁抓取工具火車采集器自有應(yīng)對(duì)方案——數(shù)據(jù)處理。

圖片1.png

網(wǎng)頁抓取工具的數(shù)據(jù)處理功能包括三個(gè)部分,分別是內(nèi)容處理、文件下載、內(nèi)容過濾。下面依次給大家介紹:

1、內(nèi)容處理:對(duì)從內(nèi)容頁面提取的數(shù)據(jù)進(jìn)行替換、標(biāo)簽過濾、分詞等進(jìn)一步處理,我們可以同時(shí)添加多個(gè)操作,但這里需要注意的是,有多個(gè)操作時(shí)是按照從上到下的順序來執(zhí)行,也就是說,上個(gè)步驟的結(jié)果會(huì)作為下個(gè)步驟的參數(shù)。

下面來逐個(gè)介紹一下:

①提取內(nèi)容為空:如果通過前面的規(guī)則無法準(zhǔn)確提取或提取到的內(nèi)容為空,則選擇此項(xiàng),此項(xiàng)應(yīng)用后會(huì)使用正則匹配從原始頁面中再次提取一次。

②內(nèi)容替換/排除:將采集到的內(nèi)容進(jìn)行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對(duì)內(nèi)容進(jìn)行替換,也可對(duì)字符串進(jìn)行參數(shù)替換等(區(qū)別于工具欄中的同義詞替換)。

③html標(biāo)簽過濾:過濾指定html標(biāo)簽,比如<a ,<font。這樣采集出來的內(nèi)容就不會(huì)帶有源碼中一些樣式標(biāo)簽,更符合我們的使用標(biāo)準(zhǔn)。

④字符截取:通過開始和結(jié)束字符串對(duì)內(nèi)容進(jìn)行截取。適用于對(duì)已提取內(nèi)容的截取調(diào)整。

⑤純正則替換:如果一些內(nèi)容(比如單一出現(xiàn)的文字)無法通過通用的內(nèi)容替換來操作,那么則需要通過強(qiáng)大的正則表達(dá)式進(jìn)行復(fù)雜的替換。

如“火爆的美式餐廳都在這里”,我們將其替換為“美式餐廳”,正則表達(dá)式如下:

圖片2.png

    ⑥數(shù)據(jù)轉(zhuǎn)換:包括將結(jié)果簡(jiǎn)轉(zhuǎn)繁、將結(jié)果繁轉(zhuǎn)簡(jiǎn)、自動(dòng)轉(zhuǎn)化為拼音和時(shí)間修正轉(zhuǎn)化,共計(jì)四項(xiàng)處理。

⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時(shí)間、智能提取郵箱、智能提取手機(jī)號(hào)碼、智能提取電話號(hào)碼。

⑧高級(jí)功能:包括自動(dòng)摘要、自動(dòng)分詞、自動(dòng)分類、Http請(qǐng)求、字符編碼轉(zhuǎn)換、同義詞替換、空內(nèi)容缺省值、內(nèi)容加前后綴、隨機(jī)插入、運(yùn)行C#代碼、批量?jī)?nèi)容替換,統(tǒng)計(jì)標(biāo)簽字符串長(zhǎng)度等一系列功能。

⑨補(bǔ)全單網(wǎng)址:將當(dāng)前內(nèi)容作為一個(gè)網(wǎng)址進(jìn)行補(bǔ)全。

2、文件下載:可以自動(dòng)探測(cè)并下載文件,可設(shè)置下載路徑和文件名樣式。

注意:文件下載中所指下載圖片是源代碼里有標(biāo)準(zhǔn)樣式<img src="圖片地址"/>標(biāo)簽的圖片地址。

比如是一個(gè)直接的圖片地址http://www.zzdzdt.com/logo.gif ,或者不規(guī)則的圖片源碼,采集器將會(huì)視為文件下載。

①將相對(duì)地址補(bǔ)全為絕對(duì)地址:勾選后會(huì)把標(biāo)簽采集到的相對(duì)地址補(bǔ)全為絕對(duì)地址。

②下載圖片:勾選后源代碼里的含標(biāo)準(zhǔn)樣式<img src="圖片地址"/>的代碼圖片將被下載。

③探測(cè)文件真實(shí)地址但不下載:有時(shí)候采集到的是附件下載地址,而非真實(shí)的下載地址,點(diǎn)擊后會(huì)有跳轉(zhuǎn)。這種情況下勾選此項(xiàng)會(huì)將真實(shí)地址采集出來,但是只是得到下載地址并不下載。

④探測(cè)文件并下載:勾選后可以把采集到的任何格式的文件附件下載下來。

3、內(nèi)容過濾:對(duì)于一些不符合條件的記錄,可以通過設(shè)置內(nèi)容過濾來刪除或標(biāo)記為未采。內(nèi)容過濾有以下幾個(gè)處理方法:

①內(nèi)容不得包含和內(nèi)容必須包含:可以設(shè)置多個(gè)詞,支持選擇所有條件都必須滿足或滿足其中一個(gè)條件即可。

②采集結(jié)果不得為空:該功能可以讓某個(gè)字段不出現(xiàn)空內(nèi)容。

③采集結(jié)果不得重復(fù):該功能可以讓某個(gè)字段不出現(xiàn)重復(fù)內(nèi)容。設(shè)置此項(xiàng)前請(qǐng)確保沒有采集過數(shù)據(jù),或者需先清空采集數(shù)據(jù)。

④當(dāng)內(nèi)容長(zhǎng)度小于(大于,等于,不等于)N時(shí)過濾:一個(gè)符號(hào)或一個(gè)字母或一個(gè)數(shù)字或一個(gè)漢字都計(jì)作一個(gè)。

注意:對(duì)于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設(shè)置功能里設(shè)置直接刪除此條記錄,或把此條記錄標(biāo)記為未采集下次運(yùn)行任務(wù)時(shí)會(huì)再次采集。

網(wǎng)頁抓取工具火車采集器中配備一系列數(shù)據(jù)處理的好處是,當(dāng)我們需要進(jìn)行的只是一個(gè)很小的操作時(shí),不需要再去寫插件,去生成和編譯,而是通過一步點(diǎn)擊就可以將數(shù)據(jù)處理成我們需要的樣子了。

 

掃碼關(guān)注微信
妻出轨和黑人疯狂做国产人| 少妇我被躁爽到高潮a片| 亚洲va无码手机在线电影| 看同性男aa片| 亚洲av无码成人精品区| 亚洲精品欧美综合二区| 国产伦精品一区二区三区妓女| 成熟丰满熟妇高潮xxxxx| 又大又粗又爽免费视频a片| 免费观看黄网站| 国产精品jizz在线观看老狼| 国产精品丝袜黑色高跟鞋| 啊灬用力灬啊灬啊灬啊灬| 99久久国产热无码精品免费 | 久久久久久99av无码免费网站| yy111111少妇无码理论片| 欧美老妇与zozoz0交| 亚洲成av人片一区二区三区 | 久久久www成人免费毛片| 亚洲 欧美 激情 小说 另类| 老师办公室狂肉校花h| 精品国产v无码大片在线观看| 粗了大了 整进去好爽视频| 亚洲成色WWW久久网站| 亚洲av中文无码乱人伦下载| 毛片24种姿势无遮无拦| 国产精品久久久久久AV| 性猛交富婆╳XXX乱大交| 亚洲熟妇无码av在线播放| 国产熟女乱子视频正在播放| 看av免费毛片手机播放| 8AV国产精品爽爽ⅤA在线观看| 男女裸体做爰猛烈全过程免费视频 | 狼友AV永久网站免费观看| 一个添下面两个吃奶把腿扒开| 永久免费的啪啪免费网址| 欧美午夜精品久久久久久浪潮| 狠狠色综合7777久夜色撩人| 久久伊人蜜桃av一区二区| 亚洲av无码一区二区二三区软件| 97人妻精品一区二区三区|