性色欲网站人妻丰满中文久久不卡,99偷拍视频精品一区二区,小蜜被两老头吸奶头在线观看 ,老师好爽要尿了潮喷了视频高潮

網(wǎng)頁抓取工具之?dāng)?shù)據(jù)預(yù)處理

2017-05-26 15:05:39 瀏覽:8764


提取的數(shù)據(jù)還不能直接拿來用?文件還沒有被下載?格式等都還不符合要求?別著急,網(wǎng)頁抓取工具火車采集器自有應(yīng)對(duì)方案——數(shù)據(jù)處理。

圖片1.png

網(wǎng)頁抓取工具的數(shù)據(jù)處理功能包括三個(gè)部分,分別是內(nèi)容處理、文件下載、內(nèi)容過濾。下面依次給大家介紹:

1、內(nèi)容處理:對(duì)從內(nèi)容頁面提取的數(shù)據(jù)進(jìn)行替換、標(biāo)簽過濾、分詞等進(jìn)一步處理,我們可以同時(shí)添加多個(gè)操作,但這里需要注意的是,有多個(gè)操作時(shí)是按照從上到下的順序來執(zhí)行,也就是說,上個(gè)步驟的結(jié)果會(huì)作為下個(gè)步驟的參數(shù)。

下面來逐個(gè)介紹一下:

①提取內(nèi)容為空:如果通過前面的規(guī)則無法準(zhǔn)確提取或提取到的內(nèi)容為空,則選擇此項(xiàng),此項(xiàng)應(yīng)用后會(huì)使用正則匹配從原始頁面中再次提取一次。

②內(nèi)容替換/排除:將采集到的內(nèi)容進(jìn)行字符串替換,如需排除,則替換為空字符串即可,功能很靈活。如下圖,可直接對(duì)內(nèi)容進(jìn)行替換,也可對(duì)字符串進(jìn)行參數(shù)替換等(區(qū)別于工具欄中的同義詞替換)。

③html標(biāo)簽過濾:過濾指定html標(biāo)簽,比如<a ,<font。這樣采集出來的內(nèi)容就不會(huì)帶有源碼中一些樣式標(biāo)簽,更符合我們的使用標(biāo)準(zhǔn)。

④字符截取:通過開始和結(jié)束字符串對(duì)內(nèi)容進(jìn)行截取。適用于對(duì)已提取內(nèi)容的截取調(diào)整。

⑤純正則替換:如果一些內(nèi)容(比如單一出現(xiàn)的文字)無法通過通用的內(nèi)容替換來操作,那么則需要通過強(qiáng)大的正則表達(dá)式進(jìn)行復(fù)雜的替換。

如“火爆的美式餐廳都在這里”,我們將其替換為“美式餐廳”,正則表達(dá)式如下:

圖片2.png

    ⑥數(shù)據(jù)轉(zhuǎn)換:包括將結(jié)果簡(jiǎn)轉(zhuǎn)繁、將結(jié)果繁轉(zhuǎn)簡(jiǎn)、自動(dòng)轉(zhuǎn)化為拼音和時(shí)間修正轉(zhuǎn)化,共計(jì)四項(xiàng)處理。

⑦智能提?。喊ㄌ崛〉谝粡垐D片、智能提取時(shí)間、智能提取郵箱、智能提取手機(jī)號(hào)碼、智能提取電話號(hào)碼。

⑧高級(jí)功能:包括自動(dòng)摘要、自動(dòng)分詞、自動(dòng)分類、Http請(qǐng)求、字符編碼轉(zhuǎn)換、同義詞替換、空內(nèi)容缺省值、內(nèi)容加前后綴、隨機(jī)插入、運(yùn)行C#代碼、批量?jī)?nèi)容替換,統(tǒng)計(jì)標(biāo)簽字符串長(zhǎng)度等一系列功能。

⑨補(bǔ)全單網(wǎng)址:將當(dāng)前內(nèi)容作為一個(gè)網(wǎng)址進(jìn)行補(bǔ)全。

2、文件下載:可以自動(dòng)探測(cè)并下載文件,可設(shè)置下載路徑和文件名樣式。

注意:文件下載中所指下載圖片是源代碼里有標(biāo)準(zhǔn)樣式<img src="圖片地址"/>標(biāo)簽的圖片地址。

比如是一個(gè)直接的圖片地址http://www.zzdzdt.com/logo.gif ,或者不規(guī)則的圖片源碼,采集器將會(huì)視為文件下載。

①將相對(duì)地址補(bǔ)全為絕對(duì)地址:勾選后會(huì)把標(biāo)簽采集到的相對(duì)地址補(bǔ)全為絕對(duì)地址。

②下載圖片:勾選后源代碼里的含標(biāo)準(zhǔn)樣式<img src="圖片地址"/>的代碼圖片將被下載。

③探測(cè)文件真實(shí)地址但不下載:有時(shí)候采集到的是附件下載地址,而非真實(shí)的下載地址,點(diǎn)擊后會(huì)有跳轉(zhuǎn)。這種情況下勾選此項(xiàng)會(huì)將真實(shí)地址采集出來,但是只是得到下載地址并不下載。

④探測(cè)文件并下載:勾選后可以把采集到的任何格式的文件附件下載下來。

3、內(nèi)容過濾:對(duì)于一些不符合條件的記錄,可以通過設(shè)置內(nèi)容過濾來刪除或標(biāo)記為未采。內(nèi)容過濾有以下幾個(gè)處理方法:

①內(nèi)容不得包含和內(nèi)容必須包含:可以設(shè)置多個(gè)詞,支持選擇所有條件都必須滿足或滿足其中一個(gè)條件即可。

②采集結(jié)果不得為空:該功能可以讓某個(gè)字段不出現(xiàn)空內(nèi)容。

③采集結(jié)果不得重復(fù):該功能可以讓某個(gè)字段不出現(xiàn)重復(fù)內(nèi)容。設(shè)置此項(xiàng)前請(qǐng)確保沒有采集過數(shù)據(jù),或者需先清空采集數(shù)據(jù)。

④當(dāng)內(nèi)容長(zhǎng)度小于(大于,等于,不等于)N時(shí)過濾:一個(gè)符號(hào)或一個(gè)字母或一個(gè)數(shù)字或一個(gè)漢字都計(jì)作一個(gè)。

注意:對(duì)于滿足上述四條中的任何一條或者多條的情況下,可以在采集器的其他設(shè)置功能里設(shè)置直接刪除此條記錄,或把此條記錄標(biāo)記為未采集下次運(yùn)行任務(wù)時(shí)會(huì)再次采集。

網(wǎng)頁抓取工具火車采集器中配備一系列數(shù)據(jù)處理的好處是,當(dāng)我們需要進(jìn)行的只是一個(gè)很小的操作時(shí),不需要再去寫插件,去生成和編譯,而是通過一步點(diǎn)擊就可以將數(shù)據(jù)處理成我們需要的樣子了。

 

掃碼關(guān)注微信
精品国产av无码一区二区三区| 黄色视频app下载| 男人一边吃奶一边做爰免费视频| 蜜桃视频在线观看| 国产伦精品一区二区三区免费迷| 一女被五男在别墅调教| 夜夜躁狠狠躁日日躁2022| 边做奶水边喷h高h共妻| 色欲色香天天天综合无码WWW| 攵女h上下耸动| 日本特黄特色aaa大片免费| 亚洲综合AV一区二区三区| 丝袜 亚洲 另类 欧美 变态| 国产乱人伦偷精品视频免下载| 国产极品粉嫩福利姬萌白酱| 欧美性色黄大片a级毛片视频| av精品一区二区三区| 粗大的内捧猛烈进出爽大牛汉子文 | 粗大好烫轻点太深好硬好涨视频 | 国产女人喷潮视频在线观看| 啊灬啊灬啊灬快灬深视频无遮掩| 高潮a片www张柏芝陈冠希| 穿成小奶娃各种做肉高h| 久久久久亚洲精品无码网址色欲| 国产成人无码精品久久久露脸| 偷看娇妻被交换| 国产一区二区三区小说| 真实的和子乱拍在线观看| 色戒汤唯电影无删减版梁朝伟| 精品国产午夜肉伦伦影院| 男女做爰的全部过程a片| 推高她的裙子挺身而入| 国产精品久久久久9999高清| 又爽又黄无遮挡高潮视频网站| 女人下边被添全过程a片小说| 精品无码成人片一区二区98| 无码一区二区三区免费| 久久久久久av无码免费网站下载| 国产精品爽爽v在线观看无码| av片在线观看| 亚洲精品成人区在线观看|