一:過(guò)濾標(biāo)題中空格
經(jīng)常在采集文章的時(shí)候,標(biāo)題文字里面有空格,采回來(lái)后應(yīng)用很是麻煩,所以需要在過(guò)濾處添加下面正則過(guò)濾。
二:過(guò)濾來(lái)源作者中連接
在采集文章的時(shí)候,有的系統(tǒng)里面作者或者來(lái)源處都有連接,直接采集的話(huà)將連接采集回來(lái)了,然后由于這兩個(gè)字段有限制,通常會(huì)造成需要采集的內(nèi)容沒(méi)有采集回來(lái),所以需要在過(guò)濾處添加下面正則過(guò)濾
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim} |
三:過(guò)濾文章內(nèi)容中連接以及其他廣告代碼
實(shí)際應(yīng)用中,我們只需要對(duì)連接、動(dòng)畫(huà)、調(diào)用等進(jìn)行過(guò)濾。
一般的只有鏈接,使用二中的代碼進(jìn)行過(guò)濾就可以了,但是實(shí)際上一般的網(wǎng)站現(xiàn)在都在內(nèi)容里面加有廣告等,所以采取下面的過(guò)濾正則就可以完成過(guò)濾:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim} |
四:過(guò)濾GG廣告代碼
其實(shí)這個(gè)就是在上面的內(nèi)容過(guò)濾,因?yàn)楹艹S玫剿詥为?dú)作為一個(gè)應(yīng)用列出來(lái):
{dede:trim}<script([^>]*)>([^>]*)</script>{/dede:trim} |
最后終結(jié)一下,掌握了下面這個(gè)
{dede:trim}
{/dede:trim}
{dede:trim}<param([^>]*)>{/dede:trim}
{dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim}
{dede:trim}<embed([^>]*)>{/dede:trim}
{dede:trim}</embed>{/dede:trim}
{dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim}
{dede:trim}<object([^>]*)>{/dede:trim}
{dede:trim}</object>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>([^>]*)</OBJECT>{/dede:trim}
{dede:trim}<OBJECT([^>]*)>{/dede:trim}
{dede:trim}</OBJECT>{/dede:trim}
{dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim}
{dede:trim}<iframe([^>]*)>{/dede:trim}
{dede:trim}</iframe>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>([^>]*)</IFRAME>{/dede:trim}
{dede:trim}<IFRAME([^>]*)>{/dede:trim}
{dede:trim}</IFRAME>{/dede:trim}
{dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim}
{dede:trim}<font([^>]*)>{/dede:trim}
{dede:trim}</font>{/dede:trim}
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
{dede:trim}<a([^>]*)>{/dede:trim}
{dede:trim}</a>{/dede:trim}
{dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim}
{dede:trim}<td([^>]*)>{/dede:trim}
{dede:trim}</td>{/dede:trim}
{dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim}
{dede:trim}<tr([^>]*)>{/dede:trim}
{dede:trim}</tr>{/dede:trim}
{dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim}
{dede:trim}<tbody>{/dede:trim}
{dede:trim}</tbody>{/dede:trim}
{dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
{dede:trim}<table([^>]*)>{/dede:trim}
{dede:trim}</table>{/dede:trim}
{dede:trim}<img([^>]*)>{/dede:trim}
{dede:trim}<span([^>]*)>{/dede:trim}
{dede:trim}</span>{/dede:trim}
{dede:trim} {/dede:trim}
{dede:trim}<stong>{/dede:trim}
{dede:trim}</stong>{/dede:trim}
|