文章系统  
首页 > 其他教程 > 浏览文章

ASP过滤HTML中标签里的属性

(编辑:weio33 日期:2023年09月26日 浏览:次)
在提取、采集、爬虫中批量过滤不需要的属性,降低数据库压力

			
function get_reg_tag(htmls,tagarr) 
if instr(tagarr,",") = 0 then
tagarr=tagarr&",<wenzi"
end if
tag_arr=split(tagarr,",")

' 创建正则表达式对象  
Dim regex  
Set regex = Server.CreateObject("VBScript.RegExp")  
regex.IgnoreCase = True'忽略大小写
regex.Global = True'设置为全文搜索
' 设置正则表达式模式,匹配需要删除的区间代码  
Dim pattern  
for i=0 to ubound(tag_arr)
tag_num=len(tag_arr(i))+1
regex.pattern = tag_arr(i)&"[^>]*?(.*?)>"  
' 设置正则表达式选项  
Dim options  
options = "sgi" ' 忽略大小写和全局搜索  
' 执行正则表达式匹配和替换  
Dim matches  
Set matches = regex.Execute(htmls)  
For Each match In matches  
matchcc = mid(match.Value,tag_num,len(match.Value)-tag_num)
htmls = Replace(htmls, matchcc, "")  
Next  
next
' 输出处理后的 HTML 字符串  
get_reg_tag=replace(htmls,"<o:p></o:p>","")
end function

网友评论:


 本文共有0条评论
返回前页 返回文章系统