当前位置:首页>>软件教程>>网页制作>>新闻内容
正则表达式在网页处理中的应用四则
作者:东方欲晓 发布时间:2005-4-21 20:09:25 文章来源:天极网

    三、解析文本数据文件

  数据文件的格式和种类很多,XML文档、结构化文本甚至非结构化文本都经常成为ASP应用的数据源。下面我们要看的一个例子是使用限定符的结构化文本文件。限定符(比如引号)表示字符串各个部分不可分割,即使字符串内部包含把记录分隔成字段的分隔符也一样。

  下面是一个简单的结构化文本文件:

姓,名, 电话, 说明
孙,悟空, 312 555 5656, ASP很好
猪,八戒, 847 555 5656, 我是电影制片人

  这个文件非常简单,它的第一行是标题,下面两行是用逗号作为分隔符的记录。要解析这个文件也很简单,只需先把文件分割成行(根据换行符号),然后把各个记录按照字段分割。但是,如果我们在某个字段内容中加入了逗号:

姓,名, 电话, 说明
孙,悟空, 312 555 5656, 我喜欢ASP,还有VB和SQL
猪,八戒, 847 555 5656, 我是电影制片人

  解析第一个记录时就会出现问题,因为在只认可逗号分隔符的解析器看来它的最后一个字段包含了两个字段的内容。为了避免出现这类问题,包含分隔符的字段必须用限定符包围。单引号就是一种常用的限定符。把上面的文本文件加上单引号限定符之后,它的内容如下所示:

姓,名, 电话, 说明
孙,悟空, 312 555 5656, '我喜欢ASP,还有VB和SQL'
猪,八戒, 847 555 5656, '我是电影制片人'

  现在我们能够肯定哪一个逗号是分隔符、哪一个逗号是字段内容了,即只需把引号内部出现的逗号视为字段的内容。接下来我们要做的就是实现一个正则表达式解析器,由这个解析器确定何时根据逗号分割字段、何时把逗号视为字段内容。

  这里的问题与大多数正则表达式所面临的略有不同。通常我们查看的是文本的一小部分,看看它是否能够和正则表达式匹配。但在这里,只有考虑了整行文本之后我们才能可靠地判断出哪些内容位于引号之内。

  下面是一个说明该问题的例子。从某个文本文件随意抽取半行内容,得到:1, 沙滩, 黑色, 21, ', 狗, 猫, 鸭子, ', 。在这个例子中,因为“1”的左边还有其他数据,要解析清楚它的内容是极其困难的。我们不知道这个数据片断的前面有多少单引号,从而也就无法判断哪些字符位于引号之内(在引号之内的文本解析时不能分割)。如果这个数据片断之前有偶数个(或者没有)单引号,那么“', 狗, 猫, 鸭子, '”是用引号界定的字符串且不可分割。如果前面的引号数量是奇数,那么“1, 沙滩, 黑色, 21, '”是某个字符串的结束部分且不可分割。

  因此,正则表达式必须分析整行文本,全面考虑出现了多少引号才能确定字符是处在引号对的内部还是外部,即:,(?=([^']*'[^']*')*(?![^']*'))。这个正则表达式首先找到一个引号,然后继续查找并保证逗号后面的单引号数量或者是偶数、或者是0。该正则表达式以下面这个判断为基础:如果逗号后面的单引号数量是偶数,那么这个逗号位于字符串之外。下表给出了更详细的说明:

, 寻找一个逗号
(?= 继续向前查找以匹配下面这个模式:
( 开始一个新的模式
[^']*' [非引号字符]0个或者多个,然后是一个引号
[^']*'[^']*) [非引号字符]0个或者多个,然后是一个引号。结合前面的内容之后它匹配引号对
)* 结束模式并匹配整个模式(引号对)0次或者多次
(?! 向前查找,排除此模式
[^']*' [非引号字符]0个或者多个,然后是一个引号
) 结束模式

  下面是一个VBScript函数,它接受一个字符串参数,根据字符串中的逗号分隔符、单引号限定符分割字符串,返回结果数组:

Function SplitAdv(strInput)
Dim objRE
Set objRE = new RegExp

' 设置RegExp对象
objRE.IgnoreCase = true
objRE.Global = true
objRE.Pattern = ",(?=([^']*'[^']*')*(?![^']*'))"

' Replace方法用chr(8)替换我们要用到的逗号,chr(8)即\b
' 字符,\b在字符串中出现的可能极为微小。
' 然后我们根据\b把字符串分割保存到数组
SplitAdv = Split(objRE.Replace(strInput, "\b"), "\b")
End Function

  总而言之,用正则表达式解析文本数据文件具有高效、缩短开发时间的优点,能够节省大量分析文件、根据复杂的条件提取有用数据的时间。在一个迅速发展的环境中仍会有许多传统的数据可资利用,掌握如何构造高效的数据分析例程将是一种宝贵的技能。

  四、字符串替换

  在最后一个例子中我们要看看VBScript正则表达式的替换功能。ASP经常用于动态地格式化从各种数据源获得的文本。利用VBScript正则表达式的强大功能,ASP能够动态地改变匹配的复杂文本。通过加入HTML标记突出显示部分单词就是一种常见的应用,比如突出显示搜索结果中的搜索关键词。

  为说明实现方法,下面我们来看一个突出显示字符串中所有“.NET”的例子。这个字符串可以从任何地方获得,比如数据库或者其他Web网站。

<%
Set regEx = New RegExp
regEx.Global = true
regEx.IgnoreCase = True

' 正则表达式模式,
' 寻找任何结尾为“.NET”的单词或者URL。
regEx.Pattern = "(\b[a-zA-Z\._]+?\.NET\b)"

' 用于测试替换功能的字符串
strText = "微软建立了一个新网站www.ASP.NET。"

' 调用正则表达式的Replace方法
' $1表示把匹配的文本插入当前位置
Response.Write regEx.Replace(strText, _
"<b style='color: #000099; font-size: 18pt'>$1</b>")
%>

  这个例子中有几个重要的地方必须注意。整个正则表达式被放入了一对圆括号中,它的作用是截取所有匹配的内容供以后使用,这些内容在替换文本中通过$1引用。类似的截取每次替换可以使用多达9个,分别通过$1到$9引用。正则表达式的Replace方法和VBScript本身的Replace函数不同,它只需要两个参数:被搜索的文本,替换用的文本。

  在这个例子中,为了突出显示搜索到的“.NET”字符串,我们用粗体标记以及其他样式属性来包围这些字符串。使用这种搜索和替换技术,我们能够方便地为网站搜索程序加上突出显示搜索关键词的功能,或者自动为页面中出现的关键词加上指向其他页面的链接。

  结束语

  希望本文介绍的几种正则表达式技巧对你在何时、如何应用正则表达式有所启发。虽然本文的例子用VBScript编写,但在ASP.NET中正则表达式同样也大有用武之地,它是服务器端控件表单检验的主要机制之一,而且通过System.Text.RegularExpressions命名空间导出到了整个.NET框架之中。


[首页]    [上一页]    [下一页]    [末页]    
最新更新
·如何去掉ECShop2.7中的Powered by ECSh
·在IE7下生成高质量CSS缩略图
·解决Dreamweaver打开和关闭时出现JavaS
·影响搜索引擎排名的因素2009版
·IE6/IE7/IE8/Firefox/Chrome/Safari的C
·Flash对联广告及关闭按钮制作方法
·Discuz! 7中如果设置帖子中显示图片而不
·5种方法立刻写出更好的CSS代码
·兼容IE和Firefox的按图片宽度缩放的CSS
·兼容Firefox和IE浏览器的“加入收藏”代
相关信息
·常用长度单位PX/EM/PT/百分比转换公式与对照表
·制作网站网页的四十个建议和技巧
·什么是无障碍网页设计?规范和检测要点
·用图片实现超级链接的个性化下划线
·浅析HTML和XHTML的区别
·maquee无缝滚动向上向下向左向右的代码
·符合标准的正常工作的一种对联广告
·网页浏览速度提高可行的七法
·网页设计配色精彩十例
·用ASP+CSS实现网页随机背景
画心
愚爱
偏爱
火苗
白狐
画沙
犯错
歌曲
传奇
稻香
小酒窝
狮子座
小情歌
全是爱
棉花糖
海豚音
我相信
甩葱歌
这叫爱
shero
走天涯
琉璃月
Nobody
我爱他
套马杆
爱是你我
最后一次
少女时代
灰色头像
断桥残雪
美了美了
狼的诱惑
我很快乐
星月神话
心痛2009
爱丫爱丫
半城烟沙
旗开得胜
郎的诱惑
爱情买卖
2010等你来
我叫小沈阳
i miss you
姑娘我爱你
我们都一样
其实很寂寞
我爱雨夜花
变心的玫瑰
犀利哥之歌
你是我的眼
你是我的OK绷
贝多芬的悲伤
哥只是个传说
丢了幸福的猪
找个人来爱我
要嫁就嫁灰太狼
如果这就是爱情
我们没有在一起
寂寞在唱什么歌
斯琴高丽的伤心
别在我离开之前离开
不是因为寂寞才想你
爱上你等于爱上了错
在心里从此永远有个你
一个人的寂寞两个人的错