发布于2023-11-18 07:47 阅读(913) 评论(0) 点赞(20) 收藏(5)
我试图不捕获锚标记,所以我使用了这个
(?!([^\<]+)<\/a>)(\b(https?|ftp):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])
它排除锚标记并选择锚标记内不存在的网址,但在这种情况下失败:
<a href="www.google.com"> <b> Google Homepage </b> </a>
因为左角括号。
所以我想用这个
(?!(<a.+)<\/a>)(\b(https?|ftp):\/\/[-A-Z0-9+&@#\/%?=~_|!:,.;]*[-A-Z0-9+&@#\/%=~_|])
但这不起作用?
请任何人解释一下为什么这不起作用以及解决我的问题的可能方法是什么。
希望我解释了这个问题,提前感谢您的帮助。
切勿使用正则表达式来解析 html。只是不要。有太多不同的复杂情况,使用类似的东西htmlparser
会更容易。此链接应该可以帮助您做出决定:https://tomassetti.me/parsing-html/如果您不想访问该链接,以下是不同解析器的要点:
爪哇
C#
Python
JavaScript
浏览器
Node.js
作者:黑洞官方问答小能手
链接:http://www.qianduanheidong.com/blog/article/532560/724f5d6970a8e2162d5a/
来源:前端黑洞网
任何形式的转载都请注明出处,如有侵权 一经发现 必将追究其法律责任
昵称:
评论内容:(最多支持255个字符)
---无人问津也好,技不如人也罢,你都要试着安静下来,去做自己该做的事,而不是让内心的烦躁、焦虑,坏掉你本来就不多的热情和定力
Copyright © 2018-2021 前端黑洞网 All Rights Reserved 版权所有,并保留所有权利。 京ICP备18063182号-3
投诉与举报,广告合作请联系vgs_info@163.com或QQ3083709327
免责声明:网站文章均由用户上传,仅供读者学习交流使用,禁止用做商业用途。若文章涉及色情,反动,侵权等违法信息,请向我们举报,一经核实我们会立即删除!