【python – 使用Regex搜索关键字附近的HTML链接】教程文章相关的互联网学习教程文章

使用java.util.regex的HTML正则表达式【代码】

我需要以下html的正则表达式:<div xmlns="http://www.w3.org/1999/xhtml"> <p/><p/><p/> <p/> </div>这来自一个富文本字段,显然这不是有意义的内容或手段:为空.我不能在java中说:if(richTextConent == null || richTextContent.length == 0),因为Richtext字段包含某些内容.语义上,以上内容为空,因此我考虑使用正则表达式.我需要将此片段与java.util.regex匹配 如果代码段中包含有意义的内容,例如:<div xmlns="http://www...

c#-HTML锚替换为RegEx【代码】

我有将在客户端应用程序中使用的HTML数据.我需要进行正则表达式.替换< a>来自的标签<a href="Bahai.aspx">Bahai</a>至<a href="#" onclick="process('Bahai.aspx');return false;">Bahai</a>在C#中,将RegExReplace与类似于<a[^>]*? href=\"(?<url>[^\"]+)\"[^>]*?>(?<text>.*?)</a>有想法吗?解决方法:在C#中,您可以使用如下代码:Regex.Replace("<a href=\"Bahai.aspx\">Bahai</a>", "<a href=\"(.+?)\">(.+?)</a>", "<a href=\"#...

使用Python中的regex匹配两个字符串中的HTML标签【代码】

我想验证源字符串中存在的HTML标签也存在于目标字符串中. 例如:>> source = '<em>Hello</em><label>What's your name</label>' >> verify_target(’<em>Hi</em><label>My name is Jim</label>') True >> verify_target('<label>My name is Jim</label><em>Hi</em>') True >> verify_target('<em>Hi<label>My name is Jim</label></em>') False解决方法:我会放弃正则表达式,然后查看Beautiful Soup.findAll(True)列出在源中找到的所...

使用REGEX(PHP代码)替换两个HTML标记之间的所有“ foo”【代码】

我想要一个正则表达式代码,以将html标记pre><之间的所有“ foo”字符串替换为“ bar”. /预&GT这是一个例子: < html> < p> blah blah blah foo try foo< /p> < pre> foo try foo word foofoo < /pre> < /html>应该< html> < p> blah blah blah foo try foo< /p> < pre> bar try bar word barbar < /pre> < /html>因此,这意味着标记pre之间的所有foo应该替换为. 我试图使用此正则表达式模式,但无法正常工作.do { $string = preg_re...

用于在HTML中查找URL的RegEx在Java / Android中需要25秒【代码】

在Android / Java中,给定网站的HTML源代码,我想提取所有XML和CSV文件路径. 我正在做什么(使用RegEx)是这样的:final HashSet<String> urls = new HashSet<String>(); final Pattern urlRegex = Pattern.compile("[-a-zA-Z0-9+&@#/%?=~_|!:,.;]*[-a-zA-Z0-9+&@#/%=~_|].(xml|csv)"); final Matcher url = urlRegex.matcher(htmlString); while (url.find()) {urls.add(makeAbsoluteURL(url.group(0))); }public String makeAbsolute...

python – 使用Regex搜索关键字附近的HTML链接【代码】

如果我正在寻找关键字“sales”,即使文件中有多个链接,我也希望得到最近的“http://www.somewebsite.com”.我想最近的链接不是第一个链接.这意味着我需要搜索关键字匹配之前的链接. 这不起作用…… regex =(http | https):// [-A-Za-z0-9./].*(?!((http | https):// [-A-Za-z0-9./]))销售销售 什么是找到最接近关键字的链接的最佳方法?解决方法:使用HTML解析器而不是正则表达式通常更容易,更健壮. 使用第三方模块lxml:import...

javascript – 使用RegEx从HTML清除空格【代码】

RegEx是否可以清除HTML中的空格? 例如:<p><b>foo</b> <i>bar</i></p> <p>foo</p> <p>bar</p>在第一行,结束b和开始i标签之间的空格是有效的(尽管它可能是一个& nbsp;),但是在第二行它是我希望清理的空白,因为它不应该有任何空格.语义价值. 也许这可以通过DOM遍历更好地解决?解决方法:看起来像HTML Tidy这样的东西对于你正在寻找的东西来说是一个更好的选择 – 而不是需要重新创建所有可能复杂的规则(例如你的例子中的第一个空格是...