【HTML解析C#】教程文章相关的互联网学习教程文章

你如何在PHP中解析和处理HTML / XML?

如何解析HTML / XML并从中提取信息?解决方法:原生XML扩展 我更喜欢使用native XML extensions中的一个,因为它们与PHP捆绑在一起,通常比所有第三方库更快,并且在标记上给我所需的所有控制权. DOMThe DOM extension allows you to operate on XML documents through the DOM API with PHP 5. It is an implementation of the W3C’s Document Object Model Core Level 3, a platform- and language-neutral interface that allows p...

使用Python中的BeautifulSoup解析html【代码】

我写了一些代码来解析html,但结果不是我想要的:import urllib2 html = urllib2.urlopen('http://dummy').read() from BeautifulSoup import BeautifulSoup soup = BeautifulSoup(html) for definition in soup.findAll('span', {"class":'d'}): definition = definition.renderContents() print "<meaning>", definition for exampleofuse in soup.find('span',{"class":'x'}):print "<exampleofuse>", exampleofuse, "<exampleof...

加载时间:用PHP的DOMDocument或正则表达式解析HTML是否更快?【代码】

我正在将我的Flickr帐户中的图像拖到我的网站上,并且我使用了大约九行代码来创建一个可以拉动图像的preg_match_all函数. 我已多次阅读过,通过DOM解析HTML会更好. 就个人而言,我发现通过DOM解析HTML更加复杂.我编写了一个类似的函数来使用PHP的DOMDocument来提取图像,它大约有22行代码.创建需要一段时间,我不确定它的好处是什么. 每个代码的页面大约在同一时间加载,所以我不确定为什么我会使用DOMDocument. DOMDocument的工作速度是...

Java – 可怕的性能解析XHTML文件与Doctype作为XML文档【代码】

当我将此xhtml文件解析为xml时,在这样一个简单的文件上进行解析大约需要2分钟.我发现如果删除doctype声明,它会立即解析.导致此文件花费这么长时间解析的错误是什么? Java示例DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); dbf.setNamespaceAware( true ); DocumentBuilder bob = dbf.newDocumentBuilder(); Document template = bob.parse( new InputSource( new FileReader( xmlFile ) ) );XHTML示例<?xm...

在java中解析带有“unclosed tags”的html【代码】

我的问题很简单:有没有办法将java中的html解析为DOM-Document,如果htmlcontent中有这样的img-tag标签?<p><img src="..."></p>这是在解析这些元素时给我一个SAXException的Codesnippet:DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); DocumentBuilder db = dbf.newDocumentBuilder();InputStream is = new ByteArrayInputStream( htmlcontent.getBytes()); Document dom = db.parse(is); is.close();解决方...

javascript – 如何解析textarea输入中的html和addClass到td元素【代码】

我的问题是这样的:我正在提交一个带有textarea输入的表单,其中包含内容中的HTML表格,其中包含我试图解析的TD元素中的特定值,并根据该值向TD添加一个类;然后在发送到服务器之前将其保存回表单. 该表看起来像这样:<table> <tr><td>b</td><td>r</td> </tr> <tr><td>y</td><td>n</td> </tr> </table>这是我现在拥有的JS:$('#form').submit(function() {var table = $('#mytextarea').val();$('td', table).each(function() {var td ...

Python:基于绝对XPath解析HTML元素【代码】

我正在开发一个项目,我必须根据URL解析20个不同的HTML页面,我想从所有这些页面获取一些信息.页面具有不同的结构,所需信息位于每个站点的不同位置. 我想我可以试试Python lxml模块.由于信息可以在每个站点的不同位置找到,我很懒惰将20 * X不同的注册表放在一起.表达式,我认为对这些元素使用绝对XPath是个好主意.通过这种方式,我可以简单地利用Chrome浏览器的复制XPath功能,并为我的解析器提供每个HTML元素的清晰路径,而且我不需要编...

使用javascript在文档中使用python html解析失败【代码】

我正在尝试使用Python来解析HTML(尽管严格来说,服务器声称它是xhtml)并且我尝试过的每个解析器(ElementTree,minidom和lxml)都会失败.当我去看问题所在的位置时,它位于脚本标记内:<script type="text/javascript"> ... // some javascript codeif (condition1 && condition2) { // croaks on this line我知道问题是什么,应该引用&符号.问题是,这是在javascript脚本标记内,因此无法引用,因为这会破坏代码. 这里发生了什么?内联java...

javascript – jQuery:从解析的html片段中选择元素【代码】

在类方法中,我解析一个像这样的html片段:this.editCtrl = $('<input type="radio" name="society" value="existing"><select class="society"></select></input><input type="radio" name="society" value="existing"><input type="text"></input></input>');我可以将这个片段添加到我的DOM中,一切正常,但在此之前我想填写下拉列表.我试着像这样:var dropdown = this.editCtrl.find('select.society');和这样:var dropdown = $(...

用于HTML的PHP​​ SAX解析器?

我需要PHP的HTML SAX(不是DOM!)解析器才能处理甚至无效的HTML代码.我需要它的原因是过滤用户输入的HTML(删除所有属性和标签除了允许的内容)并将HTML内容截断为指定的长度. 有任何想法吗?解决方法:SAX用于处理有效的XML并在无效标记上失败.处理无效的HTML标记需要保持比SAX解析器通常保留的状态更多的状态. 我不知道任何类似SAX的HTML解析器.您最好的方法是使用之前通过整理HTML然后使用XML解析器,但这可能会破坏您首先使用SAX解析...

java – 解析字符串并收集具有不同id的HTML元素

我已将HTML内容传递给字符串“Html_content”.我需要解析字符串“Html_content”并使用ID来选择几个DIV标签,例如“fullHeader”是DIV的id,我需要选择“fullHeader”div标签内的内容并将其存储为字符串. 我尝试了JSOUP,但是我需要在Document中保存收集的div标签,但是我需要将它保存为字符串,但是使用Jsoup是不可能的,还有其他选择吗?解决方法:JSoup正是您所需要的.我所理解的是,您需要以String形式返回给您的HTML元素,以便您可以进...

在JavaScript中严格的HTML解析【代码】

在Google Chrome(Canary)上,似乎没有字符串可以使DOM解析器失败.我正在尝试解析一些HTML,但如果HTML不完全,100%,有效,我希望它显示错误.我试过了明显的事:var newElement = document.createElement('div'); newElement.innerHTML = someMarkup; // Might fail on IE, never on Chrome.我也尝试过this question中的方法.无效标记也不会失败,即使是我能生成的最无效的标记也是如此. 那么,至少有一些方法可以在Google Chrome中“严格...

python – 解析lxml中的html主体片段【代码】

我正在尝试解析html的片段:<body><h1>title</h1><img src=""></body>我使用lxml.html.fromstring.它让我疯狂,因为它不断剥离< body>我的片段的标签:> lxml.html.fromstring('<html><h1>a</h1></html>').tag'html'> lxml.html.fromstring('<div><h1>a</h1></div>').tag'div'> lxml.html.fromstring('<body><h1>a</h1></body>').tag'h1'我也试过了document_fromstring,fragment_fromstring,clean_html和page_structure = False等…...

解析错误:语法错误,第48行/home/a4673434/public_html/index.php中的意外$end【代码】

<?php $mysql_host = "*****.000webhost.com"; // Host masked $mysql_database = "a4673434_main"; $mysql_user = "a4673434_main"; $mysql_password = "*****"; // password masked $con = mysqli_connect($mysql_host,$mysql_user,$mysql_password,$mysql_database) or die("Error " . mysqli_error($link)); $email = $_POST["email"]; $confirmemail = $_POST["email2"]; $firstname = $_POST["firstname"]; $surname = $_POS...

Python:使用html解析器提取特定数据【代码】

我开始在Python中使用HTMLParser从网站中提取数据.除了两个HTML标签中的文本外,我得到了我想要的一切.以下是HTML标记的示例:<a href="http://wold.livingsources.org/vocabulary/1" title="Swahili" class="Vocabulary">Swahili</a>还有其他标签.他们有其他属性和值,因此我不想拥有他们的数据:<a href="http://wold.livingsources.org/contributor#schadebergthilo" title="Thilo Schadeberg" class="Contributor">Thilo Schadeb...