【用于从格式错误的html页面中提取文本的Python策略】教程文章相关的互联网学习教程文章

java – 正确编写servlet响应中的HTML页面【代码】

我在http://ip:8080/simple下部署了一个servletservlet位于包a.b.c下我在名为Test.html的a.b.resources中有一个html页面. html有一个图像的img标签. 在我做的servlet中:htmlFile = MyServlet.class.getResourceAsStream("/a/b/resources/Test.html"); resp.setContentType("text/html"); PrintWriter writer = resp.getWriter(); byte[] bytes=new byte[htmlFile.available()]; htmlFile.read(bytes); resp.setContentLength(byte...

python – 使用beautifulsoup解析HTML页面【代码】

我开始研究beautifulsoup来解析HTML.例如对于网站“http://en.wikipedia.org/wiki/PLCB1”import sys sys.setrecursionlimit(10000)import urllib2, sys from BeautifulSoup import BeautifulSoupsite= "http://en.wikipedia.org/wiki/PLCB1" hdr = {'User-Agent': 'Mozilla/5.0'} req = urllib2.Request(site,headers=hdr) page = urllib2.urlopen(req) soup = BeautifulSoup(page)table = soup.find('table', {'class':'infobox'...

javascript – 如何查看当前显示的html页面的源(动态)比原始页面?

参见英文答案 > Best Way to View Generated Source of Webpage? 16个G’day大家, 作为狂热的firefox用户,我使用时尚和Greasemonkey等插件来修改页面的默认样式.但是,浏览器的view->页面源选项仅显示原始形式的页面,而不是脚本或样式操作后的当前表单.有什么方法可以根据浏览器上显示的内容而不是服务器发送的原始页面来查看页面的来源?任何建议将不胜感激.谢谢. 保罗布拉德解决方...

java – 使用TagSoup的HTML页面到XHTML【代码】

很抱歉,如果这太简单了,但我找不到教程,也没有找到TagSoup Java版本的文档. 基本上我想从互联网上下载HTML网页并将其转换为包含在字符串中的XHTML.我怎么能用TagSoup做到这一点? 谢谢!解决方法:像这样的东西:wget -O - example.com/bad.html | java -jar tagsoup.jar或者,来自Java:To parse HTML:Create an instance of org.ccil.cowan.tagsoup.Parser Provide your own SAX2 ContentHandler Provide an InputSource referring...

javascript:如何检查加载html页面的所有代码【代码】

程序需要在加载所有代码(包括HTML,javascript,CSS等)后调用函数?可以用javascript做吗?解决方法:对于JavaScriptwindow.onload = function(){//your code };对于JQuery$(document).ready(function(){//your code });

使用php抓取一个html页面?【代码】

This website在一个列表中列出了250多个课程.我想得到每个课程的名称,并使用PHP将其插入我的mysql数据库.课程列表如下:<td> computer science</td> <td> media studeies</td> …有没有办法在PHP中做到这一点,而不是我有一个疯狂的数据输入噩梦?解决方法:正则表达式运行良好.$page = // get the page $page = preg_split("/\n/", $page); for ($text in $page) {$matches = array();preg_match("/^<td>(.*)<\/td>$/", $text, $mat...

php – 如何通过编写URL阻止用户直接访问我的html页面?【代码】

我想要一个没有数据库的硬编码登录页面(login.html).如果一个人写了正确的用户名和密码,它会重定向到(page2.html). 现在我的问题是,如果一个人直接为page2.html写入URL,他将能够访问它,而无需任何登录. 理想情况=> www.example.com/login.html =>如果正确=> www.example.com/page2.html 问题案例=> www.example.com/page2.html => page2.html,没有登录:(解决方法:你可以用这样的php会话来控制所有这些//set the session on the log...

如何从PHP中的html页面中删除H2和H3标签?【代码】

我需要从下面的html代码中获取h2和h3标签为PHP中的$var:<div class="main-info"><img class="iphone-img" alt="" src="https://www.myweb.com/securedImage.jsp"><div class="sub-info"><h2 class="model">iPhone 4S</h2><h3 class="capacity color">16GB Black</h3></div> </div>我想要这个结果:echo $model; // Should echo: 'iPhone 4S' echo $capacitycolour; // Should echo: '16GB Black'我尝试过preg_match,preg_match_a...

javascript – 在HTML页面中删除/删除“:”冒号【代码】

我无法访问以下HTML,它使用一些外部JS动态显示.<td class="quantitybox"><span class="qty">Quantity</span><br style="clear:both;">:<input type="text" value="1" onkeydown="javascript:QtyEnabledAddToCart();" maxlength="8" size="3" name="QTY.1121309" class="v65-productdetail-cartqty"> </td>我想要:在使用Jquery删除/删除后,但我没有得到应该使用的处理程序,我应该将类应用于< br>动态地做一些事情解决方法:jQuery的...

PHP – HTML页面加载前重定向【代码】

参见英文答案 > How do I make a redirect in PHP? 27个如果用户未登录,我的主页顶部有基本的PHP代码,用户将用户重定向到登录页面.在用户成功重定向之前,HTML加载和JavaScript会对用户信息进行一些AJAX请求.虽然没有敏感信息存在风险,但这是浪费服务器资源,我想阻止这一点. 我的代码:if(!isset($_SESSION['user_id']) || $_SESSION['user_id'] == '') {echo '<META HTTP-EQUIV="Refresh" Cont...

javascript – 使用jsPDF生成保留HTML页面样式的pdf【代码】

我正在尝试创建一个按钮,它将开始自动下载页面的PDF,因为它看起来与sass样式.然而,我尝试的一切都以造型混乱而告终. 这是页面(这是一个有几种不同内容类型的测试站点)但PDF看起来像这样:我正在拉jspdf.debug.js并在我的页面中有以下HTML按钮脚本:<div id="bypass"> <!-- keeps button from showing in PDF --><button id="pdf-new" style="margin: 50px;"><a href="javascript:demoFromHTML()" class="button" style="color: bla...

如何通过c#获取html页面源代码【代码】

我希望从url或url以.htm在本地驱动器中保存完整的网页asp但我没有成功. 码public StreamReader Fn_DownloadWebPageComplete(string link_Pagesource) {//--------- Download Complete ------------------// using (WebClient client = new WebClient()) // WebClient class inherits IDisposable// {//client//HttpWebRequest webRequest = (HttpWebRequest)WebRequest.Create(link_Pagesource);//webRequest.AllowAutoRedirect...

php – 解析html页面【代码】

<div>divbox</div> <p>para1</p> <p>para2</p> <p>para3</p> <table class="table"><tr><td></td></tr></table> <p>para4</p> <p>para5</p>有人可以请告诉我如何解析这个HTML页面只显示para1,para2和para3?并删除其他一切. 条件:我想从第一个< p>获取所有内容到第一个< table class =“table”>. (第一个表将始终具有类“表”) 输出:<p>para1</p> <p>para2</p> <p>para3</p>解决方法: $d = new domdocument(); libxml_use_inter...

python – 解析HTML页面以获取内容和标签【代码】

有许多HTML页面被构造为一系列这样的组:<p><b> Keywords/Category:</b>"keyword_a, keyword_b" </p>这些页面的地址如https://some.page.org/year/0001,https://some.page.org/year/0002等. 如何从每个页面中分别提取关键字?我试过使用BeautifulSoup,但没有成功.我只编写了打印组标题的程序(在< b>和< / b>之间).from bs4 import BeautifulSoup from urllib2 import urlopen import re html_doc = urlopen('https://some.page.org...

用于从格式错误的html页面中提取文本的Python策略【代码】

我正在尝试从任意html页面中提取文本.有些页面(我无法控制)有错误的html或脚本,这使得这很困难.此外,我在一个共享的托管环境,所以我可以安装任何python库,但我不能只在服务器上安装我想要的东西. pyparsing和html2text.py似乎也不适用于格式错误的html页面. 示例URL为http://apnews.myway.com/article/20091015/D9BB7CGG1.html 我目前的实施大致如下:# Try using BeautifulSoup 3.0.7a soup = BeautifulSoup.BeautifulSoup(s) co...

错误 - 相关标签