首页 / HTML / 用于从格式错误的html页面中提取文本的Python策略

用于从格式错误的html页面中提取文本的Python策略

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了用于从格式错误的html页面中提取文本的Python策略，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1669字，纯文字阅读大概需要3分钟。

内容图文

我正在尝试从任意html页面中提取文本.有些页面(我无法控制)有错误的html或脚本,这使得这很困难.此外,我在一个共享的托管环境,所以我可以安装任何python库,但我不能只在服务器上安装我想要的东西.

pyparsing和html2text.py似乎也不适用于格式错误的html页面.

示例URL为http://apnews.myway.com/article/20091015/D9BB7CGG1.html

我目前的实施大致如下：

# Try using BeautifulSoup 3.0.7a
soup = BeautifulSoup.BeautifulSoup(s) 
comments = soup.findAll(text=lambda text:isinstance(text,Comment))
[comment.extract() for comment in comments]
c=soup.findAll('script')
for i in c:
    i.extract()    
body = bsoup.body(text=True)
text = ''.join(body) 
# if BeautifulSoup  can't handle it, 
# alter html by trying to find 1st instance of  "<body" and replace everything prior to that, with "<html><head></head>"
# try beautifulsoup again with new html

如果beautifulsoup仍然不起作用,那么我采用一种启发式方法来查看第一个字符,最后一个字符(看看它们是否看起来像一个代码行#&lt ;;并且取一行样本然后检查是否令牌是英文单词或数字.如果令牌中只有很少的单词或数字,那么我猜这行是代码.

我可以使用机器学习来检查每一行,但这看起来有点贵,我可能需要训练它(因为我不太了解无监督的学习机器),当然也可以写它.

任何建议,工具和策略都是最受欢迎的.此外,我意识到后一部分相当混乱,因为如果我得到一行确定包含代码,我现在扔掉整行,即使行中有少量实际的英文文本.

解决方法:

尽量不要笑,但是：

class TextFormatter:
    def __init__(self,lynx='/usr/bin/lynx'):
        self.lynx = lynx

    def html2text(self, unicode_html_source):
        "Expects unicode; returns unicode"
        return Popen([self.lynx, 
                      '-assume-charset=UTF-8', 
                      '-display-charset=UTF-8', 
                      '-dump', 
                      '-stdin'], 
                      stdin=PIPE, 
                      stdout=PIPE).communicate(input=unicode_html_source.encode('utf-8'))[0].decode('utf-8')

我希望你有lynx！

内容总结

以上是互联网集市为您收集整理的用于从格式错误的html页面中提取文本的Python策略全部内容，希望文章能够帮你解决用于从格式错误的html页面中提取文本的Python策略所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/822146.html

来源：【匿名】

【上一篇】ASP.NET Web Pages - HTML 窗体【下一篇】PHP 和 HTML

更多 ►

【用于从格式错误的html页面中提取文本的Python策略】教程文章相关的互联网学习教程文章

将图片的二进制字节字符串在HTML页面以图片形式输出【代码】

具体实现代码如下：1、新建一个一般处理程序： Image.ashx 1using System;2using System.Collections.Generic;3using System.Linq;4using System.Web;5using System.Net;6using System.Drawing.Imaging;7using System.IO;8 9namespace Test 10{ 11///<summary>12///测试图片以二进制字节输出到HTML页面（显示成图片） 13///</summary>14publicclass Image : IHttpHandler 15 { 1617publicvoid ProcessRequest(HttpContext conte...

html页面标签元素总结【代码】【图】

html页面标签元素总结前言学习python的flask架构对于有丁点C功底的人来说代码问题研究研究还能勉强跟得上脚步，但是html前端就蒙圈了，完全小菜比一枚。故此总结下我目前接触过的标签以及经常需要用的小功能(例如下拉框，单选框等等)。本篇仅从为w3c官网http://www.w3school.com.cn/收藏以供自己日后方便使用。PART I ：常用的html标签 1.1 基础篇标签描述 <!DOCTYPE> 定义文...

【JQuery NoviceToNinja系列】01 开篇 Html页面设计和布局【代码】【图】

01 开篇 Html页面设计和布局 index.html<!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml"><head><meta http-equiv="Content-Type" content="text/html; charset=utf-8"/><title>StarTrackr !</title><link href="~/favicon.ico" rel="shortcut icon" type="image/x-icon"/><meta name="viewport" content="width=device-width"/><link rel="stylesheet" href="./css/base.css"/><!--<link rel="stylesheet" href="../.....

ExtJs6 loader 引入html页面不执行页面内js的解决办法

如题: extjs4的代码到了ext6不执行了ext4代码: loader: { url: me.url, autoLoad: true, scripts: true }在ext6中作如下修改即可: loader: { renderer : function(loader, response, active) { loader.getTarget().update(response.responseText, true); ...

freemarker 集成 sitemesh 装饰html页面 shiro 标签

guest标签：验证当前用户是否为“访客”，即未认证（包含未记住）的用户；　　shiro标签：<shiro:guest></shiro:guest> ；　　freemark中： <@shiro.guest> </@shiro.guest> user标签：认证通过或已记住的用户　　shiro标签：<shiro:user> </shiro:user> ；freemark中： <@shiro.user> </@shiro.user> authenticated标签：已认证通过的用户。不包含已记住的用户，这是与user标签的区别所在。　　 shiro标签：<shiro:auth...

node创建服务器之展示html页面【代码】【图】

在上篇随笔中，我只说了如何建立一个http服务，并没有说如何展示html页面，毕竟最后我们在web服务器上是要返回给用户不同的html页面的，那么我们如何根据用户的请求来为用户呈现出不同的页面列，这里我们就需要用到fs模块来实现了，fs模块也是node集成的一个模块，这个模块看字面意思就知道，是用来操作文件的，有了fs模块，js就可以在node环境下操作服务器的文件了，这个模块十分有用，哈哈哈，看一下，如何使用这个模块为用户呈现...

移动端html5页面长按实现高亮全选文本内容的兼容解决方案【图】

最近需要给html5的WebAPP在页面上实现一个复制功能：用户点击长按文本会全选文字并弹出系统“复制”菜单，用户可以点击“复制”进行复制操作，然后粘贴到AppStore搜索对应的应用。之所以不是采用链接形式直接跳转到AppStore对应应用是为了通过用户的主动输入关键词搜索给推广的企业App增加权重。所以这一个“复制”功能对用户的体验至关重要。尝试了一些做法，在安卓/iOS平台上的兼容性都不是很好。在微信浏览器内是很容易实现长按...

html页面插入flash代码【代码】

<div style="width:600px;height:600px;margin:100px;"><embed src="" wmode=transparent style="position: absolute" width="600px" height="600px"></div> 这段代码是适用IE内核浏览器和谷歌内核浏览器的，如果用object标签显示flash的话，object标签在IE浏览器里不显示。这段代码可以使flash作为页面背景显示。原文：http://www.cnblogs.com/qingsong/p/5060184.html

解决EditPlus在设置了UTF-8之后，编写的HTML页面仍出现汉字乱码问题【图】

解决EditPlus在设置了UTF-8之后。编写的HTML页面仍出现汉字乱码问题?相信有些同学在使用EditPlus编写HTML页面时发现，尽管已经设置好了UTF-8的编码格式。但却发现HTML页面的汉字仍然是乱码吧。本文就教大家怎样解决这一问题。 ?我首先把解决方式写在前面，后面是问题展示的全过程，省的各位看官着急。（假设大家看不清楚图片中的文字。能够点击鼠标右键，选择在“新标签页中打开图片”就能够看清楚放大的图片了）解决方法：在出现这...

Jsp/html页面删除前进行删除提示【代码】

HTML代码 1<body>2<a href="javascript:if(window.confirm(‘是否？‘)){window.location.href=‘test1.html‘}">测试删除</a>3</body>(其中test1.html是要转去的页面)在点击确认之后会进行页面跳转，否则不做响应。Jsp代码在我们作删除提交的时候，我们经常会用到a标签带参找相应的后台响应，并且希望用户在误触的情况下有所提示避免意外操作，保证安全性，以下是Jsp代码：1<a href="javascript: if(window.confirm(‘是否删除？‘...

ThinkPHP5 对html页面中的url传参操作

◆ 背景毕竟PHP开发的框架多数都会和前端页面嵌套使用，而不同的框架升级多少都会有所变化，这毕竟是其中的一个知识点吧，在我找不到方法前，考虑的是隐藏域提交“ID”，然后后台post处理取出此ID，再依次为依据进行后续操作…框架：ThinkPHP5.1路由配置举例：【有参数的一种】Route::any(‘cms/article/edit/:id‘,‘cms/article/edit‘);1◆ 操作§. html 中嵌入方式这种情况，一般是 form表单的页面提交形式，直接在属性 "action...

HTML-页面布局【图】

一、盒子模型：整体的宽=margin-left（right）+padding-left（right）+border+content整体的高=margin-top（bottom）+padding-top（bottom）+border+content二、页面布局：（1）标准流：按照原先格式排版块儿元素等一些格式，所有块儿都是按照竖排排列，自占一排。（2）浮动流：给div标签加上float属性，是指按照属性来排列。若想让所给的块儿元素按照横行排列，需要给每个div元素均添加float：left（right）属性。（3）每个对象都...

如何预览github中的html页面

在github里面的文件路径是https://github.com/gavin125/Sass-test/blob/master/html/index.html那么我们需要在这个地址前面加上http://htmlpreview.github.io/?最终生成为http://htmlpreview.github.io/?https://github.com/gavin125/Sass-test/blob/master/html/index.html即可预览网页效果原文：http://www.cnblogs.com/gavin125/p/4933872.html

关于tab的切换之共用html页面【代码】

在一个项目中的同一个模块中，有多个tab（并且多个tab对应的页面结构完全一样）,tab的每次切换，不同tab调用不同的接口，利用一个switch进行判断，根据当前的类型去调用不同的接口，返回不同数据了，实现页面数据的刷新，这样做的目的是为了减少html页面的重复，实现代码的复用...........................（存在的问题，每次的页面刷新，只是数据的刷新，url没有进行更新，这会导致一个问题，那就是点击浏览器刷新页面的时候，不能...

eclipse导入maven时，html页面引入js的路径出现红色波浪线【图】

用eclipse导入一个springboot项目时，html页面引入js以及css时出现如下图所示情况，html页面用了 thymeleaf模板引擎。另外js文件与css文件路径也是正确无误的。原来其实很简单就可以解决：eclipse：Window—>Preferences—>Validation—>Web Resources Validator将Web Resources Validator勾选掉，然后Apply就可以了。原文：https://www.cnblogs.com/lkwtt/p/10779360.html

首页 / HTML / 用于从格式错误的html页面中提取文本的Python策略

用于从格式错误的html页面中提取文本的Python策略

内容导读

内容图文

内容总结

内容备注

内容手机端

【用于从格式错误的html页面中提取文本的Python策略】教程文章相关的互联网学习教程文章

将图片的二进制字节字符串在HTML页面以图片形式输出【代码】

html页面标签元素总结【代码】【图】

【JQuery NoviceToNinja系列】01 开篇 Html页面设计和布局【代码】【图】

ExtJs6 loader 引入html页面不执行页面内js的解决办法

freemarker 集成 sitemesh 装饰html页面 shiro 标签

node创建服务器之展示html页面【代码】【图】

移动端html5页面长按实现高亮全选文本内容的兼容解决方案【图】

html页面插入flash代码【代码】

解决EditPlus在设置了UTF-8之后，编写的HTML页面仍出现汉字乱码问题【图】

Jsp/html页面删除前进行删除提示【代码】

ThinkPHP5 对html页面中的url传参操作

HTML-页面布局【图】

如何预览github中的html页面

关于tab的切换之共用html页面【代码】

eclipse导入maven时，html页面引入js的路径出现红色波浪线【图】

PYTHON - 相关标签

HTML - 相关标签

错误 - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程