mysql – 解析网站HTML的最快/最简单的方法?
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了mysql – 解析网站HTML的最快/最简单的方法?,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1102字,纯文字阅读大概需要2分钟。
内容图文
![mysql – 解析网站HTML的最快/最简单的方法?](/upload/InfoBanner/zyjiaocheng/905/98e7a3a113b646be9d025b7aef36bd22.jpg)
我需要解析this网站的内容并将其存储在MySQL数据库中.我正在创建一个竞争者网站,因为创建者从未完全完成他的,但他有比我更新的游戏数据而且不会发布它,所以我需要手动收集它. Here是我需要解析的特定类型页面的示例.
我之前使用PHP和正则表达式进行了HTML解析,但这很麻烦,我宁愿不再麻烦.由于这个问题,我几个月来一直拖延完成我的数据库.是否有更快和/或更简单的方法来解决这个问题?大多数C风格的语言对我来说都很好(C,C,Perl,PHP,Python等,都很好,但不是C#,Java或Objective-C).
P.S.:我不关心脚本/程序有多脏,或者类似的东西,只要它完成工作.
解决方法:
您提到的任何语言都可以这样做,只要您使用正确的第三方库来帮助您.
您需要抓取网站的内容.实际上,这可能是一个完全不同的程序,只需将.html文件下载到您的计算机上,然后您就可以让解析器运行了.这样的机器人存在,考虑wget或curl – 它们都有蜘蛛选项.
你需要一个网站解析器.不要使用regexp来解析HTML,使用HTML或XML解析器(如Perl的HTML::Parser).然后,您必须将生成的数据结构转换为可用数据(例如,第一个表> tr> td是怪物名称,第二个td是竞赛等.
最后,您需要将这些内容存储到您的数据库中,以便以后可以为您的网站提供服务.
实际上,编写代码并不是最困难的事情,但是“页面上的哪个项目意味着什么,应该存储在哪里以及如何”的映射将是.
内容总结
以上是互联网集市为您收集整理的mysql – 解析网站HTML的最快/最简单的方法?全部内容,希望文章能够帮你解决mysql – 解析网站HTML的最快/最简单的方法?所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。