首页 / HTML / 使用Java将HTML转换为树

使用Java将HTML转换为树

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了使用Java将HTML转换为树，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含4985字，纯文字阅读大概需要8分钟。

内容图文

所以我试图编写一个程序,它将包含简单HTML语法的文件放入一个树中,该树将显示标签的层次结构.最终,每个叶子将包含一个标签(即p,h,ul等)和文本.这很简单,我打算使用Jtree来显示最终输出.但是,我遇到的困难是通过语法并使用标记构建初始树而不会丢失关系.我认为整个文件将是一个长字符串.该程序将找到’<'其中第二个字符不是'/',并考虑新的标签/叶子.然后代码继续前进并检查下一组字符以查看是否还有另一个字符'<'这表示儿童标签.如果在'<'之后的第二个字符中找到'/',则代码将移动到同一级别的下一个叶子. 希望你能得到我想要做的事情,不幸的是,我的尝试不太成功,因为它只显示了根标签的子节点.目前,我只是试图让标签在树中工作,文本和我以后不能弄清楚的.为了测试代码,我使用了一个字符串“test”,它有一些基本的示例html代码,每个节点都在创建jtree时显示在根目录中,但node2中的子节点从不显示.我很困惑,不能在这周围饶舌.另外,有更简单/有效的方法吗？ **编辑：所以我修改了使用JSoup工作的代码.我设法让它工作,但是,我有一个问题,由于某种原因,除了头标签的第一个子标签之外的所有标签都被移动到身体下.所以现在身体有3个孩子而不是一个,头只有一个而不是三个.另外,我如何修改getChildren()递归函数以适用于前一个子元素中的每个子图层？例如,要在标题标记中获取h3标记？

package weboqltree_converter;

import javax.swing.JFrame;
import javax.swing.JTree;
import javax.swing.SwingUtilities;
import javax.swing.tree.DefaultMutableTreeNode;
import java.util.ArrayList;
import java.awt.Dimension;
import java.util.List;
import javax.swing.tree.TreeNode;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Node;

public class GUI extends JFrame
{
    private JTree tree;
    private String test = "<html>"
            +   "<head>"
            +       "<title><h3>First parse<h3></title>"
            +       "<a></a>"
            +       "<h3></h3>"
            +   "</head>"
            +   "<body>"
            +       "<p>Parsed HTML into a doc.</p>"
            +   "</body>"
            + "</html>";

    private int parentNode;

    public static void main(String[] args)
    {
        SwingUtilities.invokeLater(new Runnable() {
            public void run() {
                new GUI();
            }
        });
    }

    public GUI()
    {
        DefaultMutableTreeNode html = new DefaultMutableTreeNode("html");
        Document doc = Jsoup.parse(test);
        int children = doc.childNodes().get(0).childNodes().size();
        for(int i=0; i < children; i++){
            String tag = doc.childNodes().get(0).childNodes().get(i).nodeName();
            String text = "N/A"; //doc.childNodes().get(0).childNodes().get(i).toString();

            html.add(new DefaultMutableTreeNode("Tag: " + tag+ ", Text: " + text));

            System.out.println(tag+" : "+doc.childNodes().get(0).childNodes().get(i).childNodeSize());

            if(doc.childNodes().get(0).childNodes().get(i).childNodeSize() > 0){
                getChildren(html.getLastLeaf(), doc.childNodes().get(0).childNodes().get(i),0, doc.childNodes().get(0).childNodes().get(i).childNodeSize());
            }
        }
        System.out.println("tag: " + children);           


        //System.out.println(Tree.get(2) +" "+Tree.get(2).getChildCount());
        tree = new JTree(html);
        add(tree);

        this.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
        this.setTitle("JTree Example"); 
        this.setMinimumSize(new Dimension(300, 400));
        this.setExtendedState(3);
        this.pack();
        this.setVisible(true);
    }

    public void getChildren(DefaultMutableTreeNode tree, Node doc, int start, int size){

        tree.add(new DefaultMutableTreeNode("Tag: " + doc.childNodes().get(start).nodeName()));
        start++;

        if(start < size){
            getChildren(tree, doc, start, size);
        }

    }
}

解决方法:

你可以使用JSoup来做到这一点.它读取一个String,一个文件或URL并将其解析为一个Document对象(它的速度非常快).之后,您可以导航对象并从中创建JTree.

String html = "<html><head><title>First parse</title></head><body><p>Parsed HTML into a doc.</p></body></html>";
Document document = Jsoup.parse(html);

更新

我已将您的代码更改为使用递归方法.因为文档中可能有多个根节点(通常是“document”-tag和“html”-tag),所以最好添加一个默认的根节点.看一看：

public GUI() {
    // create window
    this.setDefaultCloseOperation(JFrame.EXIT_ON_CLOSE);
    this.setTitle("JTree Example");
    this.setMinimumSize(new Dimension(300, 400));
    this.setExtendedState(3);

    // create tree and root node
    this.tree = new JTree();
    final DefaultMutableTreeNode ROOT = new DefaultMutableTreeNode("Html Document");

    // create model
    DefaultTreeModel treeModel = new DefaultTreeModel(ROOT);
    tree.setModel(treeModel);

    // add scrolling tree to window
    this.add(new JScrollPane(tree));

    // parse document (can be cleaned too)
    Document doc = Jsoup.parse(test);
    // Cleaner cleaner = new Cleaner(Whitelist.simpleText());
    // doc = cleaner.clean(doc);

    // walk the document tree recursivly
    traverseRecursivly(doc.getAllElements().first(), ROOT);

    this.expandAllNodes(tree);
    this.pack();
    this.setLocationRelativeTo(null);
    this.setVisible(true);
}

private void traverseRecursivly(Node docNode, DefaultMutableTreeNode treeNode) {
    // iterate child nodes:
    for (Node nextChildDocNode : docNode.childNodes()) {
        // create leaf:
        DefaultMutableTreeNode nextChildTreeNode = new DefaultMutableTreeNode(nextChildDocNode.nodeName());
        // add child to tree:
        treeNode.add(nextChildTreeNode);
        // do the same for this child's child nodes:
        traverseRecursivly(nextChildDocNode, nextChildTreeNode);
    }
}

// can be removed ...
private void expandAllNodes(JTree tree) {
    int j = tree.getRowCount();
    int i = 0;
    while (i < j) {
        tree.expandRow(i);
        i += 1;
        j = tree.getRowCount();
    }
}

内容总结

以上是互联网集市为您收集整理的使用Java将HTML转换为树全部内容，希望文章能够帮你解决使用Java将HTML转换为树所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/726743.html

来源：【匿名】

【上一篇】将序列化HTML时间字段转换为java.time.LocalTime 【下一篇】PHP 和 HTML

更多 ►

【使用Java将HTML转换为树】教程文章相关的互联网学习教程文章

HTML 运算符，类型的转换【代码】

1.类型转换：　　分为自动转换和强制转换，一般用强制转换。　　其他类型转换为整数：parseInt（）；　　其他类型转换为小数：parseFloat（）；　　判断是否是一个合法的数字类型：isNaN（）；　　是数字的话返回false，不是数字的话返回ture。示例：需要将prompt放进isNaN方法内2.运算符：　　数学运算符：+ - * / % ++ --；　　关系运算符：== ！= >= <= > <；　　逻辑运算符：&& || ！；　...

XHTML代码规则&手工html转换xhtml

XHTML规则XHTML是XML得一个应用，它遵守XML得规范和要求。从技术角度上讲。这些语法规则是由XML规范定义的。XML文档必须遵守的规则使得生成工具以解析文档变得更容易。这些规则也使得XML更容易处理。规则很简单，并且使用过HTML得人对于其中得一些规则应该比较熟悉。我们把XML得规则定义为下列两类：　∷XML语法规则，指的是定义了基本语法要求的规则。∷XML文档规则，指的是管理着基本文档要求的规则。∷XHTML语法规则 XHTML需...

php函数nl2br的反函数br2nl 将html中的br换行符转换为文本输入中的换行符【代码】

下面这几个方法将能够帮你解决这个问题。PHP版将html中的<br />换行符转换为文本框中的换行符：代码如下:function br2nl($text){returnpreg_replace(‘/<br\\s*?\/??>/i‘,‘‘,$text); }或者代码如下:function br2nl($text){$text=preg_replace(‘/<br\\s*?\/??>/i‘,chr(13),$text);returnpreg_replace(‘/ /i‘,‘ ‘,$text); }JS版将html中的<br />换行符转换为文本框中的换行符：代码如下:function br2nl(txt){var re=/(<br\/...

如何让转换的视频支持HTML5在线播放【代码】

转换工具当然是ffmpeg了，那么如何让转换后的视频支持所有支持HTML5的浏览器在线播放？只需要如下命令行代码就行了：ffmpeg -i output.mpg -vcodec libx264 -acodec aac -vprofile slow -vprofile baseline output_video.mp4想要知道为什么要这么设置音视频编码么？参考：https://developer.mozilla.org/en-US/docs/Web/HTML/Supported_media_formats 原文：http://www.cnblogs.com/lohcve/p/4731608.html

用Word宏来实现批量将HTML转换成DOC

环境：OFFICE WORD 2007打开WORD，在菜单的“视图”->“宏”->“查看宏”->“创建”http://blog.csdn.net/aminfo/article/details/38760093 Sub 宏1()Dim MyFile As StringDim Arr(1000) As String '一次处理最大的文件数量，根据需要修改数字1000改为需要处理的数量Dim count As IntegerMyFile = Dir("F:\待处理的HTML目录\" & "*.html")count = count + 1Arr(count) = MyFileDo While MyFile <> ""MyFile = DirIf MyFile = "" T...

[C#]使用iText7.pdfHtml，以HTML为模板，转换成PDF打印【代码】【图】

使用iText7的pdfHtml库，将html转成pdf，官方：https://itextpdf.com/en/demos/convert-html-css-to-pdf-free-online；官方示例：using System.IO; using iText.Html2pdf;namespace WebsiteDemoPdfHtml {class Program{privatestaticstring ORIG = "/uploads/input.html";privatestaticstring OUTPUT_FOLDER = "/myfiles/";staticvoid Main(string[] args){string pdfDest = OUTPUT_FOLDER + "output.pdf";HtmlConverter.ConvertTo...

【jsPDF】jsPDF插件实现将html页面转换成PDF，并下载，支持分页【代码】【图】

1、目的：在前段是 jQuery库或者 VUE库或者两者混合库，将html 页面和数据转换成PDF格式并下载，支持分页2、引入类库包：<script src="https://cdn.bootcss.com/html2canvas/0.5.0-beta4/html2canvas.js"></script><script src="https://cdn.bootcss.com/jspdf/1.3.4/jspdf.debug.js"></script>  <script src="/plugins/jQuery/jquery-2.2.3.min.js"></script>3、需要下载...

黄聪： PHP WkHtmlToPdf/WkHtmlToImage 将网页直接转换成pdf和图片【代码】

function convert($type=‘pdf‘){$filename=time();$url=$this->input->get("url");if($type==‘pdf‘){$filename="F:/upload/tmp/".$filename.".pdf";exec("F:/home/phptool/wkhtmltopdf-i386 $url$filename");header(‘Content-Type: application/pdf‘);}elseif($type==‘image‘){$filename="upload/tmp/".$filename.".jpg";exec("/home/phptool/wkhtmltoimage-i386 $url$filename");header(‘Content-Type: image/jpeg‘);}h...

HTML连载75-3D转换模块之正方体【代码】【图】

一、正方体核心要点就是：使用3D转换模块，以及平移、旋转的在X、Y、Z轴上的应用 <style>*{margin:0;padding:0;}ul{width: 200px;height: 200px;border: 1px solid black;box-sizing:border-box;margin:100px auto;position:relative;transform: rotateY(0deg) rotateX(0deg);transform-style: preserve-3d;/*转换成一个3D的面*/?}li{list-style: none;width: 200px;height: 200px;text-align:center;line-height:200px;font-size:...

解决Html.CheckBoxFor中”无法将类型 bool 隐式转换为 bool。存在一个显式转换..."的方法【代码】

在后面加.Value属性 @Html.CheckBoxFor(m => m.IsComment.Value, new { style = "vertical-align: middle;" }) 解决Html.CheckBoxFor中”无法将类型 bool 隐式转换为 bool。存在一个显式转换..."的方法原文：http://www.cnblogs.com/firstcsharp/p/5227210.html

PHP将HTML转换成文本的实现代码【代码】

核心代码： <?php // $document 应包含一个 HTML 文档。 // 本例将去掉 HTML 标记，javascript 代码 // 和空白字符。还会将一些通用的 // HTML 实体转换成相应的文本。$search = array ("‘<script[^>]*?>.*?</script>‘si", // 去掉 javascript"‘<[\/\!]*?[^<>]*?>‘si", // 去掉 HTML 标记"‘([\r\n])[\s]+‘", // 去掉空白字符"‘&(quot|#34);‘i", // 替换 HTML 实体"‘&(amp|#38);‘i","‘&(lt|#60);‘...

xhtmlrenderer把html转换成pdf打印问题【代码】

1、解决中文显示：加上中文字体：privatestaticfinal String WIN_FONT_SUN = "C:/Windows/Fonts/simsun.ttc";privatestaticfinal String WIN_FONT_HEI = "C:/Windows/Fonts/simhei.ttf";privatestaticfinal String LINUX_FONT_SUN = "/usr/share/fonts/my_fonts/simsun.ttc";privatestaticfinal String LINUX_FONT_HEI = "/usr/share/fonts/my_fonts/STZHONGS.TTF";if (isWindows()){ addFont(fontResolver, WIN_FONT_SUN);addFon...

Razor 将C#对象转换成Javascript对象， json还原被转码的字符 &quot·· HTML转义符【代码】

Razor 将C#对象转换成Javascript对象在Razor中使用Json字符串，特殊字符被自动转义（如：\"->"）@{var jsonStr = Html.Raw(JsonUtil.ToJson(VieBag.data)); } <script> var data = JSON.parse(@jsonStr); </script> ViewBag.Data = list;<script type="text/javascript">//将数据对象转换为 JSON 格式，是为了在网页中通过使用JS将数据作为文本进行处理var data = @Html.Raw(Json.Encode(ViewBag.Data));for (var i = 0; i < ...

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）【代码】【图】

一本系列随笔概览及产生的背景本系列开篇受到大家的热烈欢迎，这对博主是莫大的鼓励，此为本系列第四篇，希望大家继续支持，为我继续写作提供动力。自己开发的豆约翰博客备份专家软件工具问世3年多以来，深受广大博客写作和阅读爱好者的喜爱。同时也不乏一些技术爱好者咨询我，这个软件里面各种实用的功能是如何实现的。该软件使用.NET技术开发，为回馈社区，现将该软件中用到的核心技术，开辟一个专栏，写一个系列文章，以飨广大...

数据格式转换（三）Office文档转HTML

? ? ?HTML Filter 是由北京红樱枫软件有限公司根据HTML Ver 4.01/CSS式样，研制和开发的MS Office系列文档到HTML转换的通用程序库。便于用户实现对多种文档的统一管理，编辑，检索和浏览。用户能够使用本产品，实现文档在线预览。十分便利的将附件中的Word。Excel。PPT文档转换为HTML，通过浏览器浏览HTML的内容。本产品採用了先进的多语言、多平台、多线程的设计理念，支持多国语言，多种操作系统，提供了多种形式的API功能接口。...

HTML - 技术教程分类

HTML 教程 HTML 简介 HTML 编辑器 HTML 基础 HTML 元素 HTML 属性 HTML 标题 HTML 段落 HTML 文本格式化 HTML 链接 HTML 头部 HTML CSS HTML 图像 HTML 表格 HTML 列表 HTML 区块 HTML 布局 HTML 表单 HTML 框架 HTML 颜色 HTML 颜色名 HTML 颜色值 HTML 脚本 HTML 字符实体 HTML URL HTML 速查列表 HTML 总结 XHTML 简介 HTML 媒体(Media) HTML 插件 HTML 实例 HTML 标签列表（功能排序） HTML 属性 HTML 事件 HTML 画布 HTML 音频/视频 HTML 颜色名 HTML 字符集 HTML ASCII HTML ISO-8859-1 HTML 符号 HTML 语言代码 html 全部

HTML - 最热教程

html5代码如何实现进度条功能？（示例）javascript中html字符串转化为jquerydo...HTML5实战与剖析之CSS选择器——getEle...html5中设置或返回音频/视频是否应该被...HTML5获取设备信息 jQuery打印指定区域Html页面并自动分页...jQuery+HTML5+CSS3制作支持响应式布局时...JS+HTML5实现上传图片预览效果完整实例...php删除html标签和标签内的内容的方法总...XMLHttpRequest中responseText如何获取...

首页 / HTML / 使用Java将HTML转换为树

使用Java将HTML转换为树

内容导读

内容图文

内容总结

内容备注

内容手机端

【使用Java将HTML转换为树】教程文章相关的互联网学习教程文章

HTML 运算符，类型的转换【代码】

XHTML代码规则&手工html转换xhtml

php函数nl2br的反函数br2nl 将html中的br换行符转换为文本输入中的换行符【代码】

如何让转换的视频支持HTML5在线播放【代码】

用Word宏来实现批量将HTML转换成DOC

[C#]使用iText7.pdfHtml，以HTML为模板，转换成PDF打印【代码】【图】

【jsPDF】jsPDF插件实现将html页面转换成PDF，并下载，支持分页【代码】【图】

黄聪： PHP WkHtmlToPdf/WkHtmlToImage 将网页直接转换成pdf和图片【代码】

HTML连载75-3D转换模块之正方体【代码】【图】

解决Html.CheckBoxFor中”无法将类型 bool 隐式转换为 bool。存在一个显式转换..."的方法【代码】

PHP将HTML转换成文本的实现代码【代码】

xhtmlrenderer把html转换成pdf打印问题【代码】

Razor 将C#对象转换成Javascript对象， json还原被转码的字符 &quot·· HTML转义符【代码】

网络采集软件核心技术剖析系列（4）---使用C#语言如何将html网页转换成pdf（html2pdf）【代码】【图】

数据格式转换（三）Office文档转HTML

JAVA - 相关标签

HTML - 相关标签

HTML - 技术教程分类

HTML - 最新教程

HTML - 最热教程