shell——html抓取链接

内容导读

互联网集市收集整理的这篇技术教程文章主要介绍了shell——html抓取链接，小编现在分享给大家，供广大互联网技能从业者学习和参考。文章包含1344字，纯文字阅读大概需要2分钟。

内容图文

由url获得源码：wget -O url $html_file $input_file

去掉注释 : sed -i -e ":begin;// {/-->/!{$!{N;b begin};};s///;};" $html_file

-i:直接在原文件上修改，-e：同时执行多条命令

首先花括号{}代表命令块的开始，类似c的语法，后面就不再说了。
:begin，这是一个标号，man中叫做label，也就是跳转标记，供b和t命令用，本例中使用了b命令。
/<<</,/>>>/，这是一个地址范围（Addresses），后面{}中的命令只对地址范围之间的内容使用。其中逗号前面的部分是开始地址，逗号后面是结束地址，都是正则表达式。由于sed是“流”式“行”处理，所以结束地址是可以省略的，即如果地址的结束范围不存在，那么将一直处理到文件结尾。本例中使用这个地址范围主要是缩小处理的数据量，因为虽然后面用N命令把对一行的处理扩展为了多行，但如果从文件开头一直N扩展到<<<出现为止，buffer中要处理的字符串可能会很长，影响效率。所以去掉这个处理范围也是能够得到正确结果的，

获取含有链接的行并使用正则表达式抽取链接：cat $html_file | grep "<a.*href*" | sed ‘s/$.*$href="$[^"\n]*$"$.*$/\2/g‘ >$href_file

if..fi

if.. else..fi

if..elif..else..fi

逐行处理文件中内容：

http://www.cnblogs.com/dwdxdy/archive/2012/07/25/2608816.html

while read line

done<$file

shell脚本--if判断（数字条件、字符串条件） http://blog.csdn.net/yusiguyuan/article/details/17054231

http://www.cnblogs.com/chengmo/archive/2010/10/02/1841355.html

http://blog.csdn.net/fitywang/article/details/2156089

判断某个字符串是否以某个子串开头：[[..]]表示匹配，里面可以用正则表达式；[..]表示判断。=~表示匹配符

if [[ "$line_url" =~ "mailto*" ]];then
continue

==的功能在[[]]和[]中的行为是不同的,如下:

[cpp] view plain copy

[[ $a == z* ]] # 如果$a以"z"开头(模式匹配)那么将为true
[[ $a == "z*" ]] # 如果$a等于z*(字符匹配),那么结果为true
[ $a == z* ] # Fi

原文：http://www.cnblogs.com/myyan/p/4849743.html

内容总结

以上是互联网集市为您收集整理的shell——html抓取链接全部内容，希望文章能够帮你解决shell——html抓取链接所遇到的程序开发问题。如果觉得互联网集市技术教程内容还不错，欢迎将互联网集市网站推荐给程序员好友。

内容备注

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 gblab@vip.qq.com 举报，一经查实，本站将立刻删除。

内容手机端

扫描二维码推送至手机访问。

本文链接：https://qyyshop.com/info/1278487.html

来源：【匿名】

【上一篇】HTML 特殊符号编码对照表【下一篇】PHP 和 HTML

更多 ►

【shell——html抓取链接】教程文章相关的互联网学习教程文章

由url获得源码：wget -O url $html_file $input_file去掉注释 : sed -i -e ":begin;// {/-->/!{$!{N;b begin};};s///;};" $html_file -i:直接在原文件上修改，-e：同时执行多条命令首先花括号{}代表命令块的开始，类似c的语法，后面就不再说了。:begin，这是一个标号，man中叫做label，也就是跳转标记，供b和t命令用，本例中使用了b命令。/<<</,/>>>/，这是一个地址范围（Addresses），后面{}中的命令...

Html+JS+PowerShell打造Web版AD管理系统（二）

最近发现gihub上早已有人把powershell的restful webapi做好了，而且是自宿主的owin。比上次用到的httplistener健壮许多。貌似还是支持job，runspace的。https://github.com/DimensionDataCBUSydney/PowerShell.REST.API过程其实比较简单，html不用变，js只需要把拼装webapi url的地方修改下就好，后台的powershell webapi整个替换掉就ok了。下载源码，直接生成即可。我用的vs2017。然后就可以直接使用了，唯一的问题就是跨域。一开...

shell脚本：清理被篡改的html文件【代码】

声明：只能清除尾部被篡改的html文件。------------------------------------------------------------------------------被篡改的html文件：[root@CHM-DD-00-E5-07 sndapk]# cat -A problem.html <html>^M$ <body>^M$ <h1>It works !</h1>^M$ </body>^M$ </html>^M$ <div style="position:absolute;left:expression(386-4635);top:expression(528-9313);">^M$ <a href="http://www.fuckit.com/">Chanel handbags</a>[root@CHM-DD-...

shell脚本，在指定目录下通过随机小写10个字母加固定字符串oldboy批量创建10个html文件。【代码】

test10.sh #!/bin/bash#使用for循环在/test10目录下通过随机小写10个字母加固定字符串oldboy批量创建10个html文件dir=/root/wyb/test10/ [ ! -d $dir ] && mkdir -p $dirfor i in `seq 10`dotouch $dir`echo $RANDOM|md5sum|cut -c 1-10`_oldboy.htmldone [root@localhost wyb]# bash test10.sh [root@localhost wyb]# cd test10 [root@localhost test10]# ls 3fb16229e0_oldboy.html 5bf08cf5ce_oldboy.html 73e073e1e6_ol...

运用Shell命令行获得本机IP地址

运用Shell 命令行获得本机IP地址在 mac 下面输入 ifconfig 或者在 linux 下面输入 ip a 就可以得到我们的网卡信息。不过通常情况下，我们需要查看的是我们的IP地址，不需要这么多的信息。所以，我想把这些信息给摘取出来。mac ifconfig 下面的实现我们输入 ifconfig 会得到大段的信息，我们可以看到我们想要的IP地址前面的字符串是 inet所以，我们优化一下代码如下：ifconfig | grep inet得到如下信息： inet 127.0.0.1 netmask...

PowerShell抓取网页表格_html/css_WEB-ITnose【图】

今天无意中看到了传教士写的一篇博文 http://www.cnblogs.com/piapia/p/5367556.html （PowerShell中的两只爬虫），很受启发，自己试着抓了一下，成功地抓取了网页的表格。因为我是英文版的系统，中文系统的界面转换成字符串都成了乱码，因此测试都是在英文网页上操作的。 PowerShell 5里面有一个新的函数叫做ConvertFrom-String, 他的作用是把字符串转换成对象。其中一个参数是可以根据指定的模板，把对应的那一部分字符串匹配...

车易拍某站Getshell_html/css_WEB-ITnose

漏洞标题车易拍某站Getshell 相关厂商 cheyipai.com 漏洞作者荒废的腰子提交时间 2016-03-28 11:03 公开时间 2016-04-02 11:10 漏洞类型文件上传导致任意代码执行危害等级高自评Rank 15 漏洞状态漏洞已...

【手写笔记】服务器上配置环境+nginx启动+配置安全组+测试html+wget+爬虫+上传文件scp+rsync+网页+更改域名+看自己的ip+爬虫项目+asca+shell编程+【图】

点赞收藏分享文章举报汪雯琦发布了166 篇原创文章 · 获赞 53 · 访问量 1万+私信关注

shell-script – 用于反转HTML文件中数千个元素的排序顺序的正确工具【代码】

我有一个包含数千个< div class =date>< / div>< ul> …< / ul>的HTML文件代码块如下：<!DOCTYPE html> <html><head></head><body><div class="date">Wed May 23 2018</div><ul><li>Do laundry<ul><li>Get coins</li></ul></li><li>Wash the dishes</li></ul><div class='date'>Thu May 24 2018</div><ul><li>Solve the world's hunger problem<ul><li>Don't tell anyone</li></ul></li><li>Get something to wear</li></ul><div c...

http://www.sky.franken.de/doxy/explorer/structIShellBrowserImpl.html【图】

原文链接：http://www.cnblogs.com/pangpangxiong/archive/2009/06/16/1504550.htmlsave lifes 转载于:https://www.cnblogs.com/pangpangxiong/archive/2009/06/16/1504550.html

shell之发送html格式邮件【代码】【图】

文章目录1.开启QQ邮箱服务器SMTP服务2.安装sendEmail3.发送带附件的邮件3.1sendEmail命令详解3.2编写test.sh脚本如下3.3执行脚本 sh test.sh4.发送带html表格的邮件4.1表格数据4.2脚本如下4.3执行脚本4.4邮件截图如下 1.开启QQ邮箱服务器SMTP服务本人多次尝试使用mail发送html格式的邮件，但是显示的还是文本，失败。最终使用了sendEmail客户端发送带表格的邮件，首先配置qq邮箱开启SMTP服务流程如下图：设置-》账户开启SMTP服务...

Flask + html + Shell 实现nginx配置管理web平台【图】

一.起因: 1.最近公司频繁添加nginx 虚拟主机，操作太过频繁，人工太坑，真对此需求新开发通过界面添加nginx 虚拟主机;二.前端页面代码;<form action="/nginx_configuer" method="get"> <div class="row"> <div class="col-md-6" style="margin-top: 10px"> <div class="form-group"> <label for="exampleFormControlSelect1">nginx应用名称</label> <select class="form-control" id="exampleFormContro...