【新浪明星日志推荐系统——爬虫爬取数据(2)】教程文章相关的互联网学习教程文章

新浪明星日志推荐系统——爬虫爬取数据(2)【图】

由于之前的改造,现在将爬虫的功能做了一些改变,具体实现的功能是将推荐的日志全部抓取下来,并存放在以文章标题命名的文件中,代码如下:import urllibimport os,reimport sysfrom bs4 import BeautifulSoupreload(sys)sys.setdefaultencoding("utf-8")def if_str(str_t):if re.search(r"^.*[a-zA-Z].*",str_t)== None:print " saf"def get_blog(url):page = urllib.urlopen(url).read()if len(page)!=0:if BeautifulSoup(page)....