博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
7-7
阅读量:4983 次
发布时间:2019-06-12

本文共 1473 字,大约阅读时间需要 4 分钟。

#

from bs4 import BeautifulSoupfrom urllib.request import urlopenres = urlopen('http://pythonscraping.com/pages/page1.html')bs = BeautifulSoup(res.read(),'html.parser')print(bs.h1)  #获取标签内容
BeautifulSoup  res.status 200  html.parser/lxml/html5lib   
from urllib.request import urlopenfrom urllib.error import HTTPErrorfrom bs4 import BeautifulSoupimport sysdef getTitle(url):    try:        html = urlopen(url)    except HTTPError as e:        print(e)        return None    try:        bsObj = BeautifulSoup(html, "html.parser")        title = bsObj.body.h1    except AttributeError as e:        return None    return titletitle = getTitle("http://www.pythonscraping.com/exercises/exercise1.html")if title == None:    print("Title could not be found")else:    print(title)
try 异常处理
from urllib.request import urlopenfrom bs4 import BeautifulSoupimport datetimeimport randomimport rerandom.seed(datetime.datetime.now())#随机数种子  时间种子def getLinks(articleUrl):    html = urlopen("http://en.wikipedia.org"+articleUrl)    bsObj = BeautifulSoup(html, "html.parser")    return bsObj.find("div", {
"id":"bodyContent"}).findAll("a", href=re.compile("^(/wiki/)((?!:).)*$"))links = getLinks("/wiki/Kevin_Bacon")while len(links) > 0: newArticle = links[random.randint(0, len(links)-1)].attrs["href"] print(newArticle) links = getLinks(newArticle)
seed random 随机种子
Natural Language Toolkit,自然语言处理工具包,在NLP领域中,最常使用的一个Python库

 

转载于:https://www.cnblogs.com/zhangchen-sx/p/11148153.html

你可能感兴趣的文章
pickle使用
查看>>
将多个网页制作成一个CHM文件
查看>>
txt 文件改名为fasta,并编辑规格格式
查看>>
闭包 装饰器 - 总结
查看>>
中间件
查看>>
jQuery初识之选择器、样式操作和筛选器(模态框和菜单示例)
查看>>
::作用域运算符
查看>>
memcpy memmove区别和实现
查看>>
linux 下创建并动态加载.so 文件
查看>>
python--redis
查看>>
禁用input帐号密码的自动填充
查看>>
python的小技巧
查看>>
json数组转数组对象
查看>>
KMP算法详解 转帖
查看>>
Struts2+Hibernate+Spring+Webservice 项目从Tomcat到WebLogic遇到问题的解决方法
查看>>
C# 代理/委托 Delegate
查看>>
笨方法学python--参数,解包,变量
查看>>
android 加载本地图片与网络图片
查看>>
易经读书笔记17 泽雷随
查看>>
oracle正则表达式函数 匹配
查看>>