python爬虫之定位网页元素的三种方式

2018/11 11 19:11

python爬虫之定位网页元素的三种方式

版权声明:本文为博主原创文章,转载请注明出处 https://blog.csdn.net/rankun1/article/details/81357179

在做爬虫的过程中,网页元素的定位是比较重要的一环,本文总结了python爬虫中比较常用的三种定位网页元素的方式。

1.普通的BeautifulSoup find系列操作

2.BeautifulSoup css选择器

3. xpath

这三种方式灵活运用,再配合上正则表达式,没有什么网页能难倒你啦。

我们以获取豆瓣电影top250第一页的电影标题为例来比较:

  1. import requests
  2. from bs4 import BeautifulSoup
  3. from lxml import etree
  4. # 通过find定位标签
  5. # BeautifulSoup文档:https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html
  6. def bs_parse_movies(html):
  7. movie_list = []
  8. soup = BeautifulSoup(html, "lxml")
  9. # 查找所有class属性为hd的div标签
  10. div_list = soup.find_all('div', class_='hd')
  11. # 获取每个div中的a中的span(第一个),并获取其文本
  12. for each in div_list:
  13. movie = each.a.span.text.strip()
  14. movie_list.append(movie)
  15. return movie_list
  16. # css选择器定位标签
  17. # 更多ccs选择器语法:http://www.w3school.com.cn/cssref/css_selectors.asp
  18. # 注意:BeautifulSoup并不是每个语法都支持
  19. def bs_css_parse_movies(html):
  20. movie_list = []
  21. soup = BeautifulSoup(html, "lxml")
  22. # 查找所有class属性为hd的div标签下的a标签的第一个span标签
  23. div_list = soup.select('div.hd > a > span:nth-of-type(1)')
  24. # 获取每个span的文本
  25. for each in div_list:
  26. movie = each.text.strip()
  27. movie_list.append(movie)
  28. return movie_list
  29. # XPATH定位标签
  30. # 更多xpath语法:https://blog.csdn.net/gongbing798930123/article/details/78955597
  31. def xpath_parse_movies(html):
  32. et_html = etree.HTML(html)
  33. # 查找所有class属性为hd的div标签下的a标签的第一个span标签
  34. urls = et_html.xpath("//div[@class='hd']/a/span[1]")
  35. movie_list = []
  36. # 获取每个span的文本
  37. for each in urls:
  38. movie = each.text.strip()
  39. movie_list.append(movie)
  40. return movie_list
  41. def get_movies():
  42. headers = {
  43. 'user-agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.82 Safari/537.36',
  44. 'Host': 'movie.douban.com'
  45. }
  46. link = 'https://movie.douban.com/top250'
  47. r = requests.get(link, headers=headers, timeout=10)
  48. print("响应状态码:", r.status_code)
  49. if 200 != r.status_code:
  50. return None
  51. # 三种定位元素的方式:
  52. # 普通BeautifulSoup find
  53. return bs_parse_movies(r.text)
  54. # BeautifulSoup css select
  55. return bs_css_parse_movies(r.text)
  56. # xpath
  57. return xpath_parse_movies(r.text)
  58. movies = get_movies()
  59. print(movies)

补充:你可以通过chrome浏览器方便的获取网页元素的css选择器路径和xpath路径,如图

--转载请注明: http://91o.cc/python%e7%88%ac%e8%99%ab%e4%b9%8b%e5%ae%9a%e4%bd%8d%e7%bd%91%e9%a1%b5%e5%85%83%e7%b4%a0%e7%9a%84%e4%b8%89%e7%a7%8d%e6%96%b9%e5%bc%8f/

作者 - 分类 未分类

发表回复

(必填)