Python爬虫爬取电影天堂热门电影信息

释放双眼,带上耳机,听听看~!

放一个python爬虫教程贴,爬取电影天堂(https://www.dy2018.com)的2021必看热片的电影下载信息,在控制台打印,仅限学习实用哦~

代码如下:

import requests  # 导入请求库
import re  # 导入正则库

# 获取页面源代码
url = "https://www.dy2018.com"  # 电影天堂首页链接
response = requests.get(url)  # response接收链接的响应
response.encoding = "gb2312"  # 从页面源代码中发现页面编码格式为gb2312

# 解析数据
obj = re.compile(r'2021必看热片.*?<ul>(?P<ul>.*?)</ul>', re.S)  # 正则匹配出最外面的ul标签的内容
obj2 = re.compile(r"<li><a href='(?P<href>.*?)'", re.S)  # 正则匹配ul里面的所有子页面链接(不完整的页面链接)
obj3 = re.compile(r'◎片  名(?P<movie_name>.*?)<.*?td style="WORD-WRAP: break-word"'
                  r' bgcolor="#fdfddf"><a href="(?P<download>.*?)"', re.S)  # 正则匹配子页面里的电影名与迅雷下载链接

child_href_list = []  # 存放子页面的链接列表

# 获取数据
result = obj.finditer(response.text)  # 接收匹配到的ul内容
for i in result:  # result也就一个值,为ul列表的内容
    result2 = obj2.finditer(i.group("ul"))  # 接收所有的子页面的链接
    for j in result2:  # 遍历所有的子页面链接
        child_href = url + j.group("href")  # 与域名重组为完整的链接
        child_href_list.append(child_href)  # 放入子页面链接列表里

# 打印数据
for href in child_href_list:  # 遍历子页面的完整链接
    resp2 = requests.get(href)  # 循环请求子页面的链接
    resp2.encoding = "gb2312"  # 将页面编码改为gb2312
    res3 = obj3.search(resp2.text)  # 接收查找到的电影名与下载链接
    print(res3.group("movie_name"))  # 打印电影名
    print(res3.group("download"))  # 打印下载链接

运行结果:

Python爬虫爬取电影天堂热门电影信息--七宝美图
温馨提示:

1.本站部分内容均收集于网络!若内容若侵犯到您的权益,请联系站长处理!【站点简介】

2.如果您喜欢我们,可开通终身会员,享受全站资源免费下载!

3.本站部分内容只做学习和交流使用。 版权归原作者所有。

4.联系方式:QQ(153287191)-添加时请一定要注明来意和问题,近期有太多没事添加聊骚的╮(╯▽╰)╭

PC用户点这里      手机QQ点这里

给TA打赏
共{{data.count}}人
人已打赏
WordPress建站码农天地

WordPress禁止裁剪高度大于2560像素的图片

2021-7-15 14:23:20

WordPress建站码农天地

百度对优质内容的要求都有哪些?应该如何优化?

2021-7-16 9:00:26

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索