Selenium爬取b站主播头像并以昵称命名保存到本地
申明:资料来源于网络及书本,通过理解、实践、整理成学习笔记。
Pythion的Selenium自动化测试之获取哔哩哔哩主播的头像以昵称命名保存到本地文件
效果图
方法1
通过接口获取
首先使用pip下载requests包
pip install requests
import requests# 通过接口获取请求的接口:想要获取网页的urlurl = 'https://api.live.bilibili.com/xlive/web-interface/v1/second/getList?platform=web&parent_area_id=1&area_id=0&sort_type=sort_type_152&page=1'# 发送get请求,获取返回数据request = requests.get(url)# 保存图片的路径dir = '../requests/bilibili/'# 将获取的数据转化为json文件并获取到图片的链接info = request.json()['data']['list']for i in info: # 将图片以主播的昵称命名 file = open(dir + '{}.png'.format(i['uname']), 'wb') # 将图片保存到之前的路径 file.write(requests.get(i['face']).content) # 关闭文件流 file.close()
方法2
通过html定位获取
首先使用pip下载requests和selenium包
pip install requests
pip install selenium
import requestsfrom selenium import webdriver# 使用谷歌驱动打开谷歌浏览器driver = webdriver.Chrome()# 访问哔哩哔哩直播页面driver.get('https://live.bilibili.com/p/eden/area-tags?visit_id=2mwktlg4e2q0&areaId=0&parentAreaId=1')# 循环30次一次保存的头像图片for i in range(1, 31): # xpth定位头像的位置 image_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[1]/div/div'.format(i) # 获取位置的style属性值 image_style_value = driver.find_element_by_xpath(image_xpath).get_attribute('style') # 从style属性值中切片出图片的链接 image_url = image_style_value[image_style_value.find('h'):image_style_value.find('@'):1] # xpath定位昵称的位置 title_xpath = '/html/body/div[1]/div[3]/div/ul/li[{}]/a/div[2]/div[2]/div/span'.format(i) # 获取位置的title值 name_title_value = driver.find_element_by_xpath(title_xpath).get_attribute('title') print(image_url) # 发送get请求,获取返回数据 request = requests.get(image_url) # 保存图片的路径 file = open('D:python Projects/requests/bilibili/{}.jpg'.format(name_title_value), 'wb') # 将图片保存到路径 file.write(request.content) # 关闭文件流 file.close()
最后,在为大家增加一个获取b站视频信息的操作代码
# coding:utf-8import requestsimport jsonimport timeimport pymysqlimport bs4headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'}result = []def get_aid(page): url = 'https://search.bilibili.com/all?keyword=爬虫&from_source=nav_search&spm_id_from=333.851.b_696e7465726e6174696f6e616c486561646572.11' + '&page=' + str(page) response = requests.get(url, headers=headers, verify=False).text time.sleep(1) try: soup = bs4.BeautifulSoup(response, 'lxml').find('div', attrs={'id':'all-list'}).find('div', attrs={'class':'mixin-list'}) ul = soup.find('ul', attrs={'class':'video-list clearfix'}).find_all('li', attrs={'class':'video-item matrix'}) for item in ul: # print(item) info = item.find('div', attrs={'class': 'headline clearfix'}).find('span', attrs={'class': 'type avid'}).get_text() aid = info.replace('av', '') print(aid) result.append(aid) return result except: print('something is wrong')def get_contents(url): response = requests.get(url=url, headers=headers, verify=False).json() time.sleep(1) try: data_1 = response['data'] data = data_1['stat'] aid = data['aid'] view = data['view'] coin = data['coin'] like = data['like'] favorite = data['favorite'] share = data['share'] danmaku = data['danmaku'] print('视频编号', aid) print('观看数量', view) print('投币数量', coin) print('收藏数量', favorite) print('点赞数量', like) print('分享数量', share) print('弹幕数量', danmaku) except: print('------------')if __name__ == '__main__': for i in range(1, 50): result = get_aid(i) for i in result: url = 'https://api.bilibili.com/x/web-interface/view?aid=' + str(i) get_contents(url)
到此这篇关于Selenium爬取b站主播头像并以昵称命名保存到本地的文章就介绍到这了,希望对大家有所帮助,更多相关python爬取内容请搜索 以前的文章或继续浏览下面的相关文章,希望大家以后多多支持 !
最后更新于 2021-11-08 08:13:39 并被添加「」标签,已有 位童鞋阅读过。
本站使用「署名 4.0 国际」创作共享协议,可自由转载、引用,但需署名作者且注明文章出处
相关文章
- 万痛筋骨贴正品颈椎肩周腰椎关节跌打扭伤足跟手肘酸麻胀痛贴膏
- X/HTML5 和 XHTML2
- 2022口算题卡应用题强化专项训练人教北师大苏教版一二三四五六年级口算心算笔算应用题练习册一年级数学口算天天练
- 咪芽奶瓶清洁刷婴儿专用洗奶瓶刷子神器海绵奶瓶清洁刷套装三合一
- 20佳惊艳的HTML5应用程序示例分享