1200字范文,内容丰富有趣,写作的好帮手!
1200字范文 > 手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件...

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件...

时间:2023-04-29 12:19:28

相关推荐

手把手教你使用Python网络爬虫获取王者荣耀英雄出装说明并自动化生成markdown文件...

点击上方“Python爬虫与数据挖掘”,进行关注

回复“书籍”即可获赠Python从入门到进阶共10本电子书

以我独沉久,愧君相见频。

大家好,我是Python进阶者。

一、前言

玩过王者荣耀游戏的小伙伴们都知道英雄出装是十分重要的事情,一个合理的出装,再加上铭文,可以让你在王者战场上势如破竹,unstoppable!

前几天在【明佬】群里看到他分享了一个使用Python网络爬虫获取王者荣耀英雄出装说明,并使用线程池的方式下载了出装图片,之后还自动化生成了markdown文件,干货内容很多,这里拿出来分享给大家,欢迎大家积极尝试。

二、数据获取

这里我们的目标网站是王者荣耀官网,如下图所示。

之后依次点击首页右侧中的【英雄/皮肤】的【更多】按钮,可以进入到详情页,如下图所示,点击【局内道具】就可以看到出装信息了,里边包含了我们想要的目标信息。

通过浏览器抓包,可以获取到具体的信息,可以看到存放在json格式中。

下图是数据详情截图,可以看到有中文乱码,这个不影响,起码数据是可以拿到的。

代码实现过程

找到数据源之后,接下来就是代码实现了,一起来看看吧,这里直接套用【明佬】代码,在jupyter notebook中跑的。

获取装备数据

importrequestsimportpandasaspdheaders={'User-Agent':'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)''Chrome/88.0.4324.104Safari/537.36'}target='/web05/js/item.json'item_list=requests.get(target,headers=headers).json()item_df=pd.DataFrame(item_list)item_df.sort_values(["item_type","price","item_id"],inplace=True)item_df.fillna("",inplace=True)item_df.des1=item_df.des1.str.replace("</?p>","",regex=True)item_df.des2=item_df.des2.str.replace("</?p>","",regex=True)item_df

结果如下图所示:

多线程下载图片

接下来使用线程池的方法下载图片,图片的拼接方法也很简单,看下图就一目了然了。

下面是代码实现:

importosfromconcurrent.futuresimportThreadPoolExecutordefdownload_img(item_id):ifos.path.exists(f"imgs/{item_id}.jpg"):returnimgurl=f"/images/yxzj/img06/itemimg/{item_id}.jpg"res=requests.get(imgurl)withopen(f"imgs/{item_id}.jpg","wb")asf:f.write(res.content)os.makedirs("imgs",exist_ok=True)withThreadPoolExecutor(max_workers=8)asexecutor:nums=executor.map(download_img,item_df.item_id)

下载速度很快,几秒钟的事情,结果如下图所示:

接下来,我们将数据自动化生成Markdown文档,一起来看看吧。

生成Markdown文档

代码如下,前面部分是数据的预处理,后面是写入文件:

item_type_dict={1:'攻击',2:'法术',3:'防御',4:'移动',5:'打野',7:'游走'}item_ids=item_df.item_id.valuesitem_df.item_id=item_df.item_id.apply(lambdaitem_id:f"![{item_id}](imgs/{item_id}.jpg)")item_df.item_type=item_df.item_type.map(item_type_dict)item_df.columns=["图片","装备名称","类型","售价","总价","基础描述","扩展描述"]item_df

写入文件的代码,生成Markdown文档:

withopen("王者装备说明.md","w")asf:foritem_type,item_splitinitem_df.groupby("类型",sort=False):f.write(f"#{item_type}\n")item_split.drop(columns="类型",inplace=True)f.write(item_split.to_markdown(index=False))f.write("\n\n")

结果如下图所示:

之后在本地还会生成一个名为【王者装备说明.md】的Markdown文档,双击文件打开,内容如下图所示:

真是直呼好家伙!我在这一步实现的时候,遇到了一个报错,如下所示:

Missingoptionaldependency'tabulate'.Usepiporcondatoinstalltabulate.

提示却少依赖库,只需要在cmd下进行安装即可pip install tabulate,之后就可以正常运行了。

生成Excel表格

不过Markdown的表格无法任意调整,图片需要点击后才会放大,下面我们考虑生成Excel表格:首先需要整理数据,代码如下:

item_df.图片=""item_df.基础描述=item_df.基础描述.str.replace("<br>","\n")item_df.扩展描述=item_df.扩展描述.str.replace("<br>","\n")item_df

生成结果如下图所示:

之后将结果写入到Excel中去,代码如下所示:

#写入Excel表格fromopenpyxl.drawing.imageimportImagefromopenpyxl.stylesimportAlignmentwithpd.ExcelWriter("王者装备说明.xlsx",engine='openpyxl')aswriter:item_df.to_excel(writer,sheet_name='装备说明',index=False)worksheet=writer.sheets['装备说明']worksheet.column_dimensions["A"].width=11foritem_id,(cell,)inzip(item_ids,worksheet.iter_rows(2,None,1,1)):worksheet.row_dimensions[cell.row].height=67worksheet.add_image(Image(f"imgs/{item_id}.jpg"),f'A{cell.row}')worksheet.column_dimensions["F"].width=15worksheet.column_dimensions["G"].width=35writer.save()

打开文件,效果图如下图所示:

当然了,大家也可以根据自己想要的效果生成HTML和Word等等。

三、总结

大家好,我是Python进阶者。这篇文章主要分享了一个使用Python网络爬虫获取王者荣耀英雄出装说明,并使用线程池的方式下载了出装图片,之后还自动化生成了markdown文件,干货内容很多,欢迎大家积极尝试,如果有遇到问题,请添加我好友,我帮助解决。

最后感谢粉丝【明佬】分享的代码喝王者荣耀出装攻略,真是太强了,上王者指日可待!

最后放上【明佬】的csdn链接:https://xxmdmst./article/details/124035041,点击阅读原文可以直达噢!

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何Python问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

-------------------End-------------------

往期精彩文章推荐:

盘点Python内置函数sorted()高级用法实战

手把手教你进行Python网络爬虫中的Charles+Postern抓包

Python网络爬虫之数美滑块的加密及轨迹~~动态js参数分析

盘点Python集合中一个“坑”

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【

万水千山总是情,点个【在看】行不行

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。