Python?多進(jìn)程、協(xié)程異步抓取英雄聯(lián)盟皮膚并保存在本地

時(shí)間：2021-11-09 13:51:16

關(guān)鍵字：異步進(jìn)程

手機(jī)看文章

掃描二維碼
隨時(shí)隨地手機(jī)看文章

[導(dǎo)讀]作者|俊欣來源?|關(guān)于數(shù)據(jù)分析與可視化就在11月7日晚間，《英雄聯(lián)盟》S11賽季全球總決賽決斗，在冰島拉開“帷幕”，同時(shí)面向全球直播。在經(jīng)過了5個(gè)小時(shí)的鏖戰(zhàn)，EDG戰(zhàn)隊(duì)最終以3:2戰(zhàn)勝來自韓國LCK賽區(qū)的DK戰(zhàn)隊(duì)，獲得俱樂部隊(duì)史上首座全球總決賽冠軍。奪冠的消息瞬間引爆全網(wǎng)，包括小...

作者 | 俊欣

來源 | 關(guān)于數(shù)據(jù)分析與可視化

就在11月7日晚間，《英雄聯(lián)盟》S11賽季全球總決賽決斗，在冰島拉開“帷幕”，同時(shí)面向全球直播。在經(jīng)過了5個(gè)小時(shí)的鏖戰(zhàn)，EDG戰(zhàn)隊(duì)最終以3:2戰(zhàn)勝來自韓國LCK賽區(qū)的DK戰(zhàn)隊(duì)，獲得俱樂部隊(duì)史上首座全球總決賽冠軍。

奪冠的消息瞬間引爆全網(wǎng)，包括小編的朋友圈也被刷屏了，今天小編就寫一篇與之相關(guān)的文章，通過單線程、多進(jìn)程以及異步協(xié)程等方法來抓取英雄聯(lián)盟的皮膚并下載。

傳統(tǒng)數(shù)據(jù)抓取 VS 高性能數(shù)據(jù)抓取

傳統(tǒng)的數(shù)據(jù)抓取都是運(yùn)行在單線程上的，先用獲取到目標(biāo)頁面中最大的頁數(shù)，然后循環(huán)抓取每個(gè)單頁數(shù)據(jù)并進(jìn)行解析，按照這樣的思路，會有大量的時(shí)間都浪費(fèi)在等待請求傳回的數(shù)據(jù)上面，如果在等待第一個(gè)頁面返回的數(shù)據(jù)時(shí)去請求第二個(gè)頁面，就能有效地提高效率，下面我們就通過單線程、多進(jìn)程以及異步協(xié)程的方式分別來簡單的實(shí)踐一下。

頁面分析

目標(biāo)網(wǎng)站：https://lol.qq.com/data/info-heros.shtml

官網(wǎng)的界面如圖所示，上面的每一張小圖代表每一個(gè)英雄，我們知道每一個(gè)英雄有多個(gè)皮膚，我們的目標(biāo)就是爬取每一個(gè)英雄的所有皮膚，并且保存在本地；打開一個(gè)英雄顯示他所有的皮膚，如下圖所示，

我們打開瀏覽器里面的開發(fā)者工具，查看皮膚數(shù)據(jù)的接口，

可以看到皮膚的信息是通過

json的數(shù)據(jù)格式來進(jìn)行傳輸?shù)?，并且存放皮膚的url也是有一定規(guī)律的，和英雄的ID相掛鉤url1 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/1.js' 

url2 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/2.js' 

url3 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/3.js'

url4 = 'https://game.gtimg.cn/images/lol/act/img/js/hero/4.js'

因此我們也可以自己來構(gòu)造這個(gè)url格式'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)


	單線程方案

我們先來看一下單線程的方案def get_page():

page_urls = []

for i in range(1, 10):

url = 'https://game.gtimg.cn/images/lol/act/img/js/hero/{}.js'.format(i)

page_urls.append(url)

return page_urls



# 獲取各英雄皮膚的鏈接

def get_img_urls():

results_list = []

page_urls = get_page()

for page_url in page_urls:

res = requests.get(page_url, headers=headers)

result = res.content.decode('utf-8')

result_dict = json.loads(result)

skins_list = result_dict["skins"]



for skin in skins_list:

hero_dict = {}

hero_dict['name'] = skin["heroName"]

hero_dict['skin_name'] = skin["name"]

if skin["mainImg"] == '':

continue

hero_dict['imgUrl'] = skin["mainImg"]

results_list.append(hero_dict)

time.sleep(2)

return results_list



# 將各種皮膚保存到本地

def save_image(index, img_url):

path = "skin/" img_url["name"]

if not os.path.exists(path):

os.makedirs(path)

response = requests.get(img_url['imgUrl'], headers = headers).content

with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:

f.write(response)

上面的代碼分別代表的獲取各英雄每個(gè)皮膚的鏈接，然后再將各英雄的皮膚圖片保存到本地，通過一個(gè)主函數(shù)將上面的步驟都串聯(lián)到一起def main():

img_urls = get_img_urls()

print("總共有{}個(gè)網(wǎng)頁".format(len(img_urls)))

for index, img_url in enumerate(img_urls):

print("目前正處于第{}個(gè)".format(img_urls.index(img_url)))

save_image(index, img_url)



print("Done")

爬取這幾個(gè)網(wǎng)頁然后保存到本地的時(shí)間總共是需要43秒的時(shí)間，接下來我們來看一下多進(jìn)程的爬取所需要的時(shí)間。

	多進(jìn)程的抓取方案

首先來簡單的介紹一下進(jìn)程，進(jìn)程是系統(tǒng)進(jìn)行資源分配和調(diào)度的最小單位，每一個(gè)進(jìn)程都有自己獨(dú)立的地址空間，不同進(jìn)程之間的內(nèi)存空間不共享，進(jìn)程與進(jìn)程之間的通信是由操作系統(tǒng)來傳遞的，因此通訊效率低，切換開銷大。這里我們簡單的用多進(jìn)程來抓取一下各個(gè)英雄的皮膚def main():

img_urls = get_img_urls()

print("總共有{}個(gè)網(wǎng)頁".format(len(img_urls)))

pools = multiprocessing.Pool(len(img_urls))

for index_1, img_url in enumerate(img_urls):

print("目前正處于第{}個(gè)".format(img_urls.index(img_url)))

pools.apply_async(save_image, args=(index_1, img_url, ))



pools.close() # 關(guān)閉進(jìn)程池（pool），使其不在接受新的任務(wù)。

pools.join() # 主進(jìn)程阻塞等待子進(jìn)程的退出， join方法要在close或terminate之后使用

print("Done")

整體下來需要的時(shí)間是29秒，比上面的單線程要快出許多。

	異步協(xié)程的抓取方案

與異步相對立的則是同步，顧名思義，同步具體指的各個(gè)任務(wù)并不是獨(dú)立進(jìn)行的，而是按照順序交替進(jìn)行下去的，在一個(gè)任務(wù)進(jìn)行完之后得到結(jié)果才進(jìn)行下一個(gè)的任務(wù)。而異步則是各個(gè)任務(wù)可以獨(dú)立的運(yùn)行，一個(gè)任務(wù)的運(yùn)行不受另外一個(gè)任務(wù)的影響。而這里提到的協(xié)程，英文叫做Coroutine，也稱為是微線程，是一種用戶態(tài)的輕量級線程，擁有自己的寄存器上下文和棧，在進(jìn)行調(diào)度切換時(shí)，將寄存器上下文和棧保存到其他地方，在切回來的時(shí)候恢復(fù)先前保存的寄存器上下文和棧。我們可以利用協(xié)程來實(shí)現(xiàn)異步操作，比如在發(fā)出請求的時(shí)候，需要等一段時(shí)間才能得到返回的結(jié)果，但其實(shí)這個(gè)等待的時(shí)候程序完全可以干其他許多的事情，在響應(yīng)返回之后再切換回來繼續(xù)處理，這樣可以充分利用 CPU 和其他資源。我們這里用協(xié)程來抓取一下各個(gè)英雄的皮膚async def save_image(index, img_url):

path = "skin/" img_url["name"]

if not os.path.exists(path):

os.makedirs(path)

response = requests.get(img_url['imgUrl'], headers = headers).content

with open('./skin/' img_url['name'] '/' img_url['skin_name']   str(index) '.jpg', 'wb') as f:

f.write(response)



def main():

loop = asyncio.get_event_loop()

img_urls = get_img_urls()

print("總共有{}個(gè)網(wǎng)頁".format(len(img_urls)))

tasks_list = [save_image(index, img_url) for index, img_url in enumerate(img_urls)]

try:

loop.run_until_complete(asyncio.wait(tasks_list))

finally:

loop.close()



print("Done")

一整個(gè)跑下來，大概是需要33秒的時(shí)間，也是比單線程的43秒要快出很多以上便是用單線程、多進(jìn)程以及異步協(xié)程的方式來優(yōu)化爬蟲腳本的性能，感興趣的讀者可以自己照著上面的教程與步驟自己去敲一遍代碼，感謝閱讀。


                
            欲知詳情，請下載word文檔 下載文檔

Python?多進(jìn)程、協(xié)程異步抓取英雄聯(lián)盟皮膚并保存在本地

傳統(tǒng)數(shù)據(jù)抓取 VS 高性能數(shù)據(jù)抓取

頁面分析

單線程方案

多進(jìn)程的抓取方案

異步協(xié)程的抓取方案

阿維塔、賽力斯已入股！華為引望可能成“中國博世”

Trianz與AWS達(dá)成戰(zhàn)略合作協(xié)議，徹底改變云采用和管理方式

人工智能驅(qū)動(dòng)工具SODA V將顛覆汽車市場，使汽車開發(fā)時(shí)間和成本降低90%

從容應(yīng)對未知風(fēng)險(xiǎn)----解密亞馬遜云科技的韌性之道

中國游戲市場開始復(fù)蘇！騰訊、網(wǎng)易等巨頭縮減在日本投資

獨(dú)立自主！華為董事：致力打造不依賴西方的技術(shù)

華為張平安：數(shù)字世界話語權(quán)最終由生態(tài)繁榮決定！

中國通信服務(wù)公布2024年中期業(yè)績

NVI技術(shù)創(chuàng)新聯(lián)盟成立！自主生態(tài)將帶動(dòng)產(chǎn)業(yè)鏈高速發(fā)展

軟通動(dòng)力與長三角投資達(dá)成戰(zhàn)略合作共謀數(shù)字生態(tài)新發(fā)展

海南區(qū)6家凱悅系酒店與嵐圖達(dá)成戰(zhàn)略合作，共同推動(dòng)新能源出行體驗(yàn)

安嵐攜手妮可?巴菲特開啟療愈之旅在秋日紅葉的浪漫中療愈身心

不懼美國封鎖！華為：我們給大家提供系統(tǒng)、存儲等

尼爾森IQ深耕中國四十載，共繪未來新篇章

第二十二屆跨盈年度B2B營銷高管峰會2025聚焦"營銷競?cè)?，打破市場?nèi)卷實(shí)現(xiàn)認(rèn)知進(jìn)化"

恒久動(dòng)力馳騁天地美孚1號攜手周冠宇邀您縱擎馳騁，勁享駕趣體驗(yàn)

美通社母公司Cision發(fā)布CisionOne平臺，進(jìn)軍亞太地區(qū)媒體監(jiān)測市場

移遠(yuǎn)通信推出大模型解決方案，重塑千行百業(yè)智能邊界

高途公布2024年第二季度未經(jīng)審計(jì)業(yè)績

華為發(fā)布AI百校計(jì)劃：培養(yǎng)AI人才每年獲最高100萬支持

Python?多進(jìn)程、協(xié)程異步抓取英雄聯(lián)盟皮膚并保存在本地

傳統(tǒng)數(shù)據(jù)抓取 VS 高性能數(shù)據(jù)抓取

頁面分析

單線程方案

多進(jìn)程的抓取方案

異步協(xié)程的抓取方案

Python?多進(jìn)程、協(xié)程異步抓取英雄聯(lián)盟皮膚并保存在本地