阿里二面:redis分布式鎖過期了但業(yè)務(wù)還沒有執(zhí)行完,怎么辦
面試官:你們系統(tǒng)是怎么實(shí)現(xiàn)分布式鎖的?
我:我們使用了redis的分布式鎖。具體做法是后端接收到請求后加入一個(gè)分布式鎖,如果加鎖成功,就執(zhí)行業(yè)務(wù),如果加鎖失敗就等待鎖或者拒絕請求。業(yè)務(wù)執(zhí)行完成后釋放鎖。面試官:能說一下具體使用的命令嗎?我:我們使用的是SETNX命令,具體如下:
SETNX?KEY_NAME?VALUE
設(shè)置成功返回1,設(shè)置失敗返回0。如下圖,客戶端1加鎖成功,客戶端2獲取鎖失敗:面試官:這樣設(shè)置會不會有問題呢?如果加鎖成功的客戶端掛了怎么辦?我:比如上圖中的客戶端1掛了,這個(gè)鎖就不能釋放了??梢栽O(shè)置一個(gè)過期時(shí)間,命令如下:SET?key?value?[EX?seconds]?[PX?milliseconds]?NX
面試官:設(shè)置了過期時(shí)間,如果業(yè)務(wù)還沒有執(zhí)行完成,但是redis鎖過期了,怎么辦?我:需要對鎖進(jìn)行續(xù)約。面試官:能說一下具體怎么操作嗎?我:設(shè)置鎖成功后,啟動一個(gè)watchdog,每隔一段時(shí)間(比如10s)為當(dāng)前分布式鎖續(xù)約,也就是每隔10s重新設(shè)置當(dāng)前key的超時(shí)時(shí)間。命令如下:EXPIRE??
整個(gè)流程如下:面試官:watchdog怎么實(shí)現(xiàn)呢?我:當(dāng)客戶端加鎖成功后,可以啟動一個(gè)定時(shí)任務(wù),每隔10s(最好支持配置)來檢測業(yè)務(wù)是否處理完成,檢測的依據(jù)就是判斷分布式鎖的key是否還存在,如果存在,就進(jìn)行續(xù)約。面試官:如果當(dāng)前線程已經(jīng)處理完,這個(gè)key是被其他客戶端寫入的呢?我:可以為每個(gè)客戶端指定一個(gè)clientID,在VALUE中增加一個(gè)clientID的前綴,這樣在續(xù)鎖的時(shí)候,可以判斷當(dāng)前分布式鎖的value前綴來確定是不是當(dāng)前客戶端的,如果是再續(xù)鎖,否則不做處理。面試官:你們的續(xù)鎖功能是自己實(shí)現(xiàn)的嗎?我:我們用的redisson的分布式鎖方案,使用redisson獲取分布式鎖非常簡單,代碼如下:RLock?lock?=?redisson.getLock("client-lock");
lock.lock();
try?{
????//處理業(yè)務(wù)
}?catch?(Exception?e)?{
????//處理異常
}?finally?{
????lock.unlock();
}
具體原理是:如果客戶端1加鎖成功,這個(gè)分布式鎖超時(shí)時(shí)間默認(rèn)是30秒(可以通過Config.lockWatchdogTimeout來修改)。加鎖成功后,就會啟動一個(gè)watchdog,watchdog是一個(gè)后臺線程,會每隔10秒檢查一下客戶端1是否還持有鎖key,如果是,就延長鎖key的生存時(shí)間,延長操作就是再次把鎖key的超時(shí)時(shí)間設(shè)置成30s。面試官:redisson里的定時(shí)器怎么實(shí)現(xiàn)的?我:redisson定時(shí)器使用的是netty-common包中的HashedWheelTime來實(shí)現(xiàn)的。面試官:如果client1宕機(jī)了,這時(shí)分布式鎖還可以續(xù)期嗎?我:因?yàn)榉植际芥i的續(xù)期是在客戶端執(zhí)行的,所以如果client1宕機(jī)了,續(xù)期線程就不能工作了,也就不能續(xù)期了。這時(shí)應(yīng)該把分布式鎖刪除,讓其他客戶端來獲取。面試官:那如果client1宕機(jī)了,其他客戶端需要等待30s才能有機(jī)會獲取到鎖,有辦法立刻刪除鎖嗎?我:因?yàn)閏lient1宕機(jī)了,只能等到超時(shí)時(shí)間后鎖被自動刪除。如果要立刻刪除,需要增加額外的工作,比如增加哨兵機(jī)制,讓哨兵來維護(hù)所有redis客戶端的列表。哨兵定時(shí)監(jiān)控客戶端是否宕機(jī),如果檢測到宕機(jī),立刻刪除這個(gè)客戶端的鎖。如下圖:這里的哨兵并不是redis的哨兵,而且為了檢測客戶端故障業(yè)務(wù)系統(tǒng)自己做的哨兵。面試官:如果不用redisson,怎么實(shí)現(xiàn)分布式鎖續(xù)鎖呢?比如springboot2.0默認(rèn)使用redis客戶端是Lettuce。我:Lettuce并沒有提供像redisson這樣的watchdog機(jī)制,所以續(xù)鎖需要業(yè)務(wù)系統(tǒng)自己實(shí)現(xiàn)??梢苑譃橐韵聨撞絹韺?shí)現(xiàn):
- 加鎖的命令,我們參照spring包里的分布式鎖代碼,如果鎖存在并且是當(dāng)前客戶端加的鎖,那就續(xù)鎖,如果鎖不存在,則加鎖。代碼如下:
private?static?final?String?OBTAIN_LOCK_SCRIPT?=
????????"local?lockClientId?=?redis.call('GET',?KEYS[1])\n"?
????????????????"if?lockClientId?==?ARGV[1]?then\n"?
????????????????"??redis.call('PEXPIRE',?KEYS[1],?ARGV[2])\n"?
????????????????"??return?true\n"?
????????????????"elseif?not?lockClientId?then\n"?
????????????????"??redis.call('SET',?KEYS[1],?ARGV[1],?'PX',?ARGV[2])\n"?
????????????????"??return?true\n"?
????????????????"end\n"?
????????????????"return?false";
- 把鎖保存在一個(gè)數(shù)據(jù)結(jié)構(gòu)里,比如HashMap,定時(shí)任務(wù)定時(shí)掃描這個(gè)map,對每個(gè)鎖進(jìn)行續(xù)鎖操作。代碼如下:
private?final?Map?locks?=?new?ConcurrentHashMap<>();
- 續(xù)鎖命令
private?static?final?String?RENEW_LOCK_SCRIPT?=
????????????"local?lockClientId?=?redis.call('GET',?KEYS[1])\n"?
????????????????????"if?lockClientId?==?ARGV[1]?then\n"?
????????????????????"??redis.call('PEXPIRE',?KEYS[1],?ARGV[2])\n"?
????????????????????"??return?true\n"?
????????????????????"end\n"?
????????????????????"return?false";
如果鎖是當(dāng)前客戶端加的,那就續(xù)鎖,否則失敗。- 寫一個(gè)定時(shí)任務(wù),定時(shí)執(zhí)行續(xù)鎖代碼:
redisTemplate.execute(renewLockScript,
????????????????????????Collections.singletonList(lockKey),?clientId,
????????????????????????String.valueOf(expireAfter));
面試官:這個(gè)問題就聊到這里,咱們下一個(gè)問題...