去匿名化這個問題怎樣用機器學習來解決
標注或者去匿名化區(qū)塊鏈的思路可以讓區(qū)塊鏈分析更好地生態(tài)中已知參與者的行為模式和特征。直覺上我們可以考慮創(chuàng)建一些規(guī)則來分析區(qū)塊鏈生態(tài)系統(tǒng)中的不同成員,例如:
“如果一個地址持有大量比特幣地址并且一次執(zhí)行100個交易,那么這是一個交易所地址……”
雖然很有吸引力,但是基于規(guī)則的方法將很快失效,無法再提供有用的信息。下面列出了部分原因:
1. 預置知識的完整性:基于規(guī)則的分類會假定我們對于如何識別區(qū)塊鏈生態(tài)中的 不同參與者有足夠的知識。這顯然是不正確的假設。
2. 持續(xù)的變化:區(qū)塊鏈解決方案的架構一直都在演變,這對任何嵌入的規(guī)則而言都是挑戰(zhàn)。
3. 特征屬性的數(shù)量:創(chuàng)建一條有兩三個參數(shù)的規(guī)則很簡單,但是試圖創(chuàng)建一條有幾十個甚至上百個參數(shù)的規(guī)則就沒那么簡單了。要識別出像交易所或OTC柜臺這樣的 地址需要大量的特征。
因此我們不能使用預置的規(guī)則,我們需要一種可以從區(qū)塊鏈數(shù)據(jù)集中學習模式的機制來自動推斷出有意義的規(guī)則讓我們可以標注相關的參與方。從概念上來說,這是一個經(jīng)典的機器學習問題。
從機器學習的觀點,我們應該從兩個主要途徑來考慮應對去匿名化的挑戰(zhàn):
· 無監(jiān)督學習:無監(jiān)督學習聚焦于學習指定數(shù)據(jù)集中存在的模式并識別相關分組。在區(qū)塊鏈數(shù)據(jù)集的上下文中,可以使用無監(jiān)督學習模型基于地址的特征將其匹配到不同的分組中并對這些分組進行標注。
· 監(jiān)督學習:監(jiān)督學習方法可以利用已有的知識來學習指定數(shù)據(jù)集中的新的特性。在區(qū)塊鏈上下文中,可以使用監(jiān)督學習方法基于已有的交易所地址數(shù)據(jù)集訓練一個模型來識別出新的交易所地址。
去匿名化或者給區(qū)塊鏈數(shù)據(jù)集打標簽很少是只用監(jiān)督學習或者只用非監(jiān)督學習,更多的情況下需要兩種方法的結合。機器學習模型可以有效地學習區(qū)塊鏈生態(tài)系統(tǒng)中特定參與者的特征,并利用這些特征來理解其行為。
在使用區(qū)塊鏈ETL工具將區(qū)塊鏈原始數(shù)據(jù)加載到數(shù)據(jù)庫或大數(shù)據(jù)分析平臺后,將標注層引入?yún)^(qū)塊鏈數(shù)據(jù)集是進行更有價值的區(qū)塊鏈數(shù)據(jù)分析的一個關鍵挑戰(zhàn)。
這些標簽提供了更好的上下文環(huán)境,也讓區(qū)塊鏈分析模型具有更好的可解讀性。不過盡管我們有機器學習這樣強大的工具,去匿名性依然是分析理解區(qū)塊鏈生態(tài)系統(tǒng)的道路上一個不可忽視的重大路障。