ViT

我要報(bào)錯(cuò)
  • 基于深度學(xué)習(xí)的移動(dòng)端水果識(shí)別

    超市水果識(shí)別主要依賴人工,計(jì)算機(jī)視覺成為一種解決方案。然而目前仍面臨部分水果識(shí)別精度低、終端設(shè)備部署困難、誤識(shí)別圖片難處理等挑戰(zhàn)。因此,文章基于深度學(xué)習(xí)對移動(dòng)端水果識(shí)別進(jìn)行研究,旨在替代人工識(shí)別。首先文章構(gòu)建了包含49種水果的超市水果圖像數(shù)據(jù)集DailyFruit-49。并針對細(xì)分類特征相似度高、包裝遮擋、形狀小量少的水果識(shí)別困難,以及低算力設(shè)備模型部署問題,篩選了滿足部署要求的骨干模型。設(shè)計(jì)了新的注意力模塊RMA,改進(jìn)了ViT Block以增強(qiáng)模型的細(xì)節(jié)識(shí)別能力和深層語義特征整合能力,最終得到DenseRMA_ViT模型,并基于Focal Loss改進(jìn)損失函數(shù)。并在公開數(shù)據(jù)集Fruits-262上進(jìn)行消融實(shí)驗(yàn)驗(yàn)證模型改進(jìn)的有效性。最后結(jié)合實(shí)際設(shè)備,實(shí)現(xiàn)水果識(shí)別系統(tǒng),滿足實(shí)際使用?;谂c用戶的交互行為對誤識(shí)別水果圖像進(jìn)行收集,并基于誤識(shí)別圖像實(shí)現(xiàn)模型權(quán)重自動(dòng)微調(diào),隨使用時(shí)間延長,系統(tǒng)收集更多圖片,提升模型識(shí)別精度與泛化能力,以處理實(shí)際應(yīng)用中誤識(shí)別水果。