神奇GIF動畫讓你秒懂各種深度學習卷積神經(jīng)網(wǎng)絡(luò)操作原理
嚴格來說不是在講Python而是講在Python下使用OpenCV。本篇將介紹和深度學習數(shù)據(jù)處理階段最相關(guān)的基礎(chǔ)使用,并完成4個有趣實用的小例子:
- 延時攝影小程序
- 視頻中截屏采樣的小程序
- 圖片數(shù)據(jù)增加(data augmentaTIon)的小工具
- 物體檢測框標注小工具
OpenCV是計算機視覺領(lǐng)域應(yīng)用最廣泛的開源工具包,基于C/C++,支持Linux/Windows/MacOS/Android/iOS,并提供了Python,Matlab和Java等語言的接口,因為其豐富的接口,優(yōu)秀的性能和商業(yè)友好的使用許可,不管是學術(shù)界還是業(yè)界中都非常受歡迎。OpenCV最早源于Intel公司1998年的一個研究項目,當時在Intel從事計算機視覺的工程師蓋瑞·布拉德斯基(Gary Bradski)訪問一些大學和研究組時發(fā)現(xiàn)學生之間實現(xiàn)計算機視覺算法用的都是各自實驗室里的內(nèi)部代碼或者庫,這樣新來實驗室的學生就能基于前人寫的基本函數(shù)快速上手進行研究。于是OpenCV旨在提供一個用于計算機視覺的科研和商業(yè)應(yīng)用的高性能通用庫。 第一個alpha版本的OpenCV于2000年的CVPR上發(fā)布,在接下來的5年里,又陸續(xù)發(fā)布了5個beta版本,2006年發(fā)布了第一個正式版。2009年隨著蓋瑞加入了Willow Garage,OpenCV從Willow Garage得到了積極的支持,并發(fā)布了1.1版。2010年OpenCV發(fā)布了2.0版本,添加了非常完備的C++接口,從2.0開始的版本非常用戶非常龐大,至今仍在維護和更新。2015年OpenCV 3正式發(fā)布,除了架構(gòu)的調(diào)整,還加入了更多算法,更多性能的優(yōu)化和更加簡潔的API,另外也加強了對GPU的支持,現(xiàn)在已經(jīng)在許多研究機構(gòu)和商業(yè)公司中應(yīng)用開來。
6.1.1 OpenCV的結(jié)構(gòu)
和Python一樣,當前的OpenCV也有兩個大版本,OpenCV2和OpenCV3。相比OpenCV2,OpenCV3提供了更強的功能和更多方便的特性。不過考慮到和深度學習框架的兼容性,以及上手安裝的難度,這部分先以2為主進行介紹。
根據(jù)功能和需求的不同,OpenCV中的函數(shù)接口大體可以分為如下部分:
- core:核心模塊,主要包含了OpenCV中最基本的結(jié)構(gòu)(矩陣,點線和形狀等),以及相關(guān)的基礎(chǔ)運算/操作。
- imgproc:圖像處理模塊,包含和圖像相關(guān)的基礎(chǔ)功能(濾波,梯度,改變大小等),以及一些衍生的高級功能(圖像分割,直方圖,形態(tài)分析和邊緣/直線提取等)。
- highgui:提供了用戶界面和文件讀取的基本函數(shù),比如圖像顯示窗口的生成和控制,圖像/視頻文件的IO等。
如果不考慮視頻應(yīng)用,以上三個就是最核心和常用的模塊了。針對視頻和一些特別的視覺應(yīng)用,OpenCV也提供了強勁的支持:
- video:用于視頻分析的常用功能,比如光流法(OpTIcal Flow)和目標跟蹤等。
- calib3d:三維重建,立體視覺和相機標定等的相關(guān)功能。
- features2d:二維特征相關(guān)的功能,主要是一些不受專利保護的,商業(yè)友好的特征點檢測和匹配等功能,比如ORB特征。
- object:目標檢測模塊,包含級聯(lián)分類和Latent SVM
- ml:機器學習算法模塊,包含一些視覺中最常用的傳統(tǒng)機器學習算法。
- flann:最近鄰算法庫,F(xiàn)ast Library for Approximate Nearest Neighbors,用于在多維空間進行聚類和檢索,經(jīng)常和關(guān)鍵點匹配搭配使用。
- gpu:包含了一些gpu加速的接口,底層的加速是CUDA實現(xiàn)。
- photo:計算攝像學(ComputaTIonal Photography)相關(guān)的接口,當然這只是個名字,其實只有圖像修復和降噪而已。
- sTItching:圖像拼接模塊,有了它可以自己生成全景照片。
- nonfree:受到專利保護的一些算法,其實就是SIFT和SURF。
- contrib:一些實驗性質(zhì)的算法,考慮在未來版本中加入的。
- legacy:字面是遺產(chǎn),意思就是廢棄的一些接口,保留是考慮到向下兼容。
- ocl:利用OpenCL并行加速的一些接口。
- superres:超分辨率模塊,其實就是BTV-L1(Biliteral Total Variation – L1 regularization)算法
- viz:基礎(chǔ)的3D渲染模塊,其實底層就是著名的3D工具包VTK(Visualization Toolkit)。
從使用的角度來看,和OpenCV2相比,OpenCV3的主要變化是更多的功能和更細化的模塊劃分。
6.1.2 安裝和使用OpenCV
作為最流行的視覺包,在Linux中安裝OpenCV是非常方便的,大多數(shù)Linux的發(fā)行版都支持包管理器的安裝,比如在Ubuntu 16.04 LTS中,只需要在終端中輸入:
>> sudo apt install libopencv-dev python-opencv
當然也可以通過官網(wǎng)下載源碼編譯安裝,第一步先安裝各種依賴:
>> sudo apt install build-essential
>> sudo apt install cmake git libgtk2.0-dev pkg-config libavcodec-dev libavformat-dev libswscale-dev
>> sudo apt-get install python-dev python-numpy libtbb2 libtbb-dev libjpeg-dev libpng-dev libtiff-dev libjasper-dev libdc1394-22-dev
然后找一個clone壓縮包的文件夾,把源碼拿下來:
>> git clone opencv/opencv
然后進入OpenCV文件夾:
>> mkdir release
>> cd release
>> cmake -D CMAKE_BUILD_TYPE=RELEASE -D CMAKE_INSTALL_PREFIX=/usr/local
準備完畢,直接make并安裝:
>> make
>> sudo make install
Windows下的安裝也很簡單,直接去OpenCV官網(wǎng)下載:
DOWNLOADS | OpenCV
執(zhí)行exe安裝后,會在<安裝目錄>/build/python/2.7下發(fā)現(xiàn)一個叫cv2.pyd的文件,把這個文件拷貝到Libsite-packages下,就可以了。Windows下如果只想在Python中體驗OpenCV還有個更簡單的方法是加州大學爾灣分校(University of California, Irvine)的Christoph Gohlke制作的Windows下的Python科學計算包網(wǎng)頁,下載對應(yīng)版本的wheel文件,然后通過pip安裝:
~gohlke/pythonlibs/#opencv
本書只講Python下OpenCV基本使用,Python中導入OpenCV非常簡單:
import cv2
就導入成功了。