[導(dǎo)讀]作者|小白來源?|?小白學(xué)視覺導(dǎo)讀人工智能領(lǐng)域中增長最快的子領(lǐng)域之一是自然語言處理(NLP),它處理計(jì)算機(jī)與人類(自然)語言之間的交互,特別是如何編程計(jì)算機(jī)以處理和理解大量自然語言數(shù)據(jù)。自然語言處理通常涉及語音識別、自然語言理解和自然語言生成等。其中,命名實(shí)體識別(NER)等信息...
作者 | 小白
來源 | 小白學(xué)視覺
導(dǎo)讀
人工智能領(lǐng)域中增長最快的子領(lǐng)域之一是自然語言處理(NLP),它處理計(jì)算機(jī)與人類(自然)語言之間的交互,特別是如何編程計(jì)算機(jī)以處理和理解大量自然語言數(shù)據(jù)。
自然語言處理通常涉及語音識別、自然語言理解和自然語言生成等。其中,命名實(shí)體識別(NER)等信息提取問題正迅速成為NLP的基礎(chǔ)應(yīng)用之一。在這篇文章中,我們將分享一個(gè)解決執(zhí)行NER時(shí)出現(xiàn)的最棘手問題之一的解決方案。
深度學(xué)習(xí)的最新發(fā)展導(dǎo)致了可用于實(shí)體提取和其他NLP相關(guān)任務(wù)的復(fù)雜技術(shù)的迅速發(fā)展。通常,企業(yè)級OCR軟件(ABBY、ADLIB等)用于將大量非結(jié)構(gòu)化和基于圖像的文檔轉(zhuǎn)換為完全可搜索的PDF和PDF/A,人們可以使用最先進(jìn)的算法(BERT、ELMo等)創(chuàng)建高度上下文化的語言模型來推斷提取的信息并實(shí)現(xiàn)NLP目標(biāo)。
但實(shí)際上,并非所有文檔都僅由基于語言的數(shù)據(jù)組成。文檔可以具有許多其他非語言元素,例如單選按鈕、簽名塊或某些其他幾何形狀,這些元素可能包含有用的信息,但無法通過OCR或上述任何算法輕松處理。因此,需要設(shè)計(jì)一個(gè)專門的解決方案來識別和處理這些元素。
操作步驟
步驟1:將文檔(PDF等)轉(zhuǎn)換為圖像文件。編寫一個(gè)基于OpenCV API的啟發(fā)式代碼來提取所有可能的圖像片段,此代碼應(yīng)針對覆蓋率而不是準(zhǔn)確性進(jìn)行優(yōu)化。
步驟2:相應(yīng)地標(biāo)記步驟1中提取的圖像。創(chuàng)建一個(gè)基于CNN的深度學(xué)習(xí)網(wǎng)絡(luò),并根據(jù)標(biāo)記的圖像對其進(jìn)行培訓(xùn),這一步將保證準(zhǔn)確性。
步驟3:創(chuàng)建一個(gè)Sklearn pipeline,集成上述兩個(gè)步驟,以便在接收文檔時(shí),提取所有潛在圖像,然后使用經(jīng)過訓(xùn)練的CNN模型預(yù)測所需形狀的圖像。
設(shè)計(jì)細(xì)節(jié)
需要注意的是,OpenCV代碼盡可能多的識別所需形狀的圖像段。本質(zhì)上,我們需要有一個(gè)寬的檢測范圍,不必?fù)?dān)心誤報(bào),它們將由后續(xù)的ConvNet模型處理。之所以選擇CNN進(jìn)行圖像分類,是因?yàn)樗子诮:涂焖俳?,但只要性能和精度在可接受的范圍?nèi),就可以使用任何其他選擇的算法。Pipelining 在構(gòu)造ML代碼中起著關(guān)鍵作用,它有助于簡化工作流程和強(qiáng)制執(zhí)行步驟的順序。
實(shí)踐操作
第1步:OpenCV
此代碼具有雙重用途:
1)創(chuàng)建訓(xùn)練/測試數(shù)據(jù)
2)在集成到管道中時(shí)提取圖像段
提取代碼目前可以檢測2種類型(單選按鈕和復(fù)選框),但通過在ShapeFinder類下添加新方法,可以輕松支持其他對象,下面是用于識別正方形/矩形(也稱為復(fù)選框)的代碼片段。
#detect checkbox/squaredef extract_quads(self,image_arr,name_arr):
if len(image_arr) > 0:
for index,original_image in enumerate(image_arr):
#to store extracted images extracted_quad = [] image = original_image.copy()
#grayscale only if its not already if len(image.shape) > 2: gray = cv2.cvtColor(image.copy(), cv2.COLOR_BGR2GRAY) else: gray = image.copy()
#image preprocessing for quadrilaterals img_dilate = self.do_quad_imageprocessing(gray,self.blocksize,self.thresh_const,self.kernelsize)
if len(img_dilate) > 0:
try: #detect contours cnts = cv2.findContours(img_dilate.copy(), cv2.RETR_LIST, cv2.CHAIN_APPROX_SIMPLE) cnts = imutils.grab_contours(cnts)
#loop through detected contours for c in cnts: peri = cv2.arcLength(c, True) approx = cv2.approxPolyDP(c, (self.epsilon)* peri, True)
#bounding rec cordinates (x, y, w, h) = cv2.boundingRect(approx)
#get the aspect ratio aspectratio = float(w/h) area = cv2.contourArea(c) if area < self.rec_max_area and area > self.rec_min_area and (aspectratio >= self.aspect_ratio[0] and aspectratio <= self.aspect_ratio[1]):
#check if there are 4 corners in the polygon if len(approx) == 4: cv2.drawContours(original_image,[c], 0, (0,255,0), 2) roi = original_image[y:y h, x:x w] extracted_quad.append(roi)
except Exception as e: print('The following exception occured during quad shape detection: ',e)
self.extracted_img_data.append([original_image,extracted_quad,name_arr[index]])
else: print('No image is found during the extraction process')
使用pdf2image將pdf轉(zhuǎn)換為圖像:
def Img2Pdf(dirname):
images = []
#get the pdf file for x in os.listdir(dirname): if (dirname.split('.')[1]) == 'pdf': pdf_filename = x images_from_path = convert_from_path(os.path.join(dirname),dpi=300, poppler_path = r'C:\Program Files (x86)\poppler-0.68.0_x86\poppler-0.68.0\bin')for image in images_from_path: images.append(np.array(image))
return images
第二步:卷積神經(jīng)網(wǎng)絡(luò)
由于提取的圖像片段將具有相對較小的尺寸,簡單的3層CNN將為我們提供幫助,但我們?nèi)匀恍枰尤胍恍┱齽t化和Adam來優(yōu)化輸出。
網(wǎng)絡(luò)應(yīng)針對每種類型的圖像樣本分別進(jìn)行訓(xùn)練,以獲得更好的精度。如果添加了新的圖像形狀,可以創(chuàng)建一個(gè)新的網(wǎng)絡(luò),但現(xiàn)在我們對復(fù)選框和單選按鈕都使用了相同的網(wǎng)絡(luò)。它目前只是一個(gè)二進(jìn)制分類,但進(jìn)一步的分類也可以這樣做:
#keras thingsfrom keras.utils import to_categoricalfrom keras import layersfrom keras import modelsfrom keras.regularizers import l2
Y_test_orig = to_categorical(Y_test_orig, num_classes=2) Y_train_orig = to_categorical(Y_train_orig, num_classes=2)
# 3 layer ConvNetmodel = models.Sequential()model.add(layers.Conv2D(32, (3, 3), activation='relu',input_shape=(32,32,1)))model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(128, (3, 3), activation='relu'))model.add(layers.MaxPooling2D((2, 2)))
#dense layermodel.add(layers.Flatten())
#add the regulizermodel.add(layers.Dense(128, activation='linear', activity_regularizer=l2(0.0003)))model.add(layers.Dense(128, activation='relu'))model.add(layers.Dense(2, activation='sigmoid'))
model.summary()
from keras.optimizers import Adamopt = Adam(lr=0.001)model.compile(optimizer=opt, loss=keras.losses.categorical_crossentropy, metrics=['accuracy'])
ntrain = len(X_train_orig)nval = len(X_test_orig)X_train_orig = X_train_orig.reshape((len(X_train_orig),32,32,1)) X_test_orig = X_test_orig.reshape((len(X_test_orig),32,32,1))
train_datagen = ImageDataGenerator(rescale = 1./255,rotation_range = 40, width_shift_range = .2, height_shift_range = .2, shear_range = .2, zoom_range = .2, horizontal_flip = True)
val_datagen = ImageDataGenerator(rescale = 1./255)
train_generator = train_datagen.flow(X_train_orig,Y_train_orig,batch_size=32)val_generator = val_datagen.flow(X_test_orig,Y_test_orig,batch_size = 32)
#X_train_orig, X_test_orig, Y_train_orig,Y_test_orighistory = model.fit_generator(train_generator,steps_per_epoch = ntrain/32, epochs = 64, validation_data = val_generator, validation_steps = nval/32 )
第3步中,我們將把所有內(nèi)容整合在一個(gè)Sklearn pipeline中,并通過predict函數(shù)將其公開。我們沒有介紹的一個(gè)重要功能是將復(fù)選框或單選按鈕與文檔中相應(yīng)的文本相關(guān)聯(lián)。在實(shí)際應(yīng)用中,僅僅檢測沒有關(guān)聯(lián)的元素是毫無用處的。
GITHUB代碼鏈接:
https://github.com/nebuchadnezzar26/Shape-Detector
本站聲明: 本文章由作者或相關(guān)機(jī)構(gòu)授權(quán)發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點(diǎn),本站亦不保證或承諾內(nèi)容真實(shí)性等。需要轉(zhuǎn)載請聯(lián)系該專欄作者,如若文章內(nèi)容侵犯您的權(quán)益,請及時(shí)聯(lián)系本站刪除。
9月2日消息,不造車的華為或?qū)⒋呱龈蟮莫?dú)角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。
關(guān)鍵字:
阿維塔
塞力斯
華為
加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉(zhuǎn)型技術(shù)解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...
關(guān)鍵字:
AWS
AN
BSP
數(shù)字化
倫敦2024年8月29日 /美通社/ -- 英國汽車技術(shù)公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認(rèn)證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時(shí)1.5...
關(guān)鍵字:
汽車
人工智能
智能驅(qū)動
BSP
北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務(wù)能7×24不間斷運(yùn)行,同時(shí)企業(yè)卻面臨越來越多業(yè)務(wù)中斷的風(fēng)險(xiǎn),如企業(yè)系統(tǒng)復(fù)雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務(wù)連續(xù)性,提升韌性,成...
關(guān)鍵字:
亞馬遜
解密
控制平面
BSP
8月30日消息,據(jù)媒體報(bào)道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。
關(guān)鍵字:
騰訊
編碼器
CPU
8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質(zhì)量流程IT總裁陶景文發(fā)表了演講。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務(wù)董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權(quán)最終是由生態(tài)的繁榮決定的。
關(guān)鍵字:
華為
12nm
手機(jī)
衛(wèi)星通信
要點(diǎn): 有效應(yīng)對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實(shí)提質(zhì)增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務(wù)引領(lǐng)增長 以科技創(chuàng)新為引領(lǐng),提升企業(yè)核心競爭力 堅(jiān)持高質(zhì)量發(fā)展策略,塑強(qiáng)核心競爭優(yōu)勢...
關(guān)鍵字:
通信
BSP
電信運(yùn)營商
數(shù)字經(jīng)濟(jì)
北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術(shù)學(xué)會聯(lián)合牽頭組建的NVI技術(shù)創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術(shù)創(chuàng)新聯(lián)...
關(guān)鍵字:
VI
傳輸協(xié)議
音頻
BSP
北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(shù)(集團(tuán))股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...
關(guān)鍵字:
BSP
信息技術(shù)
山海路引?嵐悅新程 三亞2024年8月27日 /美通社/ --?近日,海南地區(qū)六家凱悅系酒店與中國高端新能源車企嵐圖汽車(VOYAH)正式達(dá)成戰(zhàn)略合作協(xié)議。這一合作標(biāo)志著兩大品牌在高端出行體驗(yàn)和環(huán)保理念上的深度融合,將...
關(guān)鍵字:
新能源
BSP
PLAYER
ASIA
上海2024年8月28日 /美通社/ -- 8月26日至8月28日,AHN LAN安嵐與股神巴菲特的孫女妮可?巴菲特共同開啟了一場自然和藝術(shù)的療愈之旅。 妮可·巴菲特在療愈之旅活動現(xiàn)場合影 ...
關(guān)鍵字:
MIDDOT
BSP
LAN
SPI
8月29日消息,近日,華為董事、質(zhì)量流程IT總裁陶景文在中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式上表示,中國科技企業(yè)不應(yīng)怕美國對其封鎖。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體
上海2024年8月26日 /美通社/ -- 近日,全球領(lǐng)先的消費(fèi)者研究與零售監(jiān)測公司尼爾森IQ(NielsenIQ)迎來進(jìn)入中國市場四十周年的重要里程碑,正式翻開在華發(fā)展新篇章。自改革開放以來,中國市場不斷展現(xiàn)出前所未有...
關(guān)鍵字:
BSP
NI
SE
TRACE
上海2024年8月26日 /美通社/ -- 第二十二屆跨盈年度B2B營銷高管峰會(CC2025)將于2025年1月15-17日在上海舉辦,本次峰會早鳥票注冊通道開啟,截止時(shí)間10月11日。 了解更多會議信息:cc.co...
關(guān)鍵字:
BSP
COM
AI
INDEX
上海2024年8月26日 /美通社/ -- 今日,高端全合成潤滑油品牌美孚1號攜手品牌體驗(yàn)官周冠宇,開啟全新旅程,助力廣大車主通過駕駛?cè)ヌ剿鞲鼜V闊的世界。在全新發(fā)布的品牌視頻中,周冠宇及不同背景的消費(fèi)者表達(dá)了對駕駛的熱愛...
關(guān)鍵字:
BSP
汽車制造
此次發(fā)布標(biāo)志著Cision首次為亞太市場量身定制全方位的媒體監(jiān)測服務(wù)。 芝加哥2024年8月27日 /美通社/ -- 消費(fèi)者和媒體情報(bào)、互動及傳播解決方案的全球領(lǐng)導(dǎo)者Cis...
關(guān)鍵字:
CIS
IO
SI
BSP
上海2024年8月27日 /美通社/ -- 近來,具有強(qiáng)大學(xué)習(xí)、理解和多模態(tài)處理能力的大模型迅猛發(fā)展,正在給人類的生產(chǎn)、生活帶來革命性的變化。在這一變革浪潮中,物聯(lián)網(wǎng)成為了大模型技術(shù)發(fā)揮作用的重要陣地。 作為全球領(lǐng)先的...
關(guān)鍵字:
模型
移遠(yuǎn)通信
BSP
高通
北京2024年8月27日 /美通社/ -- 高途教育科技公司(紐約證券交易所股票代碼:GOTU)("高途"或"公司"),一家技術(shù)驅(qū)動的在線直播大班培訓(xùn)機(jī)構(gòu),今日發(fā)布截至2024年6月30日第二季度未經(jīng)審計(jì)財(cái)務(wù)報(bào)告。 2...
關(guān)鍵字:
BSP
電話會議
COM
TE
8月26日消息,華為公司最近正式啟動了“華為AI百校計(jì)劃”,向國內(nèi)高校提供基于昇騰云服務(wù)的AI計(jì)算資源。
關(guān)鍵字:
華為
12nm
EDA
半導(dǎo)體