電子書是校對者的噩夢,每當(dāng)需要將PDF文件轉(zhuǎn)化為epub格式時,那些原本完美顯示的頁面就會出現(xiàn)一系列令人困惑的排版和格式錯誤。對于出版商和內(nèi)容供應(yīng)商來說,在電子書如此暢銷的今天,能夠使PDF文件準(zhǔn)確無誤地轉(zhuǎn)化為epub格式,從而存入電子書閱讀器已經(jīng)成為亟須關(guān)注、亟待解決的問題。
“有人認(rèn)為轉(zhuǎn)換PDF格式就像從word文檔里復(fù)制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書。”印度金奈紐貞知識機(jī)構(gòu)的首席執(zhí)行官大衛(wèi)·拉杰說。然而,遺憾的是,“PDF文件并不是按照單詞、空格、段落和圖像的邏輯流程來編寫的,也就是說,沒有內(nèi)在信息可以顯示PDF文本的結(jié)構(gòu)與順序。”
最嚴(yán)重且最常出現(xiàn)在電子書中的錯誤是單詞間、標(biāo)點(diǎn)符號丟失或多余的空格。因?yàn)镻DF文件并沒有把每一個單詞視作被空格分開的獨(dú)立單元,轉(zhuǎn)換程序通常需要猜測空格從哪里產(chǎn)生。如果猜測錯誤,就會出現(xiàn)一個單詞被分為兩個部分或者兩個單詞連在一起的情況。
另一個問題存在于連字符中。只要轉(zhuǎn)換軟件需要判定連字符是非強(qiáng)制性的(在文本行末尾,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強(qiáng)制性的(比如像“e-books”這樣必須使用連字符的單詞),那么就可能出現(xiàn)判定錯誤的情況。
同樣的問題還存在于判定文本格式上:粗體、斜體、下劃線、下標(biāo)、上標(biāo);字體的選擇上:有襯線字體、無襯線字體、傳統(tǒng)字體、現(xiàn)代字體等。在制作PDF文件中字間距、行間距的設(shè)置,反白字的使用都會影響轉(zhuǎn)換結(jié)果的準(zhǔn)確性。
如果作者沒有使用統(tǒng)一編碼標(biāo)準(zhǔn)的字符,那么這些特殊字符比如非拉丁語字母就成了轉(zhuǎn)換軟件面臨的又一個困難。對于這些特殊符號而言,建立字符轉(zhuǎn)換庫是有用的,但是把所有可能出現(xiàn)的字符集結(jié)成庫并不現(xiàn)實(shí),所以大多數(shù)轉(zhuǎn)換軟件在遇到特殊字符時會以亂碼的形式呈現(xiàn)。
此外PDF文件還不能識別多列文本。轉(zhuǎn)換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內(nèi)容,因此,識別與分列就會導(dǎo)致不同的列線混亂,從而產(chǎn)生完全錯誤的顯示。
與此相似的是,PDF文件沒有強(qiáng)制性分隔段落的概念,這就增加了正文內(nèi)容混亂或幾個段落連在一起的可能性。另一種情況是,轉(zhuǎn)換后段落中的每一行都成為獨(dú)立的一段,或者是轉(zhuǎn)換程序會將頁面中的頁眉、頁腳作為正文中的內(nèi)容進(jìn)行轉(zhuǎn)換。
轉(zhuǎn)換程序最大的挑戰(zhàn)在于如何破解表格、數(shù)學(xué)方程式以及圖表。將這些元素識別為獨(dú)立的單元并與正文分開成為許多轉(zhuǎn)換軟件不能完成的任務(wù)。
在紐貞知識機(jī)構(gòu),有一種使用自然語言處理和文本識別工具的程序,這種程序用來分析PDF文件文本結(jié)構(gòu),使用這種程序可以改正PDF文件轉(zhuǎn)換為epub格式過程中通常出現(xiàn)的錯誤。如今這種產(chǎn)品已經(jīng)出現(xiàn)——在紐約舉辦的2012TOC數(shù)字出版大會上,可以將PDF文件高質(zhì)量轉(zhuǎn)換為epub2或3的產(chǎn)品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場。
據(jù)介紹,使用“絲綢”的轉(zhuǎn)換規(guī)則系統(tǒng)可以得到高質(zhì)量的結(jié)果,同時最大限度保持PDF文件原文的風(fēng)貌。“絲綢”會運(yùn)行拼寫檢查工具找出連在一起或被分解的單詞,并使用內(nèi)在連續(xù)性檢查工具區(qū)分字符。不到一分鐘的時間,“絲綢”就可以對一本標(biāo)準(zhǔn)的300頁圖書完成以上所有工作。接下來,“絲綢”會引導(dǎo)用戶查看它標(biāo)記的每一處可能出現(xiàn)的錯誤,并將原始的PDF文件與轉(zhuǎn)化后的電子書進(jìn)行并排式對比。拉杰同時補(bǔ)充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項(xiàng)可以快速有效地將PDF文件中出現(xiàn)的自定義或其他復(fù)雜的變化轉(zhuǎn)換為epub/HTML文件。”
目前,“絲綢”正在進(jìn)行內(nèi)部測試,拉杰證實(shí)這種軟件運(yùn)營服務(wù)模式很快會與廣大客戶見面。在更為復(fù)雜的PDF文件與電子書版面設(shè)計問世之前,我們無疑需要更先進(jìn)的解決方法,將零錯誤的電子書和用戶對電子書質(zhì)量的高滿意度作為奮斗目標(biāo),將驅(qū)使轉(zhuǎn)換工具研發(fā)朝著更快、更可靠、更自動化的方向發(fā)展。