當前位置:首頁 > 芯聞號 > 充電吧
[導讀]電子書是校對者的噩夢,每當需要將PDF文件轉化為epub格式時,那些原本完美顯示的頁面就會出現(xiàn)一系列令人困惑的排版和格式錯誤。對于出版商和內容供應商來說,在電子書如此暢銷的今天,能夠使PDF文件準確無誤地轉化為

電子書是校對者的噩夢,每當需要將PDF文件轉化為epub格式時,那些原本完美顯示的頁面就會出現(xiàn)一系列令人困惑的排版和格式錯誤。對于出版商和內容供應商來說,在電子書如此暢銷的今天,能夠使PDF文件準確無誤地轉化為epub格式,從而存入電子書閱讀器已經(jīng)成為亟須關注、亟待解決的問題。

“有人認為轉換PDF格式就像從word文檔里復制文本一樣簡單:只需要選取那些已編好格式的文本并保存就能制作一本電子書。”印度金奈紐貞知識機構的首席執(zhí)行官大衛(wèi)·拉杰說。然而,遺憾的是,“PDF文件并不是按照單詞、空格、段落和圖像的邏輯流程來編寫的,也就是說,沒有內在信息可以顯示PDF文本的結構與順序。”

最嚴重且最常出現(xiàn)在電子書中的錯誤是單詞間、標點符號丟失或多余的空格。因為PDF文件并沒有把每一個單詞視作被空格分開的獨立單元,轉換程序通常需要猜測空格從哪里產(chǎn)生。如果猜測錯誤,就會出現(xiàn)一個單詞被分為兩個部分或者兩個單詞連在一起的情況。

另一個問題存在于連字符中。只要轉換軟件需要判定連字符是非強制性的(在文本行末尾,由于該單詞過長,輸入連字符使頁面保持整齊美觀)或強制性的(比如像“e-books”這樣必須使用連字符的單詞),那么就可能出現(xiàn)判定錯誤的情況。

同樣的問題還存在于判定文本格式上:粗體、斜體、下劃線、下標、上標;字體的選擇上:有襯線字體、無襯線字體、傳統(tǒng)字體、現(xiàn)代字體等。在制作PDF文件中字間距、行間距的設置,反白字的使用都會影響轉換結果的準確性。

如果作者沒有使用統(tǒng)一編碼標準的字符,那么這些特殊字符比如非拉丁語字母就成了轉換軟件面臨的又一個困難。對于這些特殊符號而言,建立字符轉換庫是有用的,但是把所有可能出現(xiàn)的字符集結成庫并不現(xiàn)實,所以大多數(shù)轉換軟件在遇到特殊字符時會以亂碼的形式呈現(xiàn)。

此外PDF文件還不能識別多列文本。轉換軟件會讀取整個頁面而不是按順序從上到下依次讀取每一列的內容,因此,識別與分列就會導致不同的列線混亂,從而產(chǎn)生完全錯誤的顯示。

與此相似的是,PDF文件沒有強制性分隔段落的概念,這就增加了正文內容混亂或幾個段落連在一起的可能性。另一種情況是,轉換后段落中的每一行都成為獨立的一段,或者是轉換程序會將頁面中的頁眉、頁腳作為正文中的內容進行轉換。

轉換程序最大的挑戰(zhàn)在于如何破解表格、數(shù)學方程式以及圖表。將這些元素識別為獨立的單元并與正文分開成為許多轉換軟件不能完成的任務。

在紐貞知識機構,有一種使用自然語言處理和文本識別工具的程序,這種程序用來分析PDF文件文本結構,使用這種程序可以改正PDF文件轉換為epub格式過程中通常出現(xiàn)的錯誤。如今這種產(chǎn)品已經(jīng)出現(xiàn)——在紐約舉辦的2012TOC數(shù)字出版大會上,可以將PDF文件高質量轉換為epub2或3的產(chǎn)品“絲綢”(意為像絲綢一樣流暢光滑)閃亮登場。

據(jù)介紹,使用“絲綢”的轉換規(guī)則系統(tǒng)可以得到高質量的結果,同時最大限度保持PDF文件原文的風貌。“絲綢”會運行拼寫檢查工具找出連在一起或被分解的單詞,并使用內在連續(xù)性檢查工具區(qū)分字符。不到一分鐘的時間,“絲綢”就可以對一本標準的300頁圖書完成以上所有工作。接下來,“絲綢”會引導用戶查看它標記的每一處可能出現(xiàn)的錯誤,并將原始的PDF文件與轉化后的電子書進行并排式對比。拉杰同時補充說:“‘絲綢’直觀的界面意味著用戶不需要精通HTML編輯也可以熟練地控制與使用這些功能。腳本處理選項可以快速有效地將PDF文件中出現(xiàn)的自定義或其他復雜的變化轉換為epub/HTML文件。”

目前,“絲綢”正在進行內部測試,拉杰證實這種軟件運營服務模式很快會與廣大客戶見面。在更為復雜的PDF文件與電子書版面設計問世之前,我們無疑需要更先進的解決方法,將零錯誤的電子書和用戶對電子書質量的高滿意度作為奮斗目標,將驅使轉換工具研發(fā)朝著更快、更可靠、更自動化的方向發(fā)展。

本站聲明: 本文章由作者或相關機構授權發(fā)布,目的在于傳遞更多信息,并不代表本站贊同其觀點,本站亦不保證或承諾內容真實性等。需要轉載請聯(lián)系該專欄作者,如若文章內容侵犯您的權益,請及時聯(lián)系本站刪除。
換一批
延伸閱讀

9月2日消息,不造車的華為或將催生出更大的獨角獸公司,隨著阿維塔和賽力斯的入局,華為引望愈發(fā)顯得引人矚目。

關鍵字: 阿維塔 塞力斯 華為

加利福尼亞州圣克拉拉縣2024年8月30日 /美通社/ -- 數(shù)字化轉型技術解決方案公司Trianz今天宣布,該公司與Amazon Web Services (AWS)簽訂了...

關鍵字: AWS AN BSP 數(shù)字化

倫敦2024年8月29日 /美通社/ -- 英國汽車技術公司SODA.Auto推出其旗艦產(chǎn)品SODA V,這是全球首款涵蓋汽車工程師從創(chuàng)意到認證的所有需求的工具,可用于創(chuàng)建軟件定義汽車。 SODA V工具的開發(fā)耗時1.5...

關鍵字: 汽車 人工智能 智能驅動 BSP

北京2024年8月28日 /美通社/ -- 越來越多用戶希望企業(yè)業(yè)務能7×24不間斷運行,同時企業(yè)卻面臨越來越多業(yè)務中斷的風險,如企業(yè)系統(tǒng)復雜性的增加,頻繁的功能更新和發(fā)布等。如何確保業(yè)務連續(xù)性,提升韌性,成...

關鍵字: 亞馬遜 解密 控制平面 BSP

8月30日消息,據(jù)媒體報道,騰訊和網(wǎng)易近期正在縮減他們對日本游戲市場的投資。

關鍵字: 騰訊 編碼器 CPU

8月28日消息,今天上午,2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會開幕式在貴陽舉行,華為董事、質量流程IT總裁陶景文發(fā)表了演講。

關鍵字: 華為 12nm EDA 半導體

8月28日消息,在2024中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會上,華為常務董事、華為云CEO張平安發(fā)表演講稱,數(shù)字世界的話語權最終是由生態(tài)的繁榮決定的。

關鍵字: 華為 12nm 手機 衛(wèi)星通信

要點: 有效應對環(huán)境變化,經(jīng)營業(yè)績穩(wěn)中有升 落實提質增效舉措,毛利潤率延續(xù)升勢 戰(zhàn)略布局成效顯著,戰(zhàn)新業(yè)務引領增長 以科技創(chuàng)新為引領,提升企業(yè)核心競爭力 堅持高質量發(fā)展策略,塑強核心競爭優(yōu)勢...

關鍵字: 通信 BSP 電信運營商 數(shù)字經(jīng)濟

北京2024年8月27日 /美通社/ -- 8月21日,由中央廣播電視總臺與中國電影電視技術學會聯(lián)合牽頭組建的NVI技術創(chuàng)新聯(lián)盟在BIRTV2024超高清全產(chǎn)業(yè)鏈發(fā)展研討會上宣布正式成立。 活動現(xiàn)場 NVI技術創(chuàng)新聯(lián)...

關鍵字: VI 傳輸協(xié)議 音頻 BSP

北京2024年8月27日 /美通社/ -- 在8月23日舉辦的2024年長三角生態(tài)綠色一體化發(fā)展示范區(qū)聯(lián)合招商會上,軟通動力信息技術(集團)股份有限公司(以下簡稱"軟通動力")與長三角投資(上海)有限...

關鍵字: BSP 信息技術
關閉
關閉