場景文本檢測器由文本檢測和識別模塊組成。許多研究已經(jīng)將這些模塊統(tǒng)一為一個端到端可訓練的模型,以獲得更好的性能。一個典型的體系結(jié)構(gòu)將檢測和識別模塊放置到單獨的分支中,通常使用RoI pooling來讓這些分支共享一個視覺特征。然而,當采用使用基于注意力的解碼器和表示字符區(qū)域空間信息的檢測器時,仍然有機會在模塊之間建立更互補的連接。這是可能的,因為這兩個模塊共享一個共同的子任務(wù),即查找字符區(qū)域的位置。
在此基礎(chǔ)上,構(gòu)建了一個緊密耦合的單管道模型。該體系結(jié)構(gòu)是通過利用識別器中的檢測輸出并通過檢測階段傳播識別損失而形成的。字符得分圖的使用有助于識別器更好地關(guān)注字符中心點,并且將識別損失傳播到檢測器模塊,增強了字符區(qū)域的定位。此外,一個加強的共享階段允許對任意形狀的文本區(qū)域進行特征校正和邊界定位。大量的實驗證明了在公開可用的水平基準集和彎曲基準數(shù)據(jù)集的最先進的性能。
CRAFTS算法原理:
CRAFTS可以分成3個階段:檢測階段、共享階段和識別階段,詳細的網(wǎng)絡(luò)結(jié)構(gòu)如圖所示。
檢測階段
獲取一個輸入圖像,并定位面向方向的文本框。共享階段,然后匯集backbone的高級特性和檢測器輸出。然后使用校正模塊對合并后的特征進行校正,并連接在一起形成一個角色參與特征。在識別階段,基于注意力的解碼器使用字符參與的特征來預(yù)測文本標簽。最后,一種簡單的后處理技術(shù)可選地用于更好的可視化。
檢測階段
CRAFT檢測器作為基礎(chǔ)網(wǎng)絡(luò),因為它能夠表示特征區(qū)域的語義信息。工藝網(wǎng)絡(luò)的輸出代表了特征區(qū)域的中心概率和它們之間的聯(lián)系。CRAFTS認為這個以字符為中心的信息可以用來支持識別器中的注意模塊,因為這兩個模塊都旨在定位字符的中心位置。在這項工作中,對原始工藝模型進行了三個修改;backbone替換、鏈路表示和方向估計。
共享階段
該階段主要包含二大模塊,文本糾正模塊和字符區(qū)域注意力(text region attention, CRA)模塊,使用 薄板樣條(TPS)變換去糾正任意形狀的文本區(qū)域,文本糾正模塊使用 迭代-TPS,以獲得更好的文本區(qū)域表示。
典型的TPS模塊輸入一張單詞圖片,但在這里提供字符區(qū)域映射和鏈接映射,因為它們包含了文本區(qū)域的幾何信息,使用二十個控制點來緊緊覆蓋彎曲的文本區(qū)域,將這些控制點作為檢測結(jié)果,轉(zhuǎn)換為原始輸入圖像坐標??梢赃x擇執(zhí)行二維多項式擬合來平滑邊界多邊形,迭代-TPS和最終平滑多邊形輸出的例子如圖4所示。
CRA模塊是緊密耦合檢測和識別模塊的關(guān)鍵部件,過簡單地將修正后的字符得分映射與特征表示連接起來,該模型建立了以下優(yōu)勢。在檢測器和識別器之間創(chuàng)建一個鏈接,允許識別損失在檢測階段傳播,這提高了字符得分地圖的質(zhì)量。此外,將字符區(qū)域映射附加到特征上,有助于識別器更好地關(guān)注字符區(qū)域。
識別階段
識別階段有三個組成部分:特征提取、序列建模和預(yù)測。特征提取模塊比單獨的識別器更輕,因為它以高層語義特征作為輸入。 該模塊的詳細體系結(jié)構(gòu)如表1所示。提取特征后,采用雙向LSTM進行序列建模,并對基于注意的解碼器進行最終的文本預(yù)測。
在每個時間步驟中,基于注意力的識別器通過屏蔽注意力輸出到特征來解碼文本信息。雖然注意模塊在大多數(shù)情況下都能很好地工作,但當注意點不對齊或消失時,它無法預(yù)測字符。圖5展示了使用CRA模塊的效果,合適的注意點能夠穩(wěn)健的進行文本預(yù)測。
實驗結(jié)果:
實驗采用如下幾種數(shù)據(jù)集作為實驗數(shù)據(jù)集:
英語數(shù)據(jù)集IC13數(shù)據(jù)集由高分辨率圖像組成,229個用于訓練和233個用于測試。矩形框用于注釋單詞級文本實例。
IC15由1000張訓練圖像和500張測試圖像組成。四邊形框用于注釋單詞級文本實例。
Total-Text擁有1255張培訓圖片和300張測試圖片。與IC13和IC15數(shù)據(jù)集不同,它包含曲線文本實例,并使用多邊形點進行注釋。
多語言數(shù)據(jù)集IC19數(shù)據(jù)集包含10000個訓練和10000個測試圖像。該數(shù)據(jù)集包含7種不同語言的文本,并使用四邊形點進行注釋。
在水平數(shù)據(jù)集(IC13, IC15)上取得的實驗結(jié)果如下表:
水平數(shù)據(jù)集(IC13、IC15)為了針對IC13基準,采用在SynthText數(shù)據(jù)集上訓練的模型,并對IC13和IC19數(shù)據(jù)集進行微調(diào)。在推斷過程中,我們將輸入的長邊調(diào)整為1280。結(jié)果表明,與之前最先進的作品相比,其性能沒有顯著提高。
然后,在IC13數(shù)據(jù)集上訓練的模型在IC15數(shù)據(jù)集上進行微調(diào)。在評估過程中,模型的輸入大小設(shè)置為2560×1440。請注意,在沒有通用詞匯集的情況下執(zhí)行通用評估。表2列出了IC13和IC15數(shù)據(jù)集的定量結(jié)果。
CRAFTS的方法在一般任務(wù)和弱上下文化端到端任務(wù)中都優(yōu)于以前的方法,并在其他任務(wù)中顯示出類似的結(jié)果。通用性能是有意義的,因為在實際場景中沒有提供詞匯集。請注意,CRAFTS在IC15數(shù)據(jù)集上的檢測分數(shù)略低,在強語境化結(jié)果中也觀察到低性能。檢測性能相對較低的主要原因是粒度差異,稍后將進一步討論。
在曲邊數(shù)據(jù)集(TotalText)上取得的實驗結(jié)果如下表:
曲線數(shù)據(jù)集(TotalText)從IC13數(shù)據(jù)集上訓練的模型,實驗進一步在TotalText數(shù)據(jù)集上訓練模型。在推斷過程中,CRAFTS將輸入的長邊調(diào)整為1920,整流模塊的控制點用于檢測器評估。定性結(jié)果如圖7所示。字符區(qū)域圖和鏈接圖用熱圖表示,加權(quán)像素角度值在HSV顏色空間中可視化。如圖所示,該網(wǎng)絡(luò)成功地定位了多邊形區(qū)域,并識別了曲線文本區(qū)域中的字符。左上角的兩幅圖顯示了完全旋轉(zhuǎn)和高度彎曲文本實例的成功識別。
TotalText數(shù)據(jù)集的定量結(jié)果如表3所示。DetEval評估探測器的性能,修改的IC15評估方案測量端到端性能。CRAFTS的方法大大優(yōu)于以前報道的方法。
在多語言數(shù)據(jù)集數(shù)據(jù)集(IC19)上取得的實驗結(jié)果如下表
多語言數(shù)據(jù)集(IC19)使用IC19-MLT數(shù)據(jù)集對多種語言進行評估。識別器預(yù)測層的輸出通道擴展到4267,以處理阿拉伯語、拉丁語、中文、日語、韓語、孟加拉國語和印地語中的字符。但是,數(shù)據(jù)集中出現(xiàn)的字符并不是均勻分布的。在訓練集中的4267個字符中,1017個字符在數(shù)據(jù)集中出現(xiàn)一次,這使得模型很難做出準確的標簽預(yù)測。為了解決類別不平衡問題,CRAFTS首先在檢測階段凍結(jié)權(quán)重,并使用其他公開的多語言數(shù)據(jù)集(SynthMLT、ArT、LSVT、ReCTS和RCTW)在識別器中預(yù)訓練權(quán)重。然后,CRAFTS讓損失流經(jīng)整個網(wǎng)絡(luò),并使用IC19數(shù)據(jù)集對模型進行調(diào)整。由于沒有論文報告性能,結(jié)果與E2E-MLT進行比較。IC19數(shù)據(jù)集中的樣本如圖8所示。
結(jié)論:
CRAFTS中提出了一個端到端可訓練的單pipeline模型,它緊密地耦合了檢測和識別模塊,共享階段的字符區(qū)域注意充分利用字符區(qū)域映射,幫助識別器糾正和更好地關(guān)注文本區(qū)域。同時,設(shè)計了識別損耗通過檢測階段傳播,提高了檢測器的字符定位能力。此外,在共享階段的糾正模塊使彎曲文本的精細定位,并避免了手工設(shè)計后處理的需要。 實驗結(jié)果驗證了CRAFTS在各種數(shù)據(jù)集上的最新性能。
參考文獻:
- Liu C Y, Chen X X, Luo C J, Jin L W, Xue Y and Liu Y L. 2021. Deep learning methods for scene text detection and recognition. Journal of Image and Graphics,26(06):1330-1367(劉崇宇,陳曉雪,羅燦杰,金連文,薛洋,劉禹良. 2021. 自然場景文本檢測與識別的深度學習方法. 中國圖象圖形學報,26(06):1330-1367)[DOI:10. 11834 / jig. 210044]
- Liu X B, Liang D, Yan S, Chen D G, Qiao Y and Yan J J. 2018c.
- FOTS: fast oriented text spotting with a unified network //Proceedings of 2018 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, USA: IEEE: 5676-5685 [DOI: 10. 1109 / CVPR. 2018. 00595]
- Liu Y L, Chen H, Shen C H, He T, Jin L W and Wang L W. 2020. ABCNet: real-time scene text spotting with adaptive bezier-curve network / / Proceedings of 2020 IEEE/ CVF Conference on Computer Vision and Pattern Recognition. Seattle, USA: IEEE: 9809-9818 [DOI: 10. 1109 / CVPR42600. 2020. 00983]
- Baek Y, Shin S, Baek J, Park S, Lee J, Nam D and Lee H. 2020. Character region attention for text spotting / / Proceeding of the 16th European Conference on Computer Vision. Glasgow, UK: Springer: 504-521 [DOI: 10. 1007 / 978-3-030-58526-6_30]