HOME » 刊行物 » 経済研究

論文要旨

Vol. 73, No. 1, pp. 15-28 (2022)

『OCRを利用した統計表の体系的なテキストデータ化』
有本 寛 (一橋大学経済研究所)

本稿は,OCRを利用して,統計表を体系的かつ大規模にテキストデータ化するための要件と方法を解説する.統計表をOCRでテキストデータ化するには,高い精度の表レイアウト解析が求められる.筆者が開発しているocrstatsは,バッチ処理,定型的な工程の自動化,外部OCRの利用,実用的な精度の表レイアウト解析を実現し,作業効率の改善を図っている.また,ocrstatsを使って『日本帝国統計年鑑』をテキストデータ化する過程で得られたノウハウや,パネルデータの作成にあたって変数を経年的にリンクする方法も解説する.