2012 年 58 巻 2 号 p. 97-109
ウェブの規模が増大するにつれ,検索エンジンからアクセスできない状態,すなわち深層ウェブも増大していることへの関心が高まっている。マッカウンら(2006)とハーゲドーンとサンテッリ(2008)は,深層ウェブの規模をOAI-PMHを用いて収集した機関リポジトリに収録された文献のメタデータを用いて計測した。本研究では,2009年9月に,先行研究の手法を応用し,日本の機関リポジトリから収集した全文PDFファイルのURLを用いて,より大規模に深層ウェブの比率を計測した。その結果,Google, Yahoo!, Bingの3つの検索エンジンから検索できるウェブは72.0%に過ぎず,28.0%が深層ウェブとなっていることが分かった。1つの検索エンジンでは,最高でもGoogleの53.2%であった。また,PDFファイルとURLの特徴の調査から,動的なURLや長いURLが深層ウェブとなる要因であることが分かった。