適合性 (情報検索)

適合性英語: relevance)とは、情報科学および情報検索において、検索結果の文書または文書群が利用者の必要としていた情報とどれだけ合致しているかを指す用語である。適合度とも。


適合性は、一般に「話題 (topical)」適合性または「アバウトネス (aboutness)」を意味する。すなわち、検索結果の「話題」がクエリまたは必要な情報の「話題」とどれだけ合致するか、である。より広義にはまた、必要とする情報に関して検索結果がどれだけ「良い」かを指すと解釈することもできる。後者の定義は「利用者 (user)」適合性と呼ぶこともあり、「話題」適合性だけでなく、結果の適時性・権威性・新鮮性なども含む。



適合性についての正式な研究は20世紀、後に計量書誌学と呼ばれる分野の研究として始まった。1930年代から1940年代にかけて、S. C. Bradford が主題に対する論文の適合性を表すため "relevant" という語を使った(ブラッドフォードの法則)。1950年代には最初の情報検索システムが生まれ、検索結果に無関係な論文が含まれる点が重大な懸念として指摘されている。1958年、B. C. Vickery は科学情報に関する国際会議での講演で適合性の概念を明確に述べている[1]




ある情報検索システムの検索結果が話題適合している度合いを評価するため、検索結果の適合度を定量化しなければならない。クランフィールド実験の評価では、それぞれの検索結果に「適合レベル (relevance level)」を割り当てる「適合性アセスメント (relevance assessment)」というプロセスを経るのが一般的である。適合レベルは、2値の場合(適合している、または適合していない)や等級付けする場合(レベルを何段階かに分ける)がある。検索結果群に適合レベルを割り当てたら、情報検索の性能評価を行い、検索システムの出力の品質を査定することができる。



C. J. van Rijsbergen が1979年に提唱したクラスタ仮説は、互いに類似している2つの文書は検索において似たような適合性を示すという仮説である。埋め込み類似性空間において、クラスタ仮説は大域的にも局所的にも解釈できる[2]。大域的解釈では、文書間の類似性から導出される潜在的な共通する話題の集合が存在すると仮定する。それらの大域クラスタ群またはその代表群は2つの文書の適合性を関連付けるのに使うことができる(例えば、同じクラスタに属する2つの文書は同じ要求に共に適合するはずである)。このような考え方に基づく手法として以下のものがある。

  • クラスタに基づく情報検索[3][4]
  • クラスタに基づく文書拡張。例えば、潜在意味解析またはその言語モデリング相当物[5]。クラスタが、孤立したものであれ、組み合わせであれ、可能な適合文書の集合を首尾よくモデル化できると保証することは重要である。

Ellen Voorhees が発展させた例がよく知られているが[6]、第二の解釈は文書間の局所的関連性に着目する。局所的解釈は文書の集まりにおいてクラスタの数や大きさをモデル化する必要がなく、複数のスケールでの適合性を考えることが可能である。このような考え方に基づく手法として以下のものがある。

  • 複数クラスタ検索[6][4]
  • 活性化拡散手法[7]と適合性伝播手法[8]
  • 局所的文書拡張[9]
  • スコア規則化[10]





