7. 重複への対処

識別子レコード間の重複は新しい問題ではなく、多くのアプリケーション(例えば書誌、医療記録)で一般的なものです。PIDINSTの識別子は世界的に永続的であると考えられていますが、機関が他の機関に装置を貸与したり、特殊な施設(大規模シンクロトロン、医学研究所、計算施設など)へのアクセスを提供する場合には、特に重複が発生する可能性があることが認められている。このような重複は、装置資産に関する不正確な統計や報告につながる可能性があります。

装置の所有者は、第一に重複を回避するワークフローと手続きを採用するよう努めることが推奨されます。これが不可能な場合、重複するレコードとのリンクを確保しつつ、これらを効果的に一つの代表レコードに統合することで、重複を排除することが推奨されます。この操作は Snippet 7.1 and 7.2 に示されるように、PIDINST メタデータスキーマの relatedIdentifier プロパティの relationType 属性に IsIdenticalTo を指定することで実現できます。

Snippet 7.1 重複する装置PIDレコードを統合するXMLの例

  <relatedIdentifiers>
     <relatedIdentifier relatedIdentifierType="DOI" relationType="IsIdenticalTo">10.4232/10.CPoS-2013-02en</relatedIdentifier>
  </relatedIdentifiers>

Snippet 7.2 重複する装置PIDレコードを統合するJSONの例

[{
  "RelatedIdentifier":{
    "RelatedIdentifierValue":"10.4232/10.CPoS-2013-02en",
    "RelatedIdentifierType": "DOI",
    "relationType":"IsIdenticalTo"
  }
}]

最近の技術の進歩は、重複排除を自動的に検出し解決するアルゴリズムにも広がっています。このような方法論は Google Scholar や OpenAIRE Graph のような大規模コレクションでの検出効率を向上させることが知られていますが、例えば異なるセマンティックスを用いた、様々な異種の表現によってアルゴリズムが制限されることがあります。自動検出が推奨される一方で、PIDINSTスキーマはプロパティ値に関する学際的なベストプラクティスを補完するように設計されており、多くのプロパティでソフトタイピングが可能で、フリーテキストやドメイン固有の標準など、ユーザーが選択した値を使用することができます。