12. 装置 PID をデータセットにリンクする

PIDINST の主な目的の 1 つは、装置の科学的出力の追跡を容易にすることです。この恩恵を受けるためには、データセットとデータを収集するために使用される装置との関係を機械可読な方法で確立することが重要です。

12.1. DataCite メタデータ

データセットは通常 DataCite DOI とともに公開されます。 DataCite メタデータスキーマ は、 relatedIdentifier プロパティを使用して、データ公開のためにその DOI に登録されたメタデータから装置へリンクすることを可能にします。この場合、推奨される relationshipTypeIsCompiledBy です。Figure 12.1 は、HZBによって公開されたデータセットの例を示しています(https://doi.org/10.5442/ND000001) 。データは、BER II で E2 - Flat-Cone 回折計ビームラインを使用した中性子回折を使用して収集されました。この画像は、装置の PID をリンクするデータ公開ランディング ページのスクリーンショットを示します。Snippet 12.1 は、このリンクを含む同じデータ出版物からの DOI メタデータのセクションを示しています。

12.2. schema.org

Figure 12.2 は、PANGAEA を通じて公開されている海洋データセット (https://doi.org/10.1594/PANGAEA.887579) の例を示しています。データセットのメタデータには、データセットとそれに関連するエンティティ (学術論文、プロジェクトなど) に関する説明情報が含まれます。データセットは、航海キャンペーン (MSM29) の一環として展開された自律型水中ビークル (AWI AUV Polar Autonomous Underwater Laboratory) に取り付けられたセンサーを介して収集されました。ビークルは、https://sensor.awi.de/ によって割り当てられた永続的な識別子によって識別されます。装置のランディング ページには、説明、製造元、モデル、連絡先、校正情報などの装置のメタデータが含まれています。Figure 12.3 は、データセットの観測イベント (クルーズ キャンペーンなど) と配備された装置 (AUV) をモデル化するために使用できる schema.org のタイプとプロパティを示しています。Figure 12.4 は、実際の schema.org 表現のスニペットを示しています。外部語彙 (NERC SeaVoX プラットフォーム カテゴリおよび GeoLink スキーマ) は、イベントおよび車両の追加タイプを示すために使用されます。schema.org では、「イベント」は特定の時間と場所での出来事を指します。たとえば、社会的なイベントです。そのため、Schema.org の機能に完全に準拠するために、観測イベントと関連する科学機器の記述をサポートするために、新しい型とプロパティが必要です。

12.3. NetCDF4

最先端の研究船は数百万ポンドの水上実験室であり、24時間体制で高出力、高解像度センサーの多様なアレイを運用しています(例: 海底深度、気象、海流速度、水路測量など)。国立海洋学センター(National Oceanography Centre, NOC)[1] と英国南極観測局(British Antarctic Survey, BAS)[2] は現在、英国のイニシアチブである I/Ocean の一環として、これらのセンサーシステムから英国国立環境研究評議会(UK National Environment Research Council, NERC)の大規模な調査船団全体のエンドユーザーまでのデータ管理ワークフローの整合性を改善するために協力しています。 そうすることで、FAIRness[3] を改善し、これらのセンサーアレイからのデータへのアクセスを改善しながら、船舶の時間を費用対効果の高い方法で使用することができます。ソリューションの初期段階では、共通のメタデータ標準を使用して曖昧さを減らしながら、船内の研究者がデータへの調和のとれたアクセスを可能にする共通のNetCDFフォーマットを船舶全体に実装します。フォーマットはNetCDF4に基づいており、Climate Forecastの規則に準拠しています。NetCDF4グループは、パラメーターストリームの導出に使用される装置に関する豊富な情報を含めるために使用されます。データストリームは、データ検出のための属性規則(Attribute Convention for Data Discovery, ACDD)1-3(Snippet 12.2) の変数属性 instrument を使用して、それらを生成した装置にリンクされます。各装置は、そのプロパティが装置のPIDを含む変数で表現されるグループとして識別されます。各プロパティは、NERC Vocabulary Server で公開されている一般的な用語を使用して定義されます。このようにして、ユーザーは選択したプロパティを表現できます。グループを介して、パラメータストリームまたは装置に関連するその他の情報 (キャリブレーション、装置の参照フレームおよび向きなど) を表現できます。

米国海洋大気庁 (National Oceanic and Atmospheric Administration, NOAA) の国立環境情報センター (National Centres for Environmental Information, NCEI) も CF-NetCDFファイルで装置を報告していますが、サブグループではなくNetCDFファイルのルートグループ内の空のデータ変数として報告しています。PID 装置識別子は、装置の属性として表すことができます。例えば、Snippet 12.3 のように複数の装置をリンクする場合は、空白で区切られたリストを使用するのが理想的です。

12.4. OpenAIRE CERIF メタデータ

OpenAIRE Guidelines for CRIS Managers [4] では研究情報システム(Research Information System, CRIS) 管理者が、European Open Science Cloud (EOSC) 等 OpenAIRE と互換性のある情報基盤において、メタデータを公開する方法を指南しています。このガイドラインはCERIF(Common European Research Information Format) を元にした、個々のCRISシステムと、その他の研究 e-インフラとの間で情報を相互変換する事例を提供しています。

このガイドラインによるメタデータ記述では、装置情報に相当する Equipment 要素を含んでおり、GeneratedBy property を介して参照することができます。

Snippet 12.4 装置を表す Equipment エンティティを Product (dataset) メタデータ内で公開する例。 OpenAIRE Guidelines for CRIS Managers repository on GitHubproduct (dataset) example の詳細。
  <GeneratedBy>
    <Equipment id="82394876">
        <Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
        <Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
        <Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
    </Equipment>
  </GeneratedBy>

Product (dataset) は Id 属性(例 82394874) を介して Equpment レコードに内部的に関連付けられています。 Equipment 自身のメタデータは、 Equipment entity にある equipment metadata レコードを通じて公開されます。

Snippet 12.5 装置を表す Equipment エンティティを Product (dataset) メタデータ内で公開する例。OpenAIRE Guidelines for CRIS Managers repository on GitHubequipment example の詳細。
  <Equipment xmlns="https://www.openaire.eu/cerif-profile/1.2/" id="82394876">
    <Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
    <Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
    <Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
    <Owner>
      <OrgUnit id="OrgUnits/350002">
        <Acronym>HZB</Acronym>
        <Name xml:lang="de">Helmholtz-Zentrum Berlin Für Materialien Und Energie</Name>
        <Name xml:lang="en">Helmholtz-Zentrum Berlin</Name>
        <RORID>https://ror.org/02aj13c28</RORID>
      </OrgUnit>
    </Owner>
  </Equipment>