12. 装置 PID をデータセットにリンクする
PIDINST の主な目的の 1 つは、装置の科学的出力の追跡を容易にすることです。この恩恵を受けるためには、データセットとデータを収集するために使用される装置との関係を機械可読な方法で確立することが重要です。
12.1. DataCite メタデータ
データセットは通常 DataCite DOI とともに公開されます。 DataCite メタデータスキーマ は、 relatedIdentifier プロパティを使用して、データ公開のためにその DOI に登録されたメタデータから装置へリンクすることを可能にします。この場合、推奨される relationshipType は IsCompiledBy です。Figure 12.1 は、HZBによって公開されたデータセットの例を示しています(https://doi.org/10.5442/ND000001) 。データは、BER II で E2 - Flat-Cone 回折計ビームラインを使用した中性子回折を使用して収集されました。この画像は、装置の PID をリンクするデータ公開ランディング ページのスクリーンショットを示します。Snippet 12.1 は、このリンクを含む同じデータ出版物からの DOI メタデータのセクションを示しています。
Figure 12.1 装置の PID をリンクする HZB によって公開されたデータセットのランディング ページ。
<relatedIdentifiers>
<relatedIdentifier relatedIdentifierType="DOI" relationType="References">10.17815/jlsrf-4-110</relatedIdentifier>
<relatedIdentifier relatedIdentifierType="DOI" relationType="IsCompiledBy">10.5442/NI000001</relatedIdentifier>
<relatedIdentifier relatedIdentifierType="DOI" relationType="IsCitedBy">10.1103/physrevb.99.174111</relatedIdentifier>
</relatedIdentifiers>
12.2. schema.org
Figure 12.2 は、PANGAEA を通じて公開されている海洋データセット (https://doi.org/10.1594/PANGAEA.887579) の例を示しています。データセットのメタデータには、データセットとそれに関連するエンティティ (学術論文、プロジェクトなど) に関する説明情報が含まれます。データセットは、航海キャンペーン (MSM29) の一環として展開された自律型水中ビークル (AWI AUV Polar Autonomous Underwater Laboratory) に取り付けられたセンサーを介して収集されました。ビークルは、https://sensor.awi.de/ によって割り当てられた永続的な識別子によって識別されます。装置のランディング ページには、説明、製造元、モデル、連絡先、校正情報などの装置のメタデータが含まれています。Figure 12.3 は、データセットの観測イベント (クルーズ キャンペーンなど) と配備された装置 (AUV) をモデル化するために使用できる schema.org のタイプとプロパティを示しています。Figure 12.4 は、実際の schema.org 表現のスニペットを示しています。外部語彙 (NERC SeaVoX プラットフォーム カテゴリおよび GeoLink スキーマ) は、イベントおよび車両の追加タイプを示すために使用されます。schema.org では、「イベント」は特定の時間と場所での出来事を指します。たとえば、社会的なイベントです。そのため、Schema.org の機能に完全に準拠するために、観測イベントと関連する科学機器の記述をサポートするために、新しい型とプロパティが必要です。
Figure 12.2 装置識別子を含む PANGEA によって公開されたデータセットの例 (https://doi.pangaea.de/10013/sensor.664525cf-45b9-4969-bb88-91a1c5e97a5b)
Figure 12.3 イベントと特定の装置タイプの概念モデル (ビークル)
Figure 12.4 Figure 12.2 のデータセットに関連付けられたイベントと装置の schema.org 表現のスニペット。
12.3. NetCDF4
最先端の研究船は数百万ポンドの水上実験室であり、24時間体制で高出力、高解像度センサーの多様なアレイを運用しています(例: 海底深度、気象、海流速度、水路測量など)。国立海洋学センター(National Oceanography Centre, NOC)[1] と英国南極観測局(British Antarctic Survey, BAS)[2] は現在、英国のイニシアチブである I/Ocean の一環として、これらのセンサーシステムから英国国立環境研究評議会(UK National Environment Research Council, NERC)の大規模な調査船団全体のエンドユーザーまでのデータ管理ワークフローの整合性を改善するために協力しています。 そうすることで、FAIRness[3] を改善し、これらのセンサーアレイからのデータへのアクセスを改善しながら、船舶の時間を費用対効果の高い方法で使用することができます。ソリューションの初期段階では、共通のメタデータ標準を使用して曖昧さを減らしながら、船内の研究者がデータへの調和のとれたアクセスを可能にする共通のNetCDFフォーマットを船舶全体に実装します。フォーマットはNetCDF4に基づいており、Climate Forecastの規則に準拠しています。NetCDF4グループは、パラメーターストリームの導出に使用される装置に関する豊富な情報を含めるために使用されます。データストリームは、データ検出のための属性規則(Attribute Convention for Data Discovery, ACDD)1-3(Snippet 12.2) の変数属性 instrument を使用して、それらを生成した装置にリンクされます。各装置は、そのプロパティが装置のPIDを含む変数で表現されるグループとして識別されます。各プロパティは、NERC Vocabulary Server で公開されている一般的な用語を使用して定義されます。このようにして、ユーザーは選択したプロパティを表現できます。グループを介して、パラメータストリームまたは装置に関連するその他の情報 (キャリブレーション、装置の参照フレームおよび向きなど) を表現できます。
netcdf iocean_example {
dimensions:
INSTANCE = UNLIMITED ; // (1 currently)
MAXT = 6 ;
variables:
float seatemp(INSTANCE, MAXT) ;
seatemp:_FillValue = -9.f ;
seatemp:long_name = "sea surface temperature" ;
seatemp:standard_name = "sea_surface_temperature" ;
seatemp:units = "degC" ;
seatemp:sdn_parameter_urn = "SDN:P01::TEMPHU01" ;
seatemp:sdn_uom_urn = "SDN:P06::UPAA" ;
seatemp:sdn_parameter_name = "Temperature of the water body by thermosalinograph hull sensor and NO verification against independent measurements" ;
seatemp:sdn_uom_name = "Degrees Celsius" ;
seatemp:instrument = "/instruments/SBE_2490" ;
// global attributes:
:_NCProperties = "version=2,netcdf=4.7.2,hdf5=1.10.5" ;
data:
seatemp =
7.4809, 7.439, _, 7.403, 7.3647, 7.3497 ;
group: instruments {
dimensions:
NCOLUMNS = 1 ;
group: SBE_2490 {
variables:
string instrument_pid(NCOLUMNS) ;
instrument_pid:long_name = "PIDINST PID" ;
instrument_pid:sdn_variable_name = "TBC" ;
instrument_pid:sdn_variable_urn = "TBC" ;
string uuid(NCOLUMNS) ;
uuid:long_name = "UUID" ;
uuid:sdn_variable_name = "Universally Unique Identifier (UUID)" ;
uuid:sdn_variable_urn = "SDN:W07::IDEN0007" ;
string instrument_name(NCOLUMNS) ;
instrument_name:long_name = "Instrument name" ;
instrument_name:sdn_variable_name = "Long name" ;
instrument_name:sdn_variable_urn = "SDN:W07::IDEN0002" ;
string serial_number(NCOLUMNS) ;
serial_number:long_name = "Instrument serial number" ;
serial_number:sdn_variable_name = "Serial Number" ;
serial_number:sdn_variable_urn = "SDN:W07::IDEN0005" ;
string model_id(NCOLUMNS) ;
model_id:long_name = "Model Name Identifier" ;
model_id:sdn_variable_name = "Model name" ;
model_id:sdn_variable_urn = "SDN:W07::IDEN0003" ;
float accuracy_temperature(NCOLUMNS) ;
accuracy_temperature:long_name = "Instrument accuracy of temperature" ;
accuracy_temperature:units = "degC" ;
accuracy_temperature:sdn_variable_name = "Accuracy" ;
accuracy_temperature:sdn_variable_urn = "SDN:W04::CAPB0001" ;
accuracy_temperature:variable_parameter = "/seatemp" ;
accuracy_temperature:sdn_uom_urn = "SDN:P06::UPAA" ;
accuracy_temperature:sdn_uom_name = "Degrees Celsius" ;
// group attributes:
:date_valid_from = "2020-01-31T00:00:00Z" ;
:metadata_link = "https://linkedsystems.uk/system/instance/TOOL0022_2490/current/" ;
:comment = "\n2020-06-26T13:29:42Z: Instrument cleaned on 2020-02-10T13:04:00Z" ;
data:
instrument_pid = "http://hdl.handle.net/21.T11998/0000-001A-3905-F" ;
uuid = "TOOL0022_2490" ;
instrument_name = "SBE 37-IM MicroCAT s/n 2490" ;
serial_number = "2490" ;
model_id = "http://vocab.nerc.ac.uk/collection/L22/current/TOOL0022/" ;
accuracy_temperature = 0.002 ;
} // group SBE_2490
} // group instruments
}
米国海洋大気庁 (National Oceanic and Atmospheric Administration, NOAA) の国立環境情報センター (National Centres for Environmental Information, NCEI) も CF-NetCDFファイルで装置を報告していますが、サブグループではなくNetCDFファイルのルートグループ内の空のデータ変数として報告しています。PID 装置識別子は、装置の属性として表すことができます。例えば、Snippet 12.3 のように複数の装置をリンクする場合は、空白で区切られたリストを使用するのが理想的です。
int instrument_parameter_variable;
instrument_parameter_variable:long_name = "" ;
instrument_parameter_variable:comment = "" ;
instrument_parameter_variable:instrument_pid = "" ;
12.4. OpenAIRE CERIF メタデータ
OpenAIRE Guidelines for CRIS Managers [4] では研究情報システム(Research Information System, CRIS) 管理者が、European Open Science Cloud (EOSC) 等 OpenAIRE と互換性のある情報基盤において、メタデータを公開する方法を指南しています。このガイドラインはCERIF(Common European Research Information Format) を元にした、個々のCRISシステムと、その他の研究 e-インフラとの間で情報を相互変換する事例を提供しています。
このガイドラインによるメタデータ記述では、装置情報に相当する Equipment 要素を含んでおり、GeneratedBy property を介して参照することができます。
<GeneratedBy>
<Equipment id="82394876">
<Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
<Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
<Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
</Equipment>
</GeneratedBy>
Product (dataset) は Id 属性(例 82394874) を介して Equpment レコードに内部的に関連付けられています。 Equipment 自身のメタデータは、 Equipment entity にある equipment metadata レコードを通じて公開されます。
<Equipment xmlns="https://www.openaire.eu/cerif-profile/1.2/" id="82394876">
<Name xml:lang="en">E2 - Flat-Cone Diffractometer</Name>
<Identifier type="DOI">https://doi.org/10.5442/NI000001</Identifier>
<Description xml:lang="en">A 3-dimensional part of the reciprocal space can be scanned in less then five steps by combining the “off-plane Bragg-scattering” and the flat-cone layer concept while using a new computer-controlled tilting axis of the detector bank. Parasitic scattering from cryostat or furnace walls is reduced by an oscillating \"radial\" collimator. The datasets and all connected information is stored in one independent NeXus file format for each measurement and can be easily archived. The software package TVneXus deals with the raw data sets, the transformed physical spaces and the usual data analysis tools (e.g. MatLab). TVneXus can convert to various data sets e.g. into powder diffractograms, linear detector projections, rotation crystal pictures or the 2D/3D reciprocal space.</Description>
<Owner>
<OrgUnit id="OrgUnits/350002">
<Acronym>HZB</Acronym>
<Name xml:lang="de">Helmholtz-Zentrum Berlin Für Materialien Und Energie</Name>
<Name xml:lang="en">Helmholtz-Zentrum Berlin</Name>
<RORID>https://ror.org/02aj13c28</RORID>
</OrgUnit>
</Owner>
</Equipment>