Scientific Data

Download Report

Transcript Scientific Data

1

Scientific Data: An open access and open data publication to facilitate reproducible research

@The 37 th Annual Meeting of the Molecular Biology Society of Japan, Forum[2F15] Data-driven approach to elucidate physiological metabolic machinery conserved across species Yoko Shintani Open Research Marketing Manager, Nature Publishing Group 2014.11.26

From Open Access to reproducible research

• • • • • 10K fully open access journals* 1.7m open access articles* 470 open access mandates in 100 countries** *DOAJ http://doaj.org/ *ROARMAP http://roarmap.eprints.org/ Governments introduce open access mandates for taxpayer-funded research Funded research-generated data needs to be shared ex)NIH policy on genome research in August 

”Open Data” is needed for truly open and reproducible research

2 http://creativecommons.org/licenses/by/2.0) ROARMAP, http://roarmap.eprints.org/

3

Publishers and data/reproducibility

• • • • • Policies on access (to data, code, reagents etc) • Supporting funder & community needs Format and amount of content • Methodological details, supp info, data integration and links to repositories Licensing for reuse Incentives to share • Data citations • Data journals and articles Quality assurance through peer review

Challenges in reproducible research nature.com/nature/focus/reproducibility/

Search “nature” and “reproducibility”

Barrier for sharing data and reproducible research

• • • • • • • • Not all research projects result in a research article Potentially valuable data being lost Valuable information being moved to supplementary material or going unpublished Lack of credit effective mechanisms to share or publish data Lack of credit or incentive for researchers involved in data collection Full review and analysis of data not expected by all primary journals Concerns over inappropriate reuse of the data Lack of repositories or lack of awareness of repositories Meanwhile, most of researchers checks other researcher’s data Many of published data could be hard to discover, understand, cite, or reproduce.

Open data is not enough for truly reproducible research

5

Data journal to support reproducible research

Opportunity

Valuable data is being lost Publication to focus on research dataset

Incentive

Lack of incentive to publish data Credit for sharing data through citable publication

Data Validity

Issue with published/shared data Peer review and data curation to data description and data itself

Data journal to support reproducible research

Making valuable research data discoverable, searchable, understandable, with data validated, in short publish the dataset with more reproducible format =role of data article/ data journals

7

Use Cite Discover Analyze Reuse and reproduce

8

The role of data journals/papers

Credit/incentive for researchers to publish data Mechanism to publish data not associated with a traditional publication Narrative helps understanding of methodological details Full peer review and curation of data enables reuse Helps compliance with community/funder expectations Make datasets more visible an discoverable

Data journals everywhere?

http://proj.badc.rl.ac.uk/preparde/blog/DataJournalsList http://www.journals.elsevier.com/data-in-brief/

Scientific Data – launched May 2014

Scope

An open access, peer-reviewed publication for descriptions of scientifically valuable datasets. Our primary article-type, the Data Descriptor, is designed to make your data more discoverable, interpretable and reusable.

Editorial team

Managing Editor (Andrew Hufton) Editorial Curator (Varsha Khodiyar) Honorary Academic Editor (Susanna Sansone, Oxford) Advisory Panel and Editorial Board

Open access APC

JPY 10,4000 for each accepted article *as of Nov 2014

Abstract & Indexing

Recently included in PubMed Central, PubMed, Medline 10

www.nature.com/scientificdata

The ‘Data Descriptor (DD)’

Detailed descriptions of the methods and technical analyses supporting the quality of the measurements. Does not contain tests of new scientific hypotheses

Not articles, but

Data Descriptor

description of data –

Background, method, data record, technical validation, usage notes

Machine readable metadata www.nature.com/scientificdata

The ‘Data Descriptor’

Methods

How data was generated Data Records : Location of data, and its format Technical Validation

Experiment or analysis to underpin data quality Usage Note

Advice on how to reproduce or reuse the data (optional) Article or Experimental metadata or Full reference about data component

(PDF and HTML) (in-house curated, machine-readable metadata with each article) • • • • • • • • • •

Sections:

Title Abstract Background & Summary Methods Data Records Technical Validation Usage Notes Figures & Tables References Data Citations

www.nature.com/scientificdata

www.nature.com/scientificdata

• • •

Associated Nature Article

Data at figshare & NCBI GEO Integrated figshare data viewer

www.nature.com/scientificdata

• • • •

New Dataset

Data in OpenfMRI Source code in GitHub

Big Data

Code in GitHub

Peer review at Scientific Data

• •

Focuses on:

• Completeness (can others reproduce?) • • Consistency (were community standards followed?) Integrity (are data in the best repository?) • Experimental rigour and technical quality (were the methods sound?)

Does not focus on:

Perceived impact/importance Size/complexity of data

www.nature.com/scientificdata

Scientific Data – in short

Publications will be indexed and citable.

All the information others need to reuse the data Rigorous peer-review focused on technical data quality Enhanced discoverability of data relevant to users Creative Commons license to support data reuse www.nature.com/scientificdata Speedy review, publication and data curation

Submit your data to Scientific Data

DD template www.nature.com/scientificdata

Nucleic acid sequence

DNA DataBank of Japan (DDBJ) EMBL Nucleotide Sequence Database (ENA) GenBank dbSNP European Variation Archive (EVA) dbVar Database of Genomic Variants Archive (DGVa) EBI Metagenomics NCBI Trace Archive NCBI Sequence Read Archive (SRA)

Protein sequence

Uniprot *

Molecular & supramolecular structure

Protein Circular Dichroism Data Bank (PCDDB) Crystallography Open Database (COD) Coherent X-ray Imaging Data Bank (CXIDB) Biological Magnetic Resonance Data Bank (BMRB) Electron Microscopy Data Bank (EMDB) Worldwide Protein Data Bank (wwPDB)

Neuroscience

NeuroMorpho.org Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI) OpenfMRI

www.nature.com/scientificdata

Data Policies>Recommended Repositories 18

Omics

ArrayExpress Gene Expression Omnibus (GEO) GenomeRNAi dbGAP The European Genome-phenome Archive (EGA) Database of Interacting Proteins (DIP) IntAct

Metabolomics

MetaboLights

Proteomics

PeptideAtlas PRIDE ProteomeXchange Life-science community resources Eukaryotic Pathogen Database Resources (EuPathDB) FlyBase Influenza Research Database Mouse Genome Informatics (MGI) National Addiction & HIV Data Archive Program (NAHDAP) National Database for Autism Research (NDAR) Rat Genome Database (RGD) VectorBase Xenbase Zebrafish Model Organism Database (ZFIN) Biological General Repository for Interaction Datasets (BioGRID) * Cancer Imaging Archive ClinicalTrials.gov

19

Scientific Data in Japan Advisory Panel:

Piero Carninci, RIKEN, Japan

Editorial Board:

Hideya Kawaji, RIKEN, Japan Yasukazu Nakamura, National Institute of Genetics, Japan Vadim Zinchuk, Kochi University, Japan

Scientific Data Japanese website

Author Guide

 

Review policy FAQ http://nature.asia/scientificdata

Meet the Editor

November 27 (Tomorrow ) 16:00-16:30 Exhibition hall – NPG booth

20

www.nature.com/scientificdata

A value added component in a growing data publishing ecosystem

www.nature.com/scientificdata

データの再利用を促進する オープンアクセス・オープンデータジャーナル

Scientific Data: An open access and open data publication to facilitate reproducible research @第

37

回日本分子生物学会フォーラム

[2F15]

種を超えて保存された生理代謝機 構の解明に向けて:データベースによるアプローチ 新谷洋子 オープンリサーチ マーケティングマネージャー Nature Publishing Group 2014.11.26 22

From Open Access to reproducible research

オープンアクセスから、より再利用可能な研究へ • • • • • オープンアクセス (OA) 誌の数は約 1 万 * 170 万報の OA 論文 * 研究助成団体、研究機関による OA 義務化 ** *DOAJ http://doaj.org/ *ROARMAP http://roarmap.eprints.org/ 政府助成を受けた研究はすべて OA で公開する方針を各国政府が発表 同様に助成を受けた研究から得られたデータも公開義務化の方向へ 

OA

出版によって開かれた研究が可能に  真に開かれた研究のためには正しくデータ公開がされるべき 23 http://creativecommons.org/licenses/by/2.0) ROARMAP, http://roarmap.eprints.org/

24

Publishers and data/reproducibility

データと再利用に関する出版社の役割 •

Policies

アクセスに関するポリシーに対応 • • • • • 助成機関や研究コミュニティーのニーズに応える

Format

コンテンツの形式・様式 • 方法論的な詳細、補足情報、データのまとめやリポジトリとのリンク付け

Licensing

再利用のライセンス付与

Incentives

データ公開へのインセンティブ作り • データの正しい引用を促す • データジャーナル、データ論文の提供

Quality assurance

査読を通じた品質の保証

Challenges in reproducible research

再利用可能な研究の課題

nature.com/nature/focus/reproducibility/

“nature” “reproducibility” で検索

Barrier for sharing data and reproducible research

データ共有にまつわるさまざまな課題 • • • • • • • • すべての研究プロジェクトが研究成果に結びつくわけではない 価値のある研究データが死蔵されてしまう 価値のある情報が単なる論文の

supplementary file

として扱われた り、公開されないこともある 効果的にデータを共有する仕組みが不足している データを出版することで得られるクレジット、インセンティブが不足 データ自体の査読や分析は主要なジャーナルでは行わない 公開したデータの不適正な再利用に関する懸念 リポジトリ不足またはリポジトリの認知不足 一方で大半の研究者が他の研究者のデータをしばしば検索し、確認を行っている しかし公開されているデータは、発見、理解、引用、再利用しづらい 科学研究の再現性と信頼性を高めるためには,データがただ存在しているだけで は不十分 26

Data journal to support reproducible research

データジャーナルの誕生で再利用可能な研究を

機会

価値のある研究データが死 蔵されてしまう 研究データ自体にフォーカ スした出版物

インセンティブ

データを出版することで得 られるクレジット不足 引用可能な出版物としてク レジット(業績)になる

有用性

公開されているデータが本 当に役立つのか微妙 データ記述とデータ自体も 査読をして有用性を検証

Data journal to support reproducible research

データジャーナルの誕生で再利用可能な研究を

価値のある研究データを 発見しやすく、検索しやすく、理解しやすく データ自体の有用性が検証済みのもの、つまり 再利用されやすいデータセットとして公開

28 利用 引用 発見 解釈 再利用と再現

データジャーナル

/

データ論文の役割

The role of data journals/papers

データを公開するインセンティブとクレジットになる 従来の出版物には無かった、データ公開のための機能を提供する 説明的記述がデータ収集や実験方法など詳細の理解を助ける データの査読とキュレーションによって再利用可能なものとする 研究コミュニティーと助成金提供者の期待とを一致させる 29 データセットの可視性と発見可能性を高める

30

Data journals everywhere?

Scientific Data – launched May 2014

Scope

科学的に貴重なデータセットを記述形式で出版するためのオンライン限定 のオープンアクセス誌。自然科学、物理学、社会科学のデータセットを掲載 する査読誌です。

Editorial team

Managing Editor (Andrew Hufton) Editorial Curator (Varsha Khodiyar) Honorary Academic Editor (Susanna Sansone) 編集諮問委員会と編集委員会

Open access APC

¥104,000 (消費税別) *2014 年 11 月現在

Abstract & Indexing

PubMed Central, PubMed, Medline に 収録されて います。 31

www.nature.com/scientificdata

The ‘Data Descriptor (DD)’

Scientific Data

特有のコンテンツのタイプで、実験・観察 データ セットの詳細な記述を提供するための新しい出版物のカテゴリー。

DD

は文章による記述とキュレーションによって構造化された研究 データの記述を組み合わせることで、その基礎となる一次データセッ トを最大限解釈、検索、再利用できるようにデザインされている。  論文ではなく“ Data Descriptor ”つまり、データ についての説明を記述したもの  データ収集の背景、データ所蔵場所、データ取 得方法、データの品質を示す技術的分析、 データ利用方法などの記述  コンピューター処理可能な形式に、実験デザイ ン情報【表】をメタデータとして落とし込んだもの も露文に付随。

www.nature.com/scientificdata

The ‘Data Descriptor’

Methods

: データの作成方法を記載

Data Records

記載

:

各データと情報の所在、フォーマットを

Technical Validation

: データの質を裏付けるのに必要な実験 または分析を記載

Usage Note

: データの再利用に関する助言を記載

(optional) Article or Data Citations: component

(PDF and HTML)

Experimental metadata or structured component

with each article) • • • • • • • • • •

Sections:

Title Abstract Background & Summary Methods Data Records Technical Validation Usage Notes Figures & Tables References Data Citations

www.nature.com/scientificdata

www.nature.com/scientificdata

• • •

Associated Nature Article

Data at figshare & NCBI GEO Integrated figshare data viewer

www.nature.com/scientificdata

• • • •

New Dataset

Data in OpenfMRI Source code in GitHub

Big Data

Code in GitHub

Peer review at Scientific Data

• • • • 審査基準:4大ポイント 完全性(データを他者が再現し再利用できるか?) 一貫性 (研究コミュニティーの研究手法や慣習などに従っているか?) 整合性(データは適切なリポジトリに登録されているか?) 実験の厳密さと技術的品質(実験方法は有効か?) • • 審査で重視されないポイント 予測されるインパクトや重要性 データの規模や複雑さ

www.nature.com/scientificdata

Scientific Data

があなたにできること

引用可能な形で研究 データを公開できクレ ジットが得られる データ記述をキュレーショ ンによって標準化し再利用 に役立てます 各コミュニティーの基準 に基づいた厳格な査読で クオリティを保証 ユーザーの研究に関係 のあるデータセットを 発見できます クリエイティブコモンズラ イセンスでデータの再利用 を推進

www.nature.com/scientificdata

迅速な査読、出版と社内 キュレーション(データ 自体も査読)

Submit your data to Scientific Data

DD

テンプレート

www.nature.com/scientificdata

Nucleic acid sequence

DNA DataBank of Japan (DDBJ) EMBL Nucleotide Sequence Database (ENA) GenBank dbSNP European Variation Archive (EVA) dbVar Database of Genomic Variants Archive (DGVa) EBI Metagenomics NCBI Trace Archive NCBI Sequence Read Archive (SRA)

Protein sequence

Uniprot *

Molecular & supramolecular structure

Protein Circular Dichroism Data Bank (PCDDB) Crystallography Open Database (COD) Coherent X-ray Imaging Data Bank (CXIDB) Biological Magnetic Resonance Data Bank (BMRB) Electron Microscopy Data Bank (EMDB) Worldwide Protein Data Bank (wwPDB)

Neuroscience

NeuroMorpho.org Functional Connectomes Project International Neuroimaging Data-Sharing Initiative (FCP/INDI) OpenfMRI

www.nature.com/scientificdata

Data Policies>Recommended Repositories 39

Omics

ArrayExpress Gene Expression Omnibus (GEO) GenomeRNAi dbGAP The European Genome-phenome Archive (EGA) Database of Interacting Proteins (DIP) IntAct

Metabolomics

MetaboLights

Proteomics

PeptideAtlas PRIDE ProteomeXchange Life-science community resources Eukaryotic Pathogen Database Resources (EuPathDB) FlyBase Influenza Research Database Mouse Genome Informatics (MGI) National Addiction & HIV Data Archive Program (NAHDAP) National Database for Autism Research (NDAR) Rat Genome Database (RGD) VectorBase Xenbase Zebrafish Model Organism Database (ZFIN) Biological General Repository for Interaction Datasets (BioGRID) * Cancer Imaging Archive ClinicalTrials.gov

40

Scientific Data in Japan Advisory Panel:

Piero Carninci, RIKEN, Japan

Editorial Board:

Hideya Kawaji, RIKEN, Japan Yasukazu Nakamura, National Institute of Genetics, Japan Vadim Zinchuk, Kochi University, Japan

Scientific Data

日本語ウェブサイト  原則   編集方針と出版方針 査読要綱  よくあるご質問等 など日本語でご案内

http://nature.asia/scientificdata

Meet the Editor

開催日: 11 月 27 日 ( 明日) 16:00-16:30 場所:ポスター会場 NPG ブース

41

www.nature.com/scientificdata

A value added component in a growing data publishing ecosystem

www.nature.com/scientificdata