class: center, middle, inverse, title-slide # オープンデータの作り方 ### 国里愛彦(専修大学心理学科) ### 第43回日本生物学的精神医学会・第51回日本神経精神薬理学会(2021年7月14日) --- # 再現性の危機 <img style="float:right" src="pic/07.png" width="250"> - 1576名の研究者への調査で.med[(Baker, 2016, Nature)],90%が再現性の危機があると回答.med[(52%が重大な危機,38%が軽い危機)] - 論文に書かれた情報から結果が再現できることは,科学的方法の重要な特徴 --- # 再現性を高めるためにデータ共有する 1. 方法の再現可能性.med[(発表されたデータ+同じ解析=同じ結果)]を確認するため 2. オープンデータ(**自由に使えるデータ**.small[(庄司, 2014)])を用いた2次分析研究の発展のため .med[ - 欧州神経精神薬理学会では,ビッグデータ解析に向け,研究拠点におけるデータ共有を促進.med[(Fusar-Poli et al.,2019)] - NIMHは,データ共有のためのリポジトリNational Institute of Mental Health Data Archive (NDA)を運営 - 国内もG8サミット(2013年)からデータのオープン化を推進。国立情報学研究所のResearch Data Cloudなどの整備が進む ] --- # 神経精神薬理学領域のデータ共有状況 <img style="float:right" src="pic/08.png" width="200"> - Miyakawa(2020)は,Molecular Brain誌に投稿された,信じられないくらいきれいなデータの論文.med[(41本)]にデータを要求 →半分は取り下げ.med[(21本)],残り半分は不十分or結果と合わないデータ提出.med[(19本/20本)]。その後,他誌に掲載された論文もデータ要求に不十分な対応.med[(無視10本,一部送付1本,拒否1本)] - 臨床神経科学分野のIFトップ50誌.med[(2017年)]を対象に調査.med[(Hanson et al., 2020.レビュー誌を除いた42誌が対象)] → 60%(25/42)の雑誌が,データ共有方針をとる --- # 臨床神経科学領域のデータ共有状況 - Hanson et al.(2020)はIF上位の42雑誌からメタ分析やケース論文などを除いた1255論文を対象に調査.med[(各雑誌の2016年から2018年にかけて,各年の最初の10論文を選んだ)] - 41%.med[(517本/1255本)]の論文が論文内(結果や付録)にソースデータを含んでいた(顕微鏡画像はデータ) - 6.9%.med[(87本/1255本)]が外部データベースにデータがあると記載 - 8.9%.med[(112本/1255本)]はデータが入手可能であると記載 → データ共有方針をとる雑誌も多く,データリンクや入手可能性に言及する論文も増えてきているが,十分ではない。 --- # データをオープン化するメリット - 研究公正,データの再利用,リソースの有効活用.med[(Levenstein & Lyle, 2018)] - 公開を意識することで研究・論文の質や信頼性が向上.med[(Levenstein & Lyle, 2018)]。PLOSとBMCでは,データリンクがある論文は,引用に基づくインパクトが25.36%増える.med[(Colavizza et al., 2020)] - 公的なリポジトリなら,その後のメンテナンスや問い合わせ対応も不要.med[(Levenstein & Lyle, 2018)] - 国立研究開発法人(国研)のデータポリシーでは,FAIR原則を満たすようなメタデータやDOIをつけた上でのデータ公開にも触れている。 --- # オープンデータは今後も増え続ける - Cognition誌がオープンデータ方針を導入した前後で,論文内でのデータの利用可能性の記載が増加.med[(Hardwicke et al.,2018)] <img style="float" src="pic/01.jpg" width="420"> - 研究助成団体や学術雑誌からデータ共有を求められることが増えており,今後さらに増加すると予想される。 --- # データ共有の10のルール.small[(Goodman, 2014)] - データ共有は,面倒に感じたり,やり方が分からないこともあるので.med[(Houtkoop et al., 2018)],以下のルールを参考にする .med[ 1. 自分のデータを愛し,他人にも愛してもらえるようにしよう 1. 永続的な識別をつけて,オンラインでデータを共有しましょう 1. 再利用を念頭において科学を行う 1. ワークフローを共有する 1. できるだけ頻繁に論文とデータをリンクさせる 1. コードを公開する 1. どのようなクレジットを得たいのか述べる 1. データリポジトリの構築と利用 1. データを適切に共有した同僚に報酬を用意する 1. データサイエンスのブースターになる ] --- # 勝手に10のルールを分類.small[(Goodman, 2014)] - **心構え** .med[(1)自分のデータを愛し,他人にも愛してもらえるようにしよう, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる] - **リポジトリ** .med[(2)永続的な識別をつけて,オンラインでデータを共有しましょう, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用] - **FAIR** .med[(3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する] - **ライセンス** .med[(7)どのようなクレジットを得たいのか述べる] - **プライバシー** --- # 心構え.small[Goodman(2014)のデータ共有の10のルール] - 1.自分のデータを愛し,他人にも愛してもらえるようにする - 9.データを適切に共有した仲間にインセンティブを用意する.med[(データやコードを共有することが報われるようにする)]。 - 10.データサイエンスのブースターになる.med[(データとコード共有が蓄積されることは,大きな科学的価値になる)]。 → 手塩にかけて収集したデータをみんなに見てもらいましょう! --- # リポジトリ.small[Goodman(2014)のデータ共有の10のルール] - 2.永続的な識別をつけて,オンラインでデータを共有しましょう .med[(個人サイトではなく,DOIなどの永続的な識別子が用意できる,長期的な保管が可能なデータリポジトリにデータを公開する)] - 5.できるだけ頻繁に論文とデータをリンクさせる.med[(データ共有をしてから論文投稿することも可能。DOIがついたデータを引用する。ただ,雑誌がこれを許可してないこともある)] - 8.データリポジトリの構築と利用.med[(研究領域に標準的なリポジトリがあるのなら利用する)] → 目的にあったタイミング.med[(論文出版時,登録3年以内(OpenNeuroの場合),助成金の期間終了時,論文発表前)]で,目的に合った永続的な識別が可能なリポジトリに登録する --- # 汎用リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Open Science Framework(https://osf.io) .med[多種のデータとマテリアルを共有。プレレジやプレプリント機能もある。] - figshare(https://figshare.com) .med[グラフ,図,スライドの共有] - Zenodo(https://about.zenodo.org) .med[研究アウトプットを共有] - GitHub(https://github.com) .med[研究マテリアル,データ,コードの共有。ZenodoかOSFと連携させてDOIもとれる] - Dataverse(https://dataverse.org) .med[多種のデータとマテリアルを共有(一般・制限可能)] - Dryad(https://datadryad.org) .med[論文に関連したデータセットとスクリプトを共有] --- # 領域やテーマ別リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Inter-university Consortium for Political and Social Research(https://www.icpsr.umich.edu/web/pages) .med[社会科学に関する調査の個票データを共有(制限可能)] - National Institute of Mental Health Data Archive (https://nda.nih.gov) .med[精神医学系データの共有(制限可能)] --- # データの種類別リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Protocols.io(https://www.protocols.io) .med[研究プロトコルを共有(プライベート共有可)] - Databrary(https://nyu.databrary.org) .med[認証された研究者がビデオや音声などを共有(制限可能)] - OpenNeuro(https://openneuro.org) .med[MRI, MEG, EEG, iEEG, ECoG, ASLデータを共有] - NCBI GEO(https://www.ncbi.nlm.nih.gov/geo/).med[ゲノムデータを共有] - TalkBank(https://talkbank.org) .med[音声とビデオとトランスクリプトの共有] - WordBank(http://wordbank.stanford.edu) .med[子どもの言語発達に関するデータを共有] --- # FAIR.small[Goodman(2014)のデータ共有の10のルール] - 3.再利用を念頭において科学を行う.med[(1.データ,2.データを説明するメタデータ情報,3.コードなどのデータ生成過程に関する情報が提供されていればデータが再利用可能)] - 4.ワークフローを共有する .med[(処理ステップを共有することで,データの解釈や再利用に必要な文脈を提供できる。データから論文までつながった状態にできると良い(Rの場合,Rmarkdownなど)] - 6.コードを公開する.med[(コードが共有されるとデータから最終的な論文の結果の再現が可能になる。そして,使用するソフトはオープンソースを用いて,読者が追跡がしやすいようにする)]。 →.red[FAIR].med[(Findability, Accessibility, Interoperability, Reusability; Wilkinson et al.,2016)]を満たす見つけやすく,アクセス可能で,相互運用可能で,再利用可能なデータと解析コードの共有が必要 --- # FAIRの原則 .small[(NBDC研究チーム訳,2019)] ## To be Findable:(見つけられるために) .med[ - F1. (メタ)データが、グローバルに一意で永続的な識別子(ID)を有すること。 - F2. データがメタデータによって十分に記述されていること。 - F3. (メタ)データが検索可能なリソースとして、登録もしくはインデックス化されていること。 - F4. メタデータが、データの識別子(ID)を明記していること。 ] →DOIとメタデータ(データの説明)がついている必要があり,メタデータは検索可能なものになっている必要がある。 --- # FAIRの原則 .small[(NBDC研究チーム訳,2019)] ## To be Accessible:(アクセスできるために) .med[ - A1. 標準化された通信プロトコルを使って、(メタ)データを識別子(ID)により入手できること。 - A1.1 そのプロトコルは公開されており、無料で、実装に制限が無いこと。 - A1.2 そのプロトコルは必要な場合は、認証や権限付与の方法を提供できること。 - A2. データが利用不可能となったとしても、メタデータにはアクセスできること。 ] →データがリポジトリなどで公開されて,入手可能になっていること(場合によってアクセス権を設定)。 --- # FAIRの原則 .small[(NBDC研究チーム訳,2019)] ## To be Interoperable:(相互運用できるために) .med[ - I1. (メタ)データの知識表現のため、形式が定まっていて、到達可能であり、共有されていて、広く適用可能な記述言語を使うこと。 - I2. (メタ)データがFAIR原則に従う語彙を使っていること。 - I3. (メタ)データは、他の(メタ)データへの特定可能な参照情報を含んでいること。 ] → 脳画像データだとBrain Imaging Data Structure(BIDS) → 統計解析をするデータの場合,Wickham(2014)の**整然データ**かつ**ロング形式** --- # FAIRの原則 .small[(NBDC研究チーム訳,2019)] ## To be Re-usable:(再利用できるために) .med[ - R1. メタ(データ)が、正確な関連属性を豊富に持つこと。 - R1.1 (メタ)データが、明確でアクセス可能なデータ利用ライセンスと共に公開されていること。 - R1.2 (メタ)データが、その来歴と繋がっていること。 - R1.3 (メタ)データが、分野ごとのコミュニティの標準を満たすこと。 ] →メタデータを豊富にして,データがどのように使えるのかライセンスをつける。 --- # 相互運用と再利用ためのコードブック - コードブックは,データの内容,構造,レイアウトを記述したもの。データが研究目的に合ったものかの判断がしやすく,再利用時に有用 - 人間だけなく検索エンジン(Google Dataset Search)も読みやすいように作る.med[(RのcodebookパッケージはJSON-LDを出力してくれる)] <img style="float" src="pic/02.png" width="600"> --- # ライセンス.small[(Goodman, 2014)] - 7.どのようなクレジットを得たいのか述べる.med[(データについて,どのようなクレジットを希望するのかを明示する。ライセンスに基づいて公開することもできる)] → 以下のようなオープンソース由来のライセンスが使えるが,Creative Commonsが利用条件がわかりやすい。 .med[ - CC0 1.0 Universal - CC-By Attribution 4.0 International - MIT License - Apache License 2.0 - BSD 2-Clause “Simplified” License - GNU General Public License (GPL) 3.0 or 2.0 - GNU Lesser General Public License (LGPL) 3.0 or 2.1 ... ] --- .med[**Creative Commons** OSFでデータ共有する場合はCC0 1.0かCC BY 4.0。 CC0 1.0ならクレジットなしで,CC BY 4.0ならクレジットをつければ,個人利用,改変,再配布,商用利用を許可(商標権と特許権は保持される)] <img style="float" src="pic/04.png" width="700"> --- # プライバシー保護 - データ共有にあたっては,その地域の個人情報保護の法律も理解しておく必要がある.med[(Kathawalla et al., 2021)] →データ共有時のプライバシー保護について.med[(Walsh et al.,2018)] - データ共有にあたり同意が必要なので,データ収集の段階から議論が必要である.med[(Kathawalla et al., 2021)] →データ共有の同意の取得方法.med[(Meyer, 2018)] →センシティブなデータの共有.med[(Gilmore et al., 2018)] --- ## データ共有時のプライバシー保護.small[(Walsh et al.,2018)] - 公開データから個人が特定される可能性のある変数や値を除いてないと,研究参加者が特定されるかも。 - 公開データだけでは特定できなくても,その研究に参加していることがわかれば,個人が特定できるかも。 → データの匿名化が必要! --- # データの匿名化.med[(Walsh et al.,2018)] - 記録の一部を削除したり,不明瞭にすることで匿名化する(Safe Harborモデル) - Safe Harborでは,18種類の識別子を削除する(.med[氏名,郵便番号,個人に直接関係する日付の情報,89歳以上は90+とする,社会保障番号,電話番号,FAX番号,車両識別番号,装置識別番号,メールアドレス,URL,IPアドレス,健康保険プラン受益者番号,医療記録番号,口座番号,生体認証識別子,顔写真,他の個人を識別できる番号) .red[「人を対象とする生命科学・医学研究に関する倫理指針」の個人情報・個人識別符号に対応]] - Safe Harborは研究によっては適用できない.med[(例.89歳以上の年齢が関心の場合など)]。専門家が特定のリスクが非常に小さいと判断した場合はデータにいれることもある。 --- ### 研究データや構造化臨床データの匿名化.small[(Walsh et al.,2018)] - **抑制** .med[特定の変数や値を削除する(例. 国内最高齢の方を除外)。抑制しすぎると,研究が遂行できなくなる] - **一般化** .med[特定の値の精度を落とす(例. 年齢を1年から10年区切りに)。抑制組み合わせると最小限の影響で匿名化ができる] - **ノイズの追加** .med[正規分布などを使ってノイズを追加して値の真実性を下げる(例. 日付をランダムに選んだ別の日付に)。要約統計量の値は維持しつつ,特定不能にできる。] - **ニューラルネットの利用** .med[ ニューラルネットに学習をさせて,データを生成させることができる(データの一次関係は保持しつつも元データとは違いものを提供するので,プライバシーの問題は回避できる)敵対的生成ネットワークを適用して,患者の記録をシミュレートする取り組みもある(Choi et al., 2017)。] --- ## データ共有の同意取得時の工夫.med[(Meyer, 2018)] - **データ破棄を約束しない**.med[データの確認・再利用のために,生データが保管できるように同意書を作る] - **データ共有しないと約束しない** .med[同意書内でデータ共有しないことを約束するとデータ共有ができなくなる] - **データ分析は特定のテーマに限定すると約束しない** .med[目的を明確にしてデータ収集するが,それ以外の目的では使用しないとは言わない] - **データの保持と共有に関する同意を得る** .med[誰がデータにアクセスできるのか,再利用の目的は何かを同意書に含める。できるだけ広範なデータ共有の同意をとる(事後的に制限可能)。データ共有の段階的な同意オプションを使う(データ全てを共有?一部を共有?など)] - **データ保持と共有をIRBのテンプレートに組み込む**.med[IRBのテンプレートをデータ共有を前提としたものに変更する。] --- **共有の同意を取らずに収集されたデータの共有 .med[(Meyer, 2018)]** 明示的にデータ共有の同意をとってないデータの共有は,研究ごとに判断する。以下の条件を満たすほど共有できる。 .med[ - 同意書でデータ共有に触れておらず,データ共有しないと約束してない - データがセンシティブなものではない(再識別されても参加者に重大な損害を与える可能性が低い) - データが再識別できないものか,再識別される可能性が高くない(再識別する動機が低い,データ単独or他のデータセットと組み合わせても再識別される可能性が低い)。 - 同意書に記載された研究の範囲内に二次研究の目的が限定されている。 - 研究参加者が反対しないと思われる二次研究の目的に限定されている。 - 再識別を禁止する契約によって保護された条件でのみ共有データにアクセスできるようにして公開する。 ] --- ### センシティブなデータを共有する .med[(Gilmore et al., 2018)] - Databraryは,個人が識別可能な情報(ビデオ録画)を共有するサービスを提供している。 - ビデオは情報が豊かであり,研究手続きの記録としても優れているが,匿名化は他のデータより難しい.med[(顔のモザイクや音声の加工のような操作は,表情やプロソディ研究の支障となる)] - Databraryでは,以下の2つの方法を採用。 1. データへのアクセスは,所属機関から明確な承認と倫理的な監督を受けている研究者に限定する 2. 個人を特定できるデータを共有する際には,研究参加者(または保護者)の許可を得ることを義務化.med[(Databraryは共有許可の求め方と記録の仕方を標準化)] --- # オープンデータの作り方 - **心構え** どんどんデータを公開して,科学の蓄積に貢献する。 - **リポジトリ** DOIなどの永続的な識別子が用意できる,長期的な保管が可能なデータリポジトリにデータを公開する。 - **FAIR** 見つけやすく,アクセス可能で,相互運用可能で,再利用可能なデータを解析コードとともに公開する。 - **ライセンス** データに対してどのようなクレジットを希望するのかをライセンスに基づいて明示する - **プライバシー** オープンデータは匿名化をしっかりして,データ共有の同意をとる --- # 引用文献 .small[ - Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533(7604), 452–454. - Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F., & Sun, J. (2017). Generating Multi-label Discrete Patient Records using Generative Adversarial Networks. In F. Doshi-Velez, J. Fackler, D. Kale, R. Ranganath, B. Wallace, & J. Wiens (Eds.), Proceedings of the 2nd Machine Learning for Healthcare Conference (Vol. 68, pp. 286–305). PMLR. - Colavizza, G., Hrynaszkiewicz, I., Staden, I., Whitaker, K., & McGillivray, B. (2020). The citation advantage of linking publications to research data. PloS One, 15(4), e0230416. - FORCE11: THE FAIR DATA PRINCIPLES (2016). https://www.force11.org/group/fairgroup/fairprinciples, NBDC研究チーム(訳), "FAIR原則(「THE FAIR DATA PRINCIPLES」和訳)" (2019). https://doi.org/10.18908/a.2019112601 - Fusar-Poli et al. (2019). European college of neuropsychopharmacology network on the prevention of mental disorders and mental health promotion (ECNP PMD-MHP). European Neuropsychopharmacology: The Journal of the European College of Neuropsychopharmacology, 29(12), 1301–1311. - Gilmore, R. O., Lorenzo Kennedy, J., & Adolph, K. E. (2018). Practical Solutions for Sharing Data and Materials From Psychological Research. Advances in Methods and Practices in Psychological Science, 1(1), 121–130. - Goodman, A., Pepe, A., Blocker, A. W., Borgman, C. L., Cranmer, K., Crosas, M., Di Stefano, R., Gil, Y., Groth, P., Hedstrom, M., Hogg, D. W., Kashyap, V., Mahabal, A., Siemiginowska, A., & Slavkovic, A. (2014). Ten simple rules for the care and feeding of scientific data. PLoS Computational Biology, 10(4), e1003542. ] --- # 引用文献 .small[ - Hanson, K. A., Almeida, N., Traylor, J. I., Rajagopalan, D., & Johnson, J. (2020). Profile of Data Sharing in the Clinical Neurosciences. Cureus, 12(8), e9927. - Hardwicke, T. E., Mathur, M. B., MacDonald, K., Nilsonne, G., Banks, G. C., Kidwell, M. C., Hofelich Mohr, A., Clayton, E., Yoon, E. J., Henry Tessler, M., Lenne, R. L., Altman, S., Long, B., & Frank, M. C. (2018). Data availability, reusability, and analytic reproducibility: evaluating the impact of a mandatory open data policy at the journal Cognition. Royal Society Open Science, 5(8), 180448. - Houtkoop, B. L., Chambers, C., Macleod, M., Bishop, D. V. M., Nichols, T. E., & Wagenmakers, E.-J. (2018). Data Sharing in Psychology: A Survey on Barriers and Preconditions. Advances in Methods and Practices in Psychological Science, 1(1), 70–85. - Kathawalla, U.-K., Silverstein, P., & Syed, M. (2021). Easing into open science: A guide for graduate students and their advisors. Collabra. Psychology, 7(1). https://doi.org/10.1525/collabra.18684 - Levenstein, M. C., & Lyle, J. A. (2018). Data: Sharing Is Caring. Advances in Methods and Practices in Psychological Science, 1(1), 95–103. - Meyer, M. N. (2018). Practical Tips for Ethical Data Sharing. Advances in Methods and Practices in Psychological Science, 1(1), 131–144. - Miyakawa, T. (2020). No raw data, no science: another possible source of the reproducibility crisis. Molecular Brain, 13(1), 24. - 庄司昌彦(2014). オープンデータの定義・目的・最新の課題 智場, 119, 4-15. ] --- # 引用文献 .small[ - Walsh, C. G., Xia, W., Li, M., Denny, J. C., Harris, P. A., & Malin, B. A. (2018). Enabling Open-Science Initiatives in Clinical Psychology and Psychiatry Without Sacrificing Patients’ Privacy: Current Practices and Future Challenges. Advances in Methods and Practices in Psychological Science, 1(1), 104–114. - Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. ]