class: center, middle, inverse, title-slide # データ・解析コード・マテリアルをどのようにオープンにすればよいのか? ### 国里愛彦(専修大学) ### 日本教育心理学会第63回総会(2021年8月21-30日) --- # 再現性の危機 <img style="float:right" src="pic/07.png" width="250"> - 1576名の研究者への調査.med[(Baker, 2016, Nature)]で,90%が再現性の危機があると回答.med[(52%が重大な危機,38%が軽い危機)] - 100本の心理学研究を追試したところ,元の研究は97%が有意な効果なのに,追試は有意な効果が36%だけ.med[(Open Science Collaboration, 2015)] → 心理学の再現可能性を高めないと! --- # 3つの再現可能性(Goodman et al., 2016) 1. **方法の再現可能性** 同じデータ+同じ方法 → 同じ結果 2. **結果の再現可能性** 新規データ+同じ方法 → 同じ結果 3. **推論の再現可能性** 同じ結果 → 同じ結論 → 本発表は,主に**方法の再現可能性**に焦点をあてる → 方法の再現可能性について,(1)**データのオープン化**と(2)**解析コード・マテリアルのオープン化**という観点から問題点の整理と解決策提示 --- ### 再現可能性を低める要因: オープンデータの不在 - 「同じデータ + 同じ方法 = 同じ結果」って,当たり前? -- - 生物医学論文の無作為抽出調査(2015-2017年):データの入手可能性を記載していたのは**18.3%**(Wallach et al., 2018) - 心理学論文の無作為抽出調査(2014-2017年):生データを共有していた論文が**2%**,解析コードを共有していた論文が**1%**であった(Hardwicke et al.,2021) → 論文発表時のデータやコードの共有はまだ十分になされておらず,方法の再現可能性を検証することが難しい。 --- ## 再現可能性を高める方法: オープンデータ 1. 方法の再現可能性.med[(発表されたデータ+同じ解析=同じ結果)]を確認するため 2. オープンデータ(**自由に使えるデータ**.small[(庄司, 2014)])を用いた2次分析研究の発展のため - 国内もG8サミット(2013年)からデータのオープン化を推進。国立情報学研究所のResearch Data Cloudなどの整備が進む - [心理学関連オープンデータリスト](https://docs.google.com/spreadsheets/d/1LMREITla_T3caRrPhGihTEB2U7QDiEn78HH4VBgQ8Rs/edit#gid=0).small[(国里と有志の方がまとめたもの)] --- # データをオープン化するメリット - 研究公正,データの再利用,リソースの有効活用.med[(Levenstein & Lyle, 2018)] - 公開を意識することで研究・論文の質や信頼性が向上.med[(Levenstein & Lyle, 2018)]。PLOSとBMCでは,データリンクがある論文は,引用に基づくインパクトが25.36%増える.med[(Colavizza et al., 2020)] - 公的なリポジトリなら,その後のメンテナンスや問い合わせ対応も不要.med[(Levenstein & Lyle, 2018)] --- # 学術誌のオープンデータ方針 - Cognition誌がオープンデータ方針を導入した前後で,論文内でのデータの利用可能性の記載が増加.med[(Hardwicke et al.,2018)] <img style="float" src="pic/01.jpg" width="420"> - 研究助成団体や学術雑誌からデータ共有を求められることが増えると考えられる。 --- # オープンデータの作り方 - データ共有は,面倒に感じたり,やり方が分からない・・・.med[(Houtkoop et al., 2018)] - 「データ共有の10のルール.med[(Goodman,2014)]」や「データ共有の4ステップ.med[(Levenstein & Lyle, 2018)]」を参考に,オープンデータの作成過程を5ステップにまとめた。 1. データ共有・公開のための同意取得 2. データの匿名化 3. データとコードブックの準備 4. ライセンスの付与 5. リポジトリでの公開 --- ## 1.データ共有・公開のための同意取得.small[(Meyer, 2018)] - **データ破棄を約束しない**.med[データ破棄を約束すると,データの確認・再利用のために生データが保管できなくなる] - **データ共有しないと約束しない** .med[データ共有しないと約束するとデータ共有ができなくなる] - **データ分析は特定のテーマに限定すると約束しない** .med[目的を明確にしてデータ収集するが,それ以外の目的では使用しないとは言わない] - **☆データの保持と共有に関する同意を得る☆** .med[誰がどんな目的でデータにアクセスするか同意書に記載。できるだけ広範な共有同意をとる.med[(事後に制限可能)]。段階的な共有同意オプションを使う.med[(全共有?一部共有?)]] .med[.red[データ共有の同意をとっていない]場合,共有の制限を約束してない,データが識別不能でありセンシティブでない,使用目的の制限などで共有できることも] --- # 2.データの匿名化.small[(Walsh et al.,2018)] - 公開データから個人が特定される可能性のある変数や値を除いてないと,参加者が特定されるかも・・・ → 記録の一部を削除したり,不明瞭にすることで匿名化する - Safe Harborモデルでは,18種類の識別子を削除する(.med[氏名,郵便番号,個人に直接関係する日付の情報,89歳以上は90+とする,社会保障番号,電話番号,FAX番号,車両識別番号,装置識別番号,メールアドレス,URL,IPアドレス・・・) .red[「人を対象とする生命科学・医学研究に関する倫理指針」の個人情報・個人識別符号に対応]] --- # 2.データの匿名化.small[(Walsh et al.,2018)] - **抑制** .med[特定の変数や値を削除する(例. 国内最高齢の方を除外)。抑制しすぎると,研究が遂行できなくなる] - **一般化** .med[特定の値の精度を落とす(例. 年齢を1年から10年区切りに)。抑制組み合わせると最小限の影響で匿名化ができる] - **ノイズの追加** .med[正規分布などを使ってノイズを追加して値の真実性を下げる(例. 日付をランダムに選んだ別の日付に)。要約統計量の値は維持しつつ,特定不能にできる。] - **ニューラルネットの利用** .med[ ニューラルネットに学習をさせて,データを生成させることができる(データの一次関係は保持しつつも元データとは違いものを提供するので,プライバシーの問題は回避できる)敵対的生成ネットワークを適用して,患者の記録をシミュレートする取り組みもある(Choi et al., 2017)。] --- # 3. データとコードブックの準備:FAIR - 共有するデータは,.red[FAIR].med[(Findability, Accessibility, Interoperability, Reusability; Wilkinson et al.,2016)]を満たすようにする。 - **見つけやすく(Findability)** データにはDOIとメタデータ(データの説明)がついていて,メタデータは検索可能なものになっていること。 - **アクセス可能(Accessibility)** データがアクセス可能なリポジトリなどで公開されて,入手可能になっていること(場合によってアクセス権を設定)。 --- # 3. データとコードブックの準備:FAIR - **相互運用可能**(Interoperability) データの表現形式が定まっており,相互運用がしやすくなっていること。 - 例えば,脳画像データの場合はBrain Imaging Data Structure(BIDS),統計解析データの場合はWickham & Grolemund(2016)の整然データ - **再利用可能**(Reusability) 他の研究者が利用できるようにメタデータを用意すること,ライセンスもつけて利用しやすくすること。 --- # 雑然データから整然データへ <img style="float:right" src="pic/09.png" width="500"> - Wickham & Grolemund(2016)の**整然データ**の定義 1. 1つの列が1つの変数を表す 2. 1つの行が1つの観測を表す 3. 1つの表には1つのデータセットのみ --- # 再利用ためにコードブックを用意する - コードブックは,データの内容,構造,レイアウトを記述したもの。データが研究目的に合ったものかの判断がしやすく,再利用時に有用 - 検索エンジン(Google Dataset Search)が読みやすいように作る.med[(Rのcodebookパッケージ(Arslan, 2019)はJSON-LDを出力)] <img style="float" src="pic/02.png" width="600"> --- # 4. ライセンスの付与 - FAIRでも指摘されていたが,オープンデータにはライセンスを付与して,どのような条件で使用可能かを明示する。 → 以下のようなオープンソース由来のライセンスが使えるが,Creative Commonsが利用条件がわかりやすい。 .med[ - CC0 1.0 Universal - CC-By Attribution 4.0 International - MIT License - Apache License 2.0 - BSD 2-Clause “Simplified” License - GNU General Public License (GPL) 3.0 or 2.0 - GNU Lesser General Public License (LGPL) 3.0 or 2.1 ... ] --- .med[**Creative Commons** OSFでデータ共有する場合はCC0 1.0かCC BY 4.0。 CC0 1.0ならクレジットなしで,CC BY 4.0ならクレジットをつければ,個人利用,改変,再配布,商用利用を許可(商標権と特許権は保持される)] <img style="float" src="pic/04.png" width="700"> --- # 5. リポジトリでの公開 - 永続的な識別子(DOI)がつけられるリポジトリでデータを共有する(個人サイトや著者問い合わせは理由がない限りは減らしていけるとよい)。 - 目的にあったタイミング.med[(論文発表前,論文出版時,助成金の期間終了時)]で,目的に合った永続的な識別が可能なリポジトリに登録する --- ### 研究用リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] .small[ - Open Science Framework(https://osf.io) 多種のデータとマテリアルを共有 - figshare(https://figshare.com) グラフ,図,スライドの共有 - Zenodo(https://about.zenodo.org) 研究アウトプットを共有 - GitHub(https://github.com) 研究マテリアル,データ,コードの共有 - Dataverse(https://dataverse.org) 多種のデータとマテリアルを共有(制限可) - Dryad(https://datadryad.org) 論文に関連したデータセットとスクリプトを共有 - Inter-university Consortium for Political and Social Research(https://www.icpsr.umich.edu/web/pages) 社会科学の調査データを共有(制限可) - National Institute of Mental Health Data Archive (https://nda.nih.gov) 精神医学系データの共有(制限可) - Protocols.io(https://www.protocols.io) 研究プロトコルを共有(プライベート共有可) - Databrary(https://nyu.databrary.org) ビデオや音声などを共有(制限可) - OpenNeuro(https://openneuro.org) MRI, MEG, EEG, iEEG, ECoG, ASLデータを共有 - NCBI GEO(https://www.ncbi.nlm.nih.gov/geo/) ゲノムデータを共有 - TalkBank(https://talkbank.org) 音声とビデオとトランスクリプトの共有 - WordBank(http://wordbank.stanford.edu) 子どもの言語発達に関するデータを共有 ] --- ### 方法の再現可能性を低める要因:解析の問題 「同じデータ + 同じ方法 = 同じ結果」って,当たり前? -- - Cognition誌(2009-2016年)でデータ共有している35本の内,同じ解析で同じ結果を再現できたのは,**62%**(著者の助けなく再現できたのは**31%**, Hardwicke et al., 2018)。 - 事前審査付き報告論文62本の内,データと解析コードを入手できたのが**58%**であり,その内の**58%**において元論文の結果が再現された(Obels et al., 2020) - 同じ仮説.small[「移民が市民の社会政策への支持を低下させるか」]&同じデータを,73の研究チーム(162名の研究者)が解析すると,推定値もその結論(**60.7%が仮説棄却,28.5%が仮説支持**)も大きく異なった(Breznau et al.,2021) --- ### 方法の再現可能性を高める:解析のパッケージ化 - データから最終的な結果までが追跡できるようにコードとドキュメントを用意.med[(スタイルガイド,コードへのコメントも)] <img style="float:right" src="pic/05.png" width="800"> --- ### 方法の再現可能性を高める:解析のパッケージ化 - 実行するコードの順番や説明を入れたり,データの場所が分かりやすいようにフォルダを作成(ソフトのパッケージ化を意識した**Research Compendium**.med[(Marwick et al., 2018)]の利用) <img style="float:right" src="pic/06.png" width="900"> --- ### 方法の再現可能性を高める:解析環境のコンテナ化 - 解析環境(OSやソフト)が違うとそもそも実行もできないor結果が再現できないことがある。 <img style="float:right" src="pic/08.png" width="550"> (1)解析環境とバージョン情報を公開する (2)解析環境をひとまとまりにコンテナ化して共有する(Docker) --- ## 結果の再現可能性を高める:マテリアルの共有 - 追試を行う上でマテリアルやプロトコルの共有は不可欠だが,まだ一般的ではない(Hardwicke et al., 2021)。 - マテリアルやプロトコルの共有は,(1)結果の再現可能性を高め,(2)研究にかかる時間的コストを減らし,(3)実施時の誤りも減らす。 - .med[例えば,全般性不安尺度のGAD-7の4択の下限は,「not at all」なのに,2012年くらいから「not at all sure」ってタイポが論文上で出現(Zorowitz et al.,2021)。間違った選択肢の研究が147本ある・・・] --- ## 結果の再現可能性を高める:マテリアルの共有 - 第3者が理解できるように,(1)実験・調査・介入のプロトコル,(2)認知課題の刺激とプログラムコード,(3)質問紙の項目と調査に使用したフォーマットを共有する。 - ライセンス上実行環境も共有できる場合は,コンテナ化して共有する.med[(難しい場合は,コードとソフトのバージョンを公開)]。例.[Experiment Factory .med[(Sochat et al., 2018)]](https://expfactory.github.io/) - 質問紙はライセンス形式が不透明なので,質問紙開発論文時に質問項目だけでなく調査フォーマット(コード)も公開し,ライセンスも付与すべき? --- ### データ・解析コード・マテリアルをどのようにオープンにすればよいのか? - データ共有は,プライバシーの保護に留意しつつ,データ収集前から計画し,第3者の利用可能性を最大限高める。 - マテリアルやプロトコルの共有も第3者の利用可能性に留意する。 - 研究者個人の心構えだけでなく,学術団体が主導して,データ・コード・マテリアルの共有に取り組む必要がある。 --- # 引用文献 .small[ - Arslan, R. C. (2019). How to Automatically Document Data With the codebook Package to Facilitate Data Reuse. Advances in Methods and Practices in Psychological Science, 2515245919838783. - Baker, M. (2016). 1,500 scientists lift the lid on reproducibility. Nature, 533(7604), 452–454. - Breznau, N., Rinke, E. M., Wuttke, A., Adem, M., Adriaans, J., Alvarez-Benjumea, A., Andersen, H. K., Auer, D., Azevedo, F., Bahnsen, O., Balzer, D., Bauer, G., Bauer, P., Baumann, M., Baute, S., Benoit, V., Bernauer, J., Berning, C., Berthold, A., … Nguyen, H. H. V. (2021). Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty. In BITSS. https://doi.org/10.31222/osf.io/cd5j9 - Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F., & Sun, J. (2017). Generating Multi-label Discrete Patient Records using Generative Adversarial Networks. In F. Doshi-Velez, J. Fackler, D. Kale, R. Ranganath, B. Wallace, & J. Wiens (Eds.), Proceedings of the 2nd Machine Learning for Healthcare Conference (Vol. 68, pp. 286–305). PMLR. - Colavizza, G., Hrynaszkiewicz, I., Staden, I., Whitaker, K., & McGillivray, B. (2020). The citation advantage of linking publications to research data. PloS One, 15(4), e0230416. - Gilmore, R. O., Lorenzo Kennedy, J., & Adolph, K. E. (2018). Practical Solutions for Sharing Data and Materials From Psychological Research. Advances in Methods and Practices in Psychological Science, 1(1), 121–130. ] --- # 引用文献 .small[ - Goodman, A., Pepe, A., Blocker, A. W., Borgman, C. L., Cranmer, K., Crosas, M., Di Stefano, R., Gil, Y., Groth, P., Hedstrom, M., Hogg, D. W., Kashyap, V., Mahabal, A., Siemiginowska, A., & Slavkovic, A. (2014). Ten simple rules for the care and feeding of scientific data. PLoS Computational Biology, 10(4), e1003542. - Goodman, S. N., Fanelli, D., & Ioannidis, J. P. A. (2016). What does research reproducibility mean? Science Translational Medicine, 8(341), 341ps12. - Hardwicke, T. E., Mathur, M. B., MacDonald, K., Nilsonne, G., Banks, G. C., Kidwell, M. C., Hofelich Mohr, A., Clayton, E., Yoon, E. J., Henry Tessler, M., Lenne, R. L., Altman, S., Long, B., & Frank, M. C. (2018). Data availability, reusability, and analytic reproducibility: evaluating the impact of a mandatory open data policy at the journal Cognition. Royal Society Open Science, 5(8), 180448. - Hardwicke, T. E., Thibault, R. T., Kosie, J. E., Wallach, J. D., Kidwell, M. C., & Ioannidis, J. P. A. (2021). Estimating the Prevalence of Transparency and Reproducibility-Related Research Practices in Psychology (2014-2017). Perspectives on Psychological Science: A Journal of the Association for Psychological Science, 1745691620979806. - Houtkoop, B. L., Chambers, C., Macleod, M., Bishop, D. V. M., Nichols, T. E., & Wagenmakers, E.-J. (2018). Data Sharing in Psychology: A Survey on Barriers and Preconditions. Advances in Methods and Practices in Psychological Science, 1(1), 70–85. - Levenstein, M. C., & Lyle, J. A. (2018). Data: Sharing Is Caring. Advances in Methods and Practices in Psychological Science, 1(1), 95–103. ] --- # 引用文献 .small[ - Meyer, M. N. (2018). Practical Tips for Ethical Data Sharing. Advances in Methods and Practices in Psychological Science, 1(1), 131–144. - Obels, P., Lakens, D., Coles, N. A., Gottfried, J., & Green, S. A. (2020). Analysis of Open Data and Computational Reproducibility in Registered Reports in Psychology. Advances in Methods and Practices in Psychological Science, 2515245920918872. - Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251), aac4716. - 庄司昌彦(2014). オープンデータの定義・目的・最新の課題 智場, 119, 4-15. - Sochat, V. (2018). The Experiment Factory: Reproducible Experiment Containers. The Journal of Open Source Software, 3(22), 521. - Wallach, J. D., Boyack, K. W., & Ioannidis, J. P. A. (2018). Reproducible research practices, transparency, and open access data in the biomedical literature, 2015-2017. PLoS Biology, 16(11), e2006930. - Walsh, C. G., Xia, W., Li, M., Denny, J. C., Harris, P. A., & Malin, B. A. (2018). Enabling Open-Science Initiatives in Clinical Psychology and Psychiatry Without Sacrificing Patients’ Privacy: Current Practices and Future Challenges. Advances in Methods and Practices in Psychological Science, 1(1), 104–114. - Wickham, H., & Grolemund, G. (2016). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media, Inc. ] --- # 引用文献 .small[ - Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. - Zorowitz, S., Bennett, D., Choe, G., & Niv, Y. (2021). A recurring reproduction error in the administration of the Generalized Anxiety Disorder scale. The Lancet. Psychiatry, 8(3), 180–181. ]