class: center, middle, inverse, title-slide .title[ # オープンデータ・オープンマテリアルの活用と課題 ] .author[ ### 国里愛彦(専修大学)
] .date[ ### 日本テスト学会第20回大会 ] --- ## 再現可能性を高めるには? **3つの再現可能性(Goodman et al., 2016)** 1. **方法の再現可能性** 同じデータ+同じ方法 → 同じ結果 2. **結果の再現可能性** 新規データ+同じ方法 → 同じ結果 3. **推論の再現可能性** 同じ結果 → 同じ結論 → 本発表では,(1)**データのオープン化**と(2)**解析コード・マテリアルのオープン化**を扱う。 --- ### 再現可能性を低める要因: オープンデータの不在 - 「同じデータ + 同じ方法 = 同じ結果」って,当たり前? -- - 生物医学論文の無作為抽出調査(2015-2017年):データの入手可能性を記載していたのは**18.3%**(Wallach et al., 2018) - 心理学論文の無作為抽出調査(2014-2017年):生データを共有していた論文が**2%**,解析コードを共有していた論文が**1%**であった(Hardwicke et al.,2021) → 論文発表時のデータやコードの共有はまだ十分になされておらず,方法の再現可能性を検証することが難しい。 --- ## 再現可能性を高める方法: オープンデータ 1. 方法の再現可能性.med[(発表されたデータ+同じ解析=同じ結果)]を確認するため 2. オープンデータ(**自由に使えるデータ**.small[(庄司, 2014)])を用いた2次分析研究の発展のため.med[(参考:[二次分析研究](https://ykunisato.github.io/ccp-lab-slide/spring_seminar_JSSP_2021/secondary_analysis/slide.html#1)に関するスライド)] - 国内もG8サミット(2013年)からデータのオープン化を推進.med[(第6期科学技術・イノベーション基本計画(2022-26)にもオープンサイエンスが盛り込まれる)] - 「研究データポリシーの策定」が研究機関に求められ,研究不正に対して研究機関として対応するために研究データガバナンスを構築することが必要になってきている.med[(舟守, 2022)] --- # データをオープン化するメリット - 研究公正,データの再利用,リソースの有効活用.med[(Levenstein & Lyle, 2018)] .med[(例 [心理学関連オープンデータリスト](https://docs.google.com/spreadsheets/d/1LMREITla_T3caRrPhGihTEB2U7QDiEn78HH4VBgQ8Rs/edit#gid=0))] - 公開を意識することで研究・論文の質や信頼性が向上.med[(Levenstein & Lyle, 2018)]。PLOSとBMCでは,データリンクがある論文は,引用に基づくインパクトが25.36%増える.med[(Colavizza et al., 2020)] - 公的なリポジトリなら,その後のメンテナンスや問い合わせ対応も不要.med[(Levenstein & Lyle, 2018)] --- # 学術誌のオープンデータ方針 - Cognition誌がオープンデータ方針を導入した前後で,論文内でのデータの利用可能性の記載が増加.med[(Hardwicke et al.,2018)] <img style="float" src="pic/01.jpg" width="420"> - 研究助成団体や学術雑誌からデータ共有を求められることが増えると考えられる。 --- # オープンデータの作り方 - データ共有は面倒&やり方が分からない... .med[(Houtkoop et al., 2018)] - 「データ共有の10のルール.med[(Goodman,2014)]」,「データ共有の4ステップ.med[(Levenstein & Lyle, 2018)]」,「人文学・社会科学におけるデータ共有のための手引き」を参考に,オープンデータの作成過程を5ステップにまとめた。 1. データ共有・公開のための同意取得 2. データの匿名化 3. データとコードブックの準備 4. ライセンスの付与 5. リポジトリでの公開 --- ## 1.データ共有・公開のための同意取得.small[(Meyer, 2018)] - **データ破棄を約束しない**.med[データ破棄を約束すると,データの確認・再利用のために生データが保管できなくなる] - **データ共有しないと約束しない** .med[データ共有しないと約束するとデータ共有ができなくなる] - **データ分析は特定のテーマに限定すると約束しない** .med[目的を明確にしてデータ収集するが,それ以外の目的では使用しないとは言わない] - **☆データの保持と共有に関する同意を得る☆** .med[誰がどんな目的でデータにアクセスするか同意書に記載。できるだけ広範な共有同意をとる.med[(事後に制限可能)]。段階的な共有同意オプションを使う.med[(全共有?一部共有?)]] .med[.red[データ共有の同意をとっていない]場合,共有の制限を約束してない,データが識別不能・センシティブでない,使用目的の制限などで共有できることも(倫理委員会が判断)] --- ## 1.データ共有・公開のための同意取得 **データ共有について説明すべき内容** .med[『人文学・社会科学におけるデータ共有のための手引き』] - データの匿名化の程度 - データの保管場所 - データの二次利用の目的 - データの二次利用申請を認める手続き - データの二次利用の状況を知る手段 - データの二次利用開始後のデータ削除要望への対応 今後,新規に収集するデータは,データ共有について同意を得るのが望ましい。 --- # 2.データの匿名化.small[(Walsh et al.,2018)] - 公開データから個人が特定される可能性のある変数や値を除いてないと,参加者が特定されるかも・・・ → 記録の一部を削除したり,不明瞭にすることで匿名化する - Safe Harborモデルでは,18種類の識別子を削除する(.med[氏名,郵便番号,個人に直接関係する日付の情報,89歳以上は90+とする,社会保障番号,電話番号,FAX番号,車両識別番号,装置識別番号,メールアドレス,URL,IPアドレス・・・) .red[「人を対象とする生命科学・医学研究に関する倫理指針」の個人情報・個人識別符号に対応]] --- # 2.データの匿名化.small[(Walsh et al.,2018)] - **抑制** .med[特定の変数や値を削除する(例. 国内最高齢の方を除外)。抑制しすぎると,研究が遂行できなくなる] - **一般化** .med[特定の値の精度を落とす(例. 年齢を1年から10年区切りに)。抑制組み合わせると最小限の影響で匿名化ができる] - **ノイズの追加** .med[正規分布などを使ってノイズを追加して値の真実性を下げる(例. 日付をランダムに選んだ別の日付に)。要約統計量の値は維持しつつ,特定不能にできる。] - **ニューラルネットの利用** .med[ ニューラルネットに学習をさせて,データを生成させることができる(データの一次関係は保持しつつも元データとは違いものを提供するので,プライバシーの問題は回避できる)敵対的生成ネットワークを適用して,患者の記録をシミュレートする取り組みもある(Choi et al., 2017)。] --- # 3. データとコードブックの準備:FAIR - 共有するデータは,.red[FAIR].med[(Findability, Accessibility, Interoperability, Reusability; Wilkinson et al.,2016)]を満たすようにする。 - **見つけやすく(Findability)** データにはDOIとメタデータ(データの説明)がついていて,メタデータは検索可能なものになっていること。 - **アクセス可能(Accessibility)** データがアクセス可能なリポジトリなどで公開されて,入手可能になっていること(場合によってアクセス権を設定)。 --- # 3. データとコードブックの準備:FAIR - **相互運用可能**(Interoperability) データの表現形式が定まっており,相互運用がしやすくなっていること。 - 例えば,脳画像データの場合はBrain Imaging Data Structure(BIDS),統計解析データの場合はWickham & Grolemund(2016)の整然データ - **再利用可能**(Reusability) 他の研究者が利用できるようにメタデータを用意すること,ライセンスもつけて利用しやすくすること。 --- # 雑然データから整然データへ <img style="float:right" src="pic/09.png" width="500"> - Wickham & Grolemund(2016)の**整然データ**の定義 1. 1つの列が1つの変数を表す 2. 1つの行が1つの観測を表す 3. 1つの表には1つのデータセットのみ --- # 再利用ためにコードブックを用意する - コードブックは,データの内容,構造,レイアウトを記述したもの。データが研究目的に合ったものかの判断がしやすく,再利用時に有用 - 検索エンジン(Google Dataset Search)が読みやすいように作る.med[(Rのcodebookパッケージ(Arslan, 2019)はJSON-LDを出力)] <img style="float" src="pic/02.png" width="600"> --- # 4. ライセンスの付与 - FAIRでも指摘されていたが,オープンデータにはライセンスを付与して,どのような条件で使用可能かを明示する。 → 以下のようなオープンソース由来のライセンスが使えるが,Creative Commonsは利用条件がわかりやすい。 .med[ - CC0 1.0 Universal - CC-By Attribution 4.0 International - MIT License - Apache License 2.0 - BSD 2-Clause “Simplified” License - GNU General Public License (GPL) 3.0 or 2.0 - GNU Lesser General Public License (LGPL) 3.0 or 2.1 ... ] --- .med[**Creative Commons** OSFでデータ共有する場合はCC0 1.0かCC BY 4.0。 CC0 1.0ならクレジットなしで,CC BY 4.0ならクレジットをつければ,個人利用,改変,再配布,商用利用を許可(商標権と特許権は保持される)] <img style="float" src="pic/04.png" width="700"> --- # 5. リポジトリでの公開 - 永続的な識別子(DOI)がつけられるリポジトリでデータを共有する(個人サイトや著者問い合わせは理由がない限りは減らしていけるとよい)。 - 目的にあったタイミング.med[(論文発表前,論文出版時,助成金の期間終了時)]で,目的にあった永続的な識別が可能なリポジトリに登録する --- ### 研究用リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] .small[ - Open Science Framework(https://osf.io) 多種のデータとマテリアルを共有 - figshare(https://figshare.com) グラフ,図,スライドの共有 - Zenodo(https://about.zenodo.org) 研究アウトプットを共有 - GitHub(https://github.com) 研究マテリアル,データ,コードの共有 - Dataverse(https://dataverse.org) 多種のデータとマテリアルを共有(制限可) - Dryad(https://datadryad.org) 論文に関連したデータセットとスクリプトを共有 - Inter-university Consortium for Political and Social Research(https://www.icpsr.umich.edu/web/pages) 社会科学の調査データを共有(制限可) - National Institute of Mental Health Data Archive (https://nda.nih.gov) 精神医学系データの共有(制限可) - Protocols.io(https://www.protocols.io) 研究プロトコルを共有(プライベート共有可) - Databrary(https://nyu.databrary.org) ビデオや音声などを共有(制限可) - OpenNeuro(https://openneuro.org) MRI, MEG, EEG, iEEG, ECoG, ASLデータを共有 - NCBI GEO(https://www.ncbi.nlm.nih.gov/geo/) ゲノムデータを共有 - TalkBank(https://talkbank.org) 音声とビデオとトランスクリプトの共有 - WordBank(http://wordbank.stanford.edu) 子どもの言語発達に関するデータを共有 ] --- ### 方法の再現可能性を低める要因:解析の問題 「同じデータ + 同じ方法 = 同じ結果」って,当たり前? -- - Cognition誌(2009-2016年)でデータ共有している35本の内,同じ解析で同じ結果を再現できたのは,**62%**(著者の助けなく再現できたのは**31%**, Hardwicke et al., 2018)。 - 事前審査付き報告論文62本の内,データと解析コードを入手できたのが**58%**であり,その内の**58%**において元論文の結果が再現された(Obels et al., 2020) - 同じ仮説.small[「移民が市民の社会政策への支持を低下させるか」]&同じデータを,73の研究チーム(162名の研究者)が解析すると,推定値もその結論(**60.7%が仮説棄却,28.5%が仮説支持**)も大きく異なった(Breznau et al.,2021) --- ### 方法の再現可能性を高める:解析のパッケージ化 - データから最終的な結果までが追跡できるようにコードとドキュメントを用意.med[(スタイルガイド,コードへのコメントも)] <img style="float:right" src="pic/05.png" width="800"> --- ### 方法の再現可能性を高める:解析のパッケージ化 - 実行するコードの順番や説明を入れたり,データの場所が分かりやすいようにフォルダを作成(ソフトのパッケージ化を意識した**Research Compendium**.med[(Marwick et al., 2018)]の利用) <img style="float:right" src="pic/06.png" width="700"> --- ### 方法の再現可能性を高める:解析環境のコンテナ化 - 解析環境(OSやソフト)が違うとそもそも実行もできないor結果が再現できないことがある。 <img style="float:right" src="pic/08.png" width="550"> (1)解析環境とバージョン情報を公開する (2)解析環境をひとまとまりにコンテナ化して共有する(Docker) --- ## 結果の再現可能性を高める:マテリアルの共有 - 追試を行う上でマテリアルやプロトコルの共有は不可欠だが,まだ一般的ではない(Hardwicke et al., 2021)。 - マテリアルやプロトコルの共有は,(1)結果の再現可能性を高め,(2)研究にかかる時間的コストを減らし,(3)実施時の誤りも減らす。 - .med[例えば,全般性不安尺度のGAD-7の4択の下限は,「not at all」なのに,2012年くらいから「not at all sure」ってタイポが論文上で出現(Zorowitz et al.,2021)。間違った選択肢の研究が147本ある・・・] --- ## 結果の再現可能性を高める:マテリアルの共有 - 第3者が理解できるように,(1)実験・調査・介入のプロトコル,(2)認知課題の刺激とプログラムコード,(3)質問紙の項目と調査に使用したフォーマットを共有する。 - ライセンス上実行環境も共有できる場合は,コンテナ化して共有する.med[(難しい場合は,コードとソフトのバージョンを公開)]。例.[Experiment Factory .med[(Sochat et al., 2018)]](https://expfactory.github.io/) - 質問紙はライセンス形式が不透明なので,質問紙開発論文では質問項目だけでなく調査フォーマット(コード)も公開し,ライセンスも付与すべき? --- ## [Cognitive & Behavioral Assessment Toolbox](https://cbat.cpsy-lab.com/) <img style="float:right" src="pic/cbat.png" width="550"> - jsPsychやlab.jsで作成された課題・質問紙を共有するリポジトリを準備中 - 共有された課題は,すぐに試してみたり,研究で利用可能 --- ### データ・解析コード・マテリアルのオープン化の課題 - **データ共有の方法がまだ完全には定まってない**ので,研究者が調べながら取り組む必要がある。 - 新しい取り組みに対する**評価**が必要.med[(研究者評価に組み込む,NII Research Data Cloudなどの基盤の上に国内雑誌に採択済みの論文のデータを掲載する心理学の国際誌はどうか?)] - データ・解析コード・マテリアルへの**ライセンス付与**が重要だが,研究者の中にライセンスの理解が根付いていない。 - 研究不正対策・社会的責任のための実施を越えて,**競争から協調への**研究パラダイムのシフトまで進められるのか?「研究のマス化(舟守, 2022)」を見据えられているか? --- # 引用文献 .small[ - Arslan, R. C. (2019). How to Automatically Document Data With the codebook Package to Facilitate Data Reuse. Advances in Methods and Practices in Psychological Science, 2515245919838783. - Breznau, N., Rinke, E. M., Wuttke, A., Adem, M., Adriaans, J., Alvarez-Benjumea, A., Andersen, H. K., Auer, D., Azevedo, F., Bahnsen, O., Balzer, D., Bauer, G., Bauer, P., Baumann, M., Baute, S., Benoit, V., Bernauer, J., Berning, C., Berthold, A., … Nguyen, H. H. V. (2021). Observing many researchers using the same data and hypothesis reveals a hidden universe of uncertainty. In BITSS. https://doi.org/10.31222/osf.io/cd5j9 - Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F., & Sun, J. (2017). Generating Multi-label Discrete Patient Records using Generative Adversarial Networks. In F. Doshi-Velez, J. Fackler, D. Kale, R. Ranganath, B. Wallace, & J. Wiens (Eds.), Proceedings of the 2nd Machine Learning for Healthcare Conference (Vol. 68, pp. 286–305). PMLR. - Colavizza, G., Hrynaszkiewicz, I., Staden, I., Whitaker, K., & McGillivray, B. (2020). The citation advantage of linking publications to research data. PloS One, 15(4), e0230416. - 船守美穂(2022) 大学はオープンサイエンスにどのように向き合うか 科学, 192(8), 703-707. - Gilmore, R. O., Lorenzo Kennedy, J., & Adolph, K. E. (2018). Practical Solutions for Sharing Data and Materials From Psychological Research. Advances in Methods and Practices in Psychological Science, 1(1), 121–130. - Goodman, S. N., Fanelli, D., & Ioannidis, J. P. A. (2016). What does research reproducibility mean? Science Translational Medicine, 8(341), 341ps12. ] --- # 引用文献 .small[ - Goodman, A., Pepe, A., Blocker, A. W., Borgman, C. L., Cranmer, K., Crosas, M., Di Stefano, R., Gil, Y., Groth, P., Hedstrom, M., Hogg, D. W., Kashyap, V., Mahabal, A., Siemiginowska, A., & Slavkovic, A. (2014). Ten simple rules for the care and feeding of scientific data. PLoS Computational Biology, 10(4), e1003542. - Hardwicke, T. E., Mathur, M. B., MacDonald, K., Nilsonne, G., Banks, G. C., Kidwell, M. C., Hofelich Mohr, A., Clayton, E., Yoon, E. J., Henry Tessler, M., Lenne, R. L., Altman, S., Long, B., & Frank, M. C. (2018). Data availability, reusability, and analytic reproducibility: evaluating the impact of a mandatory open data policy at the journal Cognition. Royal Society Open Science, 5(8), 180448. - Hardwicke, T. E., Thibault, R. T., Kosie, J. E., Wallach, J. D., Kidwell, M. C., & Ioannidis, J. P. A. (2021). Estimating the Prevalence of Transparency and Reproducibility-Related Research Practices in Psychology (2014-2017). Perspectives on Psychological Science: A Journal of the Association for Psychological Science, 1745691620979806. - Houtkoop, B. L., Chambers, C., Macleod, M., Bishop, D. V. M., Nichols, T. E., & Wagenmakers, E.-J. (2018). Data Sharing in Psychology: A Survey on Barriers and Preconditions. Advances in Methods and Practices in Psychological Science, 1(1), 70–85. - 人文学・社会科学データインフラストラクチャー構築推進事業(2021). 人文学・社会科学におけるデータ共有のための手引き 独立行政法人日本学術振興会 - Levenstein, M. C., & Lyle, J. A. (2018). Data: Sharing Is Caring. Advances in Methods and Practices in Psychological Science, 1(1), 95–103. - Marwick, B., Boettiger, C., & Mullen, L. (2018). Packaging Data Analytical Work Reproducibly Using R (and Friends). The American Statistician, 72(1), 80–88. - Meyer, M. N. (2018). Practical Tips for Ethical Data Sharing. Advances in Methods and Practices in Psychological Science, 1(1), 131–144. ] --- # 引用文献 .small[ - Obels, P., Lakens, D., Coles, N. A., Gottfried, J., & Green, S. A. (2020). Analysis of Open Data and Computational Reproducibility in Registered Reports in Psychology. Advances in Methods and Practices in Psychological Science, 2515245920918872. - 庄司昌彦(2014). オープンデータの定義・目的・最新の課題 智場, 119, 4-15. - Sochat, V. (2018). The Experiment Factory: Reproducible Experiment Containers. The Journal of Open Source Software, 3(22), 521. - Wallach, J. D., Boyack, K. W., & Ioannidis, J. P. A. (2018). Reproducible research practices, transparency, and open access data in the biomedical literature, 2015-2017. PLoS Biology, 16(11), e2006930. - Walsh, C. G., Xia, W., Li, M., Denny, J. C., Harris, P. A., & Malin, B. A. (2018). Enabling Open-Science Initiatives in Clinical Psychology and Psychiatry Without Sacrificing Patients’ Privacy: Current Practices and Future Challenges. Advances in Methods and Practices in Psychological Science, 1(1), 104–114. - Wickham, H., & Grolemund, G. (2016). R for Data Science: Import, Tidy, Transform, Visualize, and Model Data. O’Reilly Media, Inc. - Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. - Zorowitz, S., Bennett, D., Choe, G., & Niv, Y. (2021). A recurring reproduction error in the administration of the Generalized Anxiety Disorder scale. The Lancet. Psychiatry, 8(3), 180–181. ]