class: center, middle, inverse, title-slide # オープンデータの作り方 ## .small2[完璧なオープンデータなどといったものは存在しない。完璧な絶望が存在しないようにね] ### 専修大学 国里愛彦 ### 2021年4月8日 --- # オープンデータとは? - オープンデータとは,**「自由に使えるデータ」**.med[(庄司, 2014)] →どのようなライセンスの下でデータが公開されているのかが重要になる。 - 科学技術政策として,2013年のG8サミットから論文とデータのオープン化が推進されている(日本学術会議,2020)。 .small[ - 国立情報学研究所のNII Research Data Cloudなどの整備が進んでいる(データ管理基盤のGakuNin RDMは2021/2/15に運用開始,データ公開基盤の次期JAIRO Cloud(WEKO3)は現在移行中) - 心理学は上記の学術会議の提言に入っておらず,社会科学に大学共同利用機関法人が無いので包括的なデータ・アーカイブがないという問題もある。] --- # 本日扱うオープンデータとは? - オープンデータについて論じる際に,政府・自治体もしくは企業が公開したデータを指していることも多い.med[(大規模なデータが多いが,データの質の問題や関心にあったデータではないことも多い)] - 本発表は,研究者が自身の研究で収集したデータを公開するという場合のオープンデータを扱う .med[※ちなみに中国語だとOpenを「解放」と訳すらしい。再利用も含めて考えた時に,公開よりも解放のほうがニュアンスが近いかもしれない] --- # オープンデータはどこに? - [心理学関連オープンデータリスト](https://docs.google.com/spreadsheets/d/1LMREITla_T3caRrPhGihTEB2U7QDiEn78HH4VBgQ8Rs/edit#gid=0).small[(国里と有志の方がまとめたもの)] - Open Science Framework (https://osf.io/) - Elsevier DataSearch (https://datasearch.elsevier.com) - Google Dataset Search (https://datasetsearch.research.google.com/) - DataCite Search (https://search.datacite.org/) - Data Citation Index (Web of Scienceの一部で有料) --- # オープンデータの増加 - Hardwicke et al.(2018)は,Cognition誌がオープンデータ方針を導入した前後で,論文内でのデータの利用可能性の記載の変化を回帰不連続デザインで検討。明らかに増加。 - 研究助成団体や学術雑誌からオープンデータを求められることが増えており,今後さらに増加すると予想される。 <img style="float" src="pic/01.jpg" width="420"> --- # データをオープンにして科学を回す - データ中心科学においては,**研究成果=データ生成**という側面があり,**研究することがデータのサプライチェーン(三浦, 2018)を回すこと**になる。 - データのオープン化は,**研究公正**,オープンデータ単体or他のデータセットを組み合わせることでの**新たな研究知見の発見**,**研究資源の有効活用**を促す.med[(Levenstein & Lyle, 2018)] - データ共有はまだ一般的でなく,面倒に感じたり,どうやればよいのか分からないという意見も多いが.med[(Houtkoop et al., 2018)],研究データを公開し,データ提供者にもなることが科学の循環において重要 --- # データをオープン化するメリット - データ公開を意識することで**研究と論文の質が向上**し,発表論文の信頼性が向上する.med[(Levenstein & Lyle, 2018)] - データをオープンにした論文は**インパクトが増える**。 → Colavizza et al.(2020)は,PLOSとBMCで出版された論文を調査し,データへのリンクがある論文(PLOSは20.8%, BMCは12.2%)は,そうでない論文に比べて,25.36%引用に基づくインパクトが高いことを示した。 --- # データをオープン化するメリット - 公的なリポジトリにデータをおけばその後の**メンテナンスや問い合わせ対応も不要**になる.med[(Levenstein & Lyle, 2018)] → データをオープンにすることを意識して研究を行ったり,ワークフローを作ることができれば,データのオープン化にかかる負担は小さくなる。 - データ共有が一般化するには,**インセンティブの用意**(公開データに査読論文と同等の価値を置く,研究者評価で使用する),**学術誌によるデータ共有の義務化**などが必要になる.med[(Levenstein & Lyle, 2018)] --- # 国立研究開発法人のデータポリシー - 国研は,公的資金を用いて行った研究データの管理と公開に向けて,データポリシーの策定を行っている .med[(2020年度末までに策定。詳細は[リンク](https://www8.cao.go.jp/cstp/stsonota/datapolicy/datapolicy.html)参照)]。 - **「国立研究開発法人におけるデータポリシー策定のためのガイドライン」**では,FAIR原則を満たすようなメタデータやDOIをつけた上でのデータ公開,研究データ管理.med[(RDM:research data management)]を行う人材育成などにも触れている。 → 科学技術政策という観点からもデータ公開に追い風がきている。 --- # データ共有の4ステップ.small[(Levenstein & Lyle, 2018)] 1. **計画** .med[(オープンデータをどのように扱うのかまで計画する)] 2. **標準化** .med[(二次利用可能なようにデータを準備する)] 3. **記述** .med[(コードブックなどでデータの説明をする。なぜ,誰が,いつ,どこで,どのようにデータを収集したのか説明する)] 4. **記録** .med[(永続性をもった適切なリポジトリで公開する)] - データ共有の**難易度は中程度**.med[(Kathawalla et al., 2021)]:データ共有のための同意,データの整理,プライバシーを保護したデータ共有の準備などが必要となる --- # データ共有の10のルール.small[(Goodman, 2014)] .med[ - (1)自分のデータを愛し,他人にも愛してもらえるようにする - (2)永続的な識別をつけて,オンラインでデータを共有する - (3)再利用を念頭において科学を行う - (4)ワークフローを共有する - (5)できるだけ頻繁に論文とデータをリンクさせる - (6)コードを公開する - (7)どのようなクレジットを得たいのか述べる - (8)データリポジトリの構築もしくは利用する - (9)データを適切に共有した同僚に報酬を用意する - (10)データサイエンスのブースターになる ] --- # データ共有の10のルール.small[(Goodman, 2014)] - **心構え**: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる - **リポジトリ**: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用 - **FAIR**: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する - **ライセンス**: (7)どのようなクレジットを得たいのか述べる - **プライバシー保護** --- # データ共有の10のルール.small[(Goodman, 2014)] - .red[心構え: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる] - **リポジトリ**: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用 - **FAIR**: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する - **ライセンス**: (7)どのようなクレジットを得たいのか述べる - **プライバシー保護** --- ### データ共有の10のルール<心構え>.small[(Goodman, 2014)] - 1.**自分のデータを愛し,他人にも愛してもらえるようにする** - 9.**データを適切に共有した同僚に報酬を用意する**.med[(データやコードを共有することが報われるようにする)] - 10.**データサイエンスのブースターになる**.med[(データとコード共有が蓄積されることは,大きな科学的価値になる)] →かわいいデータをみんなに見てもらうために,どんどんデータ共有しよう! --- # データ共有の10のルール.small[(Goodman, 2014)] - **心構え**: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる - .red[リポジトリ: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用] - **FAIR**: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する - **ライセンス**: (7)どのようなクレジットを得たいのか述べる - **プライバシー** --- ### データ共有の10のルール<リポジトリ>.small[(Goodman, 2014)] - 2.**永続的な識別をつけて,オンラインでデータを共有する** .med[(個人のウェブサイトではなく,DOIなどの永続的な識別子が用意できる長期的な保管が可能なデータリポジトリにデータを公開する)] - 5.**できるだけ頻繁に論文とデータをリンクさせる**.med[(論文掲載後にデータ共有するのではなく,データ共有をしてから,論文投稿することもできる。その場合は,DOIがついたデータが引用できるので,頻繁にリンクをさせると良い。ただ,雑誌がこれを許可してないこともある)] - 8.**データリポジトリの構築と利用**.med[(研究領域に標準的なリポジトリがあるのなら利用する)] .small[注: 2021年3月10日にフランスの欧州最大のデータセンターで火災が発生しデータが一部消えた。ローカルにもバックアップをおいておく必要がある] --- # データ共有リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Open Science Framework(https://osf.io/dashboard) .med[多種のデータとマテリアルを共有。プレレジやプレプリント機能もある。] - figshare(https://figshare.com) .med[グラフ,図,スライドの共有] - Zenodo(https://about.zenodo.org) .med[研究アウトプットを共有] - GitHub(https://github.com) .med[研究マテリアル,データ,コードの共有。ZenodoかOSFと連携させてDOIもとれる] - Dataverse(https://dataverse.org) .med[多種のデータとマテリアルを共有(一般・制限可能)] - Dryad(https://datadryad.org) .med[論文に関連したデータセットとスクリプトを共有] --- # データ共有リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Protocols.io(https://www.protocols.io) .med[研究プロトコルを共有(プライベート共有可)] - Inter-university Consortium for Political and Social Research(https://www.icpsr.umich.edu/web/pages) .med[社会科学に関する調査の個票データを共有(制限可能)] - National Institute of Mental Health Data Archive (https://nda.nih.gov) .med[精神医学系データの共有(制限可能)] --- # データ共有リポジトリ.small2[(Gilmore et al., 2018を基に一部改変)] - Databrary(https://nyu.databrary.org) .med[認証された研究者がビデオや音声などを共有(制限可能)] - OpenNeuro(https://openneuro.org) .med[MRI, MEG, EEG, iEEG, ECoG, ASLデータを共有] - TalkBank(https://talkbank.org) .med[音声とビデオとトランスクリプトの共有] - WordBank(http://wordbank.stanford.edu) .med[子どもの言語発達に関するデータを共有] --- # データ公開のタイミング - 論文出版時 - リポジトリに預けてから3年以内(例.OpenNeuroの場合) - 助成金の期間終了時(例.Human Connectome Project) - 論文発表前にデータを公表して,論文内で引用するというやり方もある そのデータの後に縦断データをとる予定がある,チームとして複数論文を出版する予定があるなど,状況によって公開のタイミングを考える .med[(Gilmore et al., 2018)] --- # データ共有の10のルール.small[(Goodman, 2014)] - **心構え**: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる - **リポジトリ**: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用 - .red[FAIR: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する] - **ライセンス**: (7)どのようなクレジットを得たいのか述べる - **プライバシー保護** --- ### データ共有の10のルール <FAIR> .small[(Goodman, 2014)] - 3.**再利用を念頭において科学を行う**.med[(1.データ,2.データを説明するメタデータ,3.コードなどのデータの生成過程に関する情報がすべて提供されていればデータが再利用可能)] - 4.**ワークフローを共有する** .med[(処理ステップを共有することで,データの解釈や再利用に必要な文脈を提供できる。Rmarkdownなどを用いてデータから論文までがつながった状態にできると良い)] - 6.**コードを公開する**.med[(コードが共有されるとデータから最終的な論文の結果の再現が可能になる。そして,使用するソフトはオープンソースを用いて,読者が追跡がしやすいようにする。.med[SPSSはもちろん,MATLABも実に困ります・・・])] →FAIRを満たすデータと解析コードの共有が必要 --- # FAIR - オープンデータは,.red[FAIR].med[(Findability, Accessibility, Interoperability, Reusability; Wilkinson et al.,2016)]を満たす,**見つけやすく,アクセス可能で,相互運用可能で,再利用可能**なものが良い。 → 心理学ではFAIRなデータは少ない - [理由]心理学ではデータ管理や共有のトレーニングを受けることがなくその専門家を雇うこともないこと,データ共有にかかる時間はキャリアにおいて無駄になると考える傾向があること.med[(Arslan, 2019)] --- # FAIRの15個の原則 .med[(NBDC研究チーム(訳),2019)] ### To be Findable:(見つけられるために) .med[ - F1. (メタ)データが、グローバルに一意で永続的な識別子(ID)を有すること。 - F2. データがメタデータによって十分に記述されていること。 - F3. (メタ)データが検索可能なリソースとして、登録もしくはインデックス化されていること。 - F4. メタデータが、データの識別子(ID)を明記していること。 ] →**DOIとメタデータ(データの説明)が必要**。**メタデータは検索可能**なものになっている必要がある。 --- # FAIRの15個の原則 .med[(NBDC研究チーム(訳),2019)] ### To be Accessible:(アクセスできるために) .med[ - A1. 標準化された通信プロトコルを使って、(メタ)データを識別子(ID)により入手できること。 - A1.1 そのプロトコルは公開されており、無料で、実装に制限が無いこと。 - A1.2 そのプロトコルは必要な場合は、認証や権限付与の方法を提供できること。 - A2. データが利用不可能となったとしても、メタデータにはアクセスできること。 ] →データが**リポジトリなどで公開**されて,入手可能になっていること(場合によってアクセス権を設定)。 --- # FAIRの15個の原則 .med[(NBDC研究チーム(訳),2019)] ### To be Interoperable:(相互運用できるために) .med[ - I1. (メタ)データの知識表現のため、形式が定まっていて、到達可能であり、共有されていて、広く適用可能な記述言語を使うこと。 - I2. (メタ)データがFAIR原則に従う語彙を使っていること。 - I3. (メタ)データは、他の(メタ)データへの特定可能な参照情報を含んでいること。 ] →神経科学だとBrain Imaging Data Structure(BIDS)という形式が広まっている。心理学で使うデータセットの場合,Wickham(2014)が提唱する**整然データ**かつ**ロング形式**のデータが良い。 --- # FAIRの15個の原則 .med[(NBDC研究チーム(訳),2019)] ### To be Re-usable:(再利用できるために) .med[ - R1. メタ(データ)が、正確な関連属性を豊富に持つこと。 - R1.1 (メタ)データが、明確でアクセス可能なデータ利用ライセンスと共に公開されていること。 - R1.2 (メタ)データが、その来歴と繋がっていること。 - R1.3 (メタ)データが、分野ごとのコミュニティの標準を満たすこと。 ] →メタデータを豊富にして,**どういうデータ**で,**どのように使える**のかライセンスをつける。 --- # コードブックとは? - コードブックとは,**データの内容,構造,レイアウトを記述**したもの(ICPSR)。 - Rのcodebookパッケージ(Arslan, 2019)は,他の人が理解しやすいコードブックを作れる(解説は付録,[demo](https://ykunisato.github.io/ccp-lab-slide/open_data/codebook_demo.html))。 <img style="float" src="pic/02.png" width="700"> --- # 機械も読みやすくする.med[(Arslan, 2019)] - コードブックは,人間だけなく**検索エンジン(Google Dataset Search)も読みやすいように**作られる必要がある。 .med[→ codebookパッケージでデータセットを文書化すると,生成されたHTMLファイルの中には、JSON-LD(JavaScript Object Notation for Linked Data)ブロックが含まれる。これで,Googleなどの検索エンジンにひっかかるようになる。] <img style="float" src="pic/03.png" width="650"> --- # コードブック作成の3ステップ.med[(Arslan, 2019)] - **ステップ1**:データ収集中からコードブックを作って前処理の雛形を作りつつメタデータを整理 - **ステップ2**:データ収集後にコードブックとメタデータ付きデータセットを作り,その後,解析を実施して論文で報告 - **ステップ3**:メタデータ付きデータセットと解析スクリプトをリポジトリで公開し,コードブックはnetlifyなどで公開.med[(JSON形式メタデータが読み込めるリポジトリならデータと一緒でも良い)] → コードブックによってデータが研究目的に合ったものかの判断がしやすい。構造化できているならば,自動的にメタ分析を行うことも将来的は可能に・・・ --- # データ共有の10のルール.small[(Goodman, 2014)] - **心構え**: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる - **リポジトリ**: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用 - **FAIR**: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する - .red[ライセンス: (7)どのようなクレジットを得たいのか述べる] - **プライバシー保護** --- ### データ共有の10のルール<ライセンス>.small[(Goodman, 2014)] - 7.**どのようなクレジットを得たいのか述べる**.med[(データについて,どのようなクレジットを希望するのかを明示する。ライセンスに基づいて公開することもできる)] --- # オープンデータのライセンス オープンソース由来のライセンスが使えるが(以下はOSFで利用可能なもの),OA誌でも使用されている**Creative Commons**が利用条件がはっきりしていてわかりやすい。 .med[ - CC0 1.0 Universal - CC-By Attribution 4.0 International - MIT License - Apache License 2.0 - BSD 2-Clause “Simplified” License - BSD 3-Clause “New”/”Revised” License - GNU General Public License (GPL) 3.0 or 2.0 - Artistic License 2.0 - Eclipse Public License 1.0 - GNU Lesser General Public License (LGPL) 3.0 or 2.1 ] --- .med[**Creative Commons**: OSFでデータ共有する場合はCC0 1.0かCC BY 4.0。 CC0 1.0ならクレジットなしで,CC BY 4.0ならクレジットをつければ,個人利用,改変,再配布,商用利用を許可(商標権と特許権は保持される)] <img style="float" src="pic/04.png" width="680"> --- # データ共有の10のルール.small[(Goodman, 2014)] - **心構え**: (1)自分のデータを愛し,他人にも愛してもらえるようにする, (9)データを適切に共有した同僚に報酬を用意する, (10)データサイエンスのブースターになる - **リポジトリ**: (2)永続的な識別をつけて,オンラインでデータを共有する, (5)できるだけ頻繁に論文とデータをリンクさせる, (8)データリポジトリの構築と利用 - **FAIR**: (3)再利用を念頭において科学を行う,(4)ワークフローを共有する, (6)コードを公開する - **ライセンス**: (7)どのようなクレジットを得たいのか述べる - .red[プライバシー保護] --- # プライバシー保護 - データ共有にあたっては,その地域の個人情報保護の法律も理解しておく必要がある.med[(Kathawalla et al., 2021)] →データ共有時のプライバシー保護について.med[(Walsh et al.,2018)] - データ共有にあたり同意が必要なので,データ収集の段階から議論が必要である.med[(Kathawalla et al., 2021)] →データ共有の同意の取得方法を説明.med[(Meyer, 2018)] →センシティブなデータの共有.med[(Gilmore et al., 2018)] --- # プライバシー保護 - データ共有にあたっては,その地域の個人情報保護の法律も理解しておく必要がある.med[(Kathawalla et al., 2021)] **→データ共有時のプライバシー保護について.med[(Walsh et al.,2018)]** - データ共有にあたり同意が必要なので,データ収集の段階から議論が必要である.med[(Kathawalla et al., 2021)] →データ共有の同意の取得方法を説明.med[(Meyer, 2018)] →センシティブなデータの共有.med[(Gilmore et al., 2018)] --- # 個人が特定されるリスク.med[(Walsh et al.,2018)] - 公開データから個人が特定される可能性のある変数や値を除いてないと,研究参加者が特定されるかも。 - 公開データだけでは特定できなくても,その研究に参加していることがわかれば,個人が特定できるかも。 - 個人が特定できなくても,特定の研究にある人が参加していることが分かれば,その個人がどのような属性をもつのか(例.特定の精神障害の研究など)が明らかになるかも。 →**いかにして個人特定(再識別化)を回避するか?** --- # 再識別化を防ぐ方法.med[(Walsh et al.,2018)] 1. **データを共有する者と使用契約を結ぶ**(データを受けた取った者は,データに含まれている個人に連絡しない。匿名化されたデータから個人を特定しない)。 1. **データの匿名化**(個人情報の削除,構造化された臨床データ,構造化されていない臨床データ) --- # データの匿名化.med[(Walsh et al.,2018)] - 記録の一部を削除したり,不明瞭にすることで匿名化する(**Safe Harborモデル**) - Safe Harborでは,18種類の識別子を削除する(.med[氏名,郵便番号,個人に直接関係する日付の情報,89歳以上は90+とする,社会保障番号,電話番号,FAX番号,車両識別番号,装置識別番号,メールアドレス,URL,IPアドレス,健康保険プラン受益者番号,医療記録番号,口座番号,生体認証識別子,顔写真,他の個人を識別できる番号) ] - .med[.red[「人を対象とする生命科学・医学研究に関する倫理指針」の個人情報・個人識別符号に対応]] - Safe Harborは研究によっては適用できない.med[(例.89歳以上の年齢が関心の場合など)]。専門家が特定のリスクが非常に小さいと判断した場合はデータにいれることもある。 --- ### 研究で収集されたデータや構造化された臨床データの匿名化.med[(Walsh et al.,2018)] 研究データや構造化された臨床データ.med[(電子カルテの自由記述欄以外やレセプトなど)]は,抑制・一般化・ノイズ追加で匿名化できる。 - **抑制**: 特定の変数や値を削除する.med[(例. 国内最高齢の方を除外)]。抑制しすぎると,研究が遂行できなくなる。 - **一般化**: 特定の値の精度を落とす.med[(例. 年齢を1年から10年区切りに)]。抑制と組み合わせると最小限の影響で匿名化可能。 - **ノイズの追加**: 正規分布などを使ってノイズを追加して値の真実性を下げる.med[(例. 日付をランダムに選んだ別の日付に)]。要約統計量の値は維持しつつ,特定不能にできる。 --- ### 研究で収集されたデータや構造化された臨床データの匿名化.med[(Walsh et al.,2018)] - 抑制・一般化・ノイズ追加は古典的な手法になり,最近は,**深層ニューラルネット**を使う方法もある。 - ニューラルネットに学習をさせて,データを生成させることができる.med[(データの一次関係は保持しつつも元データとは違いものを提供するので,プライバシーの問題は回避できる)] - **敵対的生成ネットワーク**を適用して,患者の記録をシミュレートする取り組みもある(Choi et al., 2017)。 →今後は,深層ニューラルネットを用いたデータ生成も増えるかもしれない。 --- ### 非構造化臨床データの匿名化.med[(Walsh et al.,2018)] - 電子カルテの自由記述は自然言語で書かれており,構造化されていない。非構造化臨床データは豊富なデータを提供するが,匿名化が難しい。 - 患者の精神状態などの関心のある臨床情報を削除することなく,患者を特定できる情報(日付,氏名など)を除外することが必要になる。 - 方法としては,**ルールに基づくもの**と**AIに基づくもの**がある。どちらもテキストに含まれる用語から識別子(個人情報)と非識別子に区別する分類器を設計するところから始まる。 --- ### 非構造化臨床データの匿名化.med[(Walsh et al.,2018)] - 評価には,**回収率**(真陽性/(真陽性+偽陰性)と**精度**(真陽性/(真陽性+偽陽性)を使う。 - 回収率が高いほど,偽陰性は低くなり,見逃しが減る。高回収率ほど開示リスクは低い。 - 精度が高いほど,偽陽性が低くなり,誤検出が減る。高精度ほどデータは有用なことが多い(必要なものが残っている)。 → **高回収率,高精度,低コスト**を満たす方法を用いる。 --- ### 非構造化臨床データの匿名化.med[(Walsh et al.,2018)] - **ルールベース**:パターンマッチングと変換すべき単語の辞書を組み合わせて行う。特定の状況下では上手くいく,計算コストも低い,ただ一般化可能な方法ではない。 - **AIベース**:機械学習の方法(決定木,文法パーサー,深層学習)を駆使して,識別子の学習をする。1000件の精神科インテークのコーパスを用いたコンペでは,複数の機械学習手法を組み合わせたアンサンブルアプローチが最も 性能が良かった(Stubbs et al., 2017)。 --- # Data Enclaveによるプライバシー保護 - Data Enclaveという方法の場合,研究者はデータのダウンロードはできないが,そのバーチャルネットワーク上でデータを用いた解析ができる。持ち出せるのは,その解析結果だけであり,個別のデータについては,持ち出せないように工夫されている(Levenstein, 2018)。 [リンク](https://www.icpsr.umich.edu/web/pages/ICPSR/access/restricted/enclave.html) --- # プライバシー保護 - データ共有にあたっては,その地域の個人情報保護の法律も理解しておく必要がある.med[(Kathawalla et al., 2021)] →データ共有時のプライバシー保護について.med[(Walsh et al.,2018)] - データ共有にあたり同意が必要なので,データ収集の段階から議論が必要である.med[(Kathawalla et al., 2021)] **→データ共有の同意の取得方法を説明.med[(Meyer, 2018)]** →センシティブなデータの共有.med[(Gilmore et al., 2018)] --- # データ共有の同意の取得 .med[(Meyer, 2018)] データ共有をする場合は,同意の取得方法も工夫する必要がある。以下で紹介するMeyer(2018)は,そのまま全て実行できるわけでなく,所属組織のIRBや国内法を考慮する必要がある。 - **データ破棄を約束しない** .med[IRBから要求されることもあるが,科学においてデータは破棄されるべきでない。厳重に保管されることが前提であるが,将来のデータの再検討に備えて,生データが保管できるように同意書を作る。] - **データ共有しないと約束しない** .med[同意書内でデータ共有しないことを約束するとデータ共有ができなくなる。] --- # データ共有の同意の取得 .med[(Meyer, 2018)] - **収集したデータの分析は特定のテーマに限定するという約束をしない** .med[この約束をすると二次分析ができなくなる。元論文の著者は目的を明確にしてデータ収取するが,それ以外の目的で使用しないとは言わない。] - **データの保持と共有に関する同意を得る** .med[データ共有を研究計画,倫理申請,同意書に組み込む。どういう人がデータにアクセスできるのか参加者に知らせる。データの再利用の目的についても明確に書く(方法の再現性の確認?別の目的の分析?)。できるだけ広範なデータ共有の同意をとる(もし収集したデータが配慮が必要なものだった場合には,それに制限を加えればよい)。データ共有についての段階的な同意オプションを使うことも出来る(データの全てを共有する?データの一部を共有する?今回の目的の再現性の確認だけで用いる?など)。] --- # データ共有の同意の取得 .med[(Meyer, 2018)] - **データ保持と共有に関する内容をIRBのテンプレートに組み込む**:.med[IRBのテンプレートをデータ共有を前提としたものに変更し,それに向けた準備などを問うようにすると良い(共有しないのも認められる)。研究参加者がしっかりリスクを理解した上で(同意理解クイズを出す),同意したのであれば,ゲノムデータのような個人が識別可能なデータも公開することはできる(ただ,その国の法律によって変わる)]。 --- **共有の同意を取らずに収集されたデータの共有 .med[(Meyer, 2018)]** - 明示的にデータ共有の同意をとってないデータの共有は,研究ごとに判断する。以下の条件を満たすほど共有可能。 .med[ - 同意書でデータ共有に触れておらず,データ共有しないと約束してない - データがセンシティブなものではない(再識別されても参加者に重大な損害を与える可能性が低い) - データが再識別できないものか,再識別される可能性が高くない(再識別する動機が低い,データ単独or他のデータセットと組み合わせても再識別される可能性が低い) - 再識別を禁止する契約によって保護された条件でのみ共有データにアクセスできる - 同意書に記載された研究の範囲内に二次研究の目的が限定されている - 研究参加者が反対しないと思われる二次研究の目的に限定されている ] --- ### 公開投稿データの共有.med[(Meyer, 2018)] - TwitterやFacebookの公開投稿は,プライベートなものではないので,分析してデータ共有することは可能 - データを集約したり注目をすることで,ユーザーの特定の投稿に注目が集まり,意図しない個人の特定につながる可能性がある。また,ユーザーが投稿を削除しても,公開データには残ってしまう可能性がある。 - 閉鎖的なコミュニティのデータは扱いに注意が必要.med[(例. 出会い系サイト「OkCupid.com」の6万8000人のデータをスクレイピングして,データ公開した研究がある。データ公開によって,非常にセンシティブな情報がそのサイトに参加していない人にも見えるようになっており,後に問題になり削除されている)] --- # プライバシー保護 - データ共有にあたっては,その地域の個人情報保護の法律も理解しておく必要がある.med[(Kathawalla et al., 2021)] →データ共有時のプライバシー保護について.med[(Walsh et al.,2018)] - データ共有にあたり同意が必要なので,データ収集の段階から議論が必要である.med[(Kathawalla et al., 2021)] →データ共有の同意の取得方法を説明.med[(Meyer, 2018)] **→センシティブなデータの共有.med[(Gilmore et al., 2018)]** --- ### センシティブなデータを共有する .med[(Gilmore et al., 2018)] - Databraryは,**個人が識別可能な情報(ビデオ録画)**も共有できるサービスを提供している。 - ビデオは情報が豊かであり,研究手続きの記録としても優れているが,匿名化は他のデータより難しい.med[(顔のモザイクや音声の加工のような操作は,表情やプロソディ研究の支障となる)] - 以下の2つの方法を採用して,ビデの共有をしている 1. **データへのアクセスは,所属機関から明確な承認と倫理的な監督を受けている研究者に限定する** 2. **個人を特定できるデータを共有する際には,研究参加者(または保護者)の許可を得ることを義務づける** --- # 機関合意によるアクセスの制限 - Databraryでは**研究機関との契約**によって,研究者が自分のデータを共有すること,他者のデータや資料を利用すること,共有された情報を複数の目的で利用することを認めている.med[(研究者個人とは契約していない。研究機関は契約に従って研究者に倫理教育の提供などを行う)] - Databraryの契約はいくつかのステップを経る必要があるので面倒な部分もあるが,これによってセンシティブなデータが扱えるようになっている。 →**倫理トレーニングを行った研究機関と承認された研究者が用いるので,プライバシーリスクを低く抑えられる** --- ### センシティブなデータの共有同意 .med[(Gilmore et al., 2018)] - 参加者から明示的な許可を得て,その許可のレベルもDatabrary上で表示。データ共有に関する同意の方法としては,以下の3つがある .med[ - モデル1:研究参加の同意とデータ共有の許可は別のものと考える。データ共有の同意は,1つの研究プロトコル内の別の文章として記録される(研究プロトコルが同じ)。 - モデル2:データ共有の許可は,複数のプロジェクトの中の全く別の研究プロトコルの一部である(プロトコルが別)。 - モデル3:研究参加の同意とデータ共有の許可が1つの包括的な同意文書に統合されている。 ] →モデル3をとるとデータ共有をOKしないと,研究参加ができないので,Databraryでは1か2を推奨。 --- ### センシティブなデータの共有同意 .med[(Gilmore et al., 2018)] - Databraryは共有許可の求め方と記録の仕方を標準化 - Databraryの動画や写真の公開チェックリストでは曖昧になりがちな公開リスクのレベルに対応するデータ共有の公開レベルを設定.med[(未公開,非公開,承認された専門家ユーザーのみ公開,一般公開)] - [共有同意のとり方ビデオ](https://databrary.org/support/irb/examples.html) - [共有同意のトランスクリプト](https://databrary.org/support/irb/script.html) --- # まとめ - **心構え** データを公開して科学に貢献しよう! - **リポジトリ** DOIなどの永続的な識別子が用意できる長期保管可能なリポジトリにデータ公開しよう! - **FAIR** 見つけやすく,アクセス可能で,相互運用可能で,再利用可能なデータを解析コードとともに公開しよう! - **ライセンス** データに対してどのようなクレジットを希望するのかをライセンスに基づいて明示しよう! - **プライバシー** オープンデータは匿名化をしっかりして,データ共有の同意もしっかりとろう! --- # 引用文献 .small[ - Arslan, R. C. (2019). How to Automatically Document Data With the codebook Package to Facilitate Data Reuse. Advances in Methods and Practices in Psychological Science, 2515245919838783. - Choi, E., Biswal, S., Malin, B., Duke, J., Stewart, W. F., & Sun, J. (2017). Generating Multi-label Discrete Patient Records using Generative Adversarial Networks. In F. Doshi-Velez, J. Fackler, D. Kale, R. Ranganath, B. Wallace, & J. Wiens (Eds.), Proceedings of the 2nd Machine Learning for Healthcare Conference (Vol. 68, pp. 286–305). PMLR. - Colavizza, G., Hrynaszkiewicz, I., Staden, I., Whitaker, K., & McGillivray, B. (2020). The citation advantage of linking publications to research data. PloS One, 15(4), e0230416. - FORCE11: THE FAIR DATA PRINCIPLES (2016). https://www.force11.org/group/fairgroup/fairprinciples, NBDC研究チーム(訳), "FAIR原則(「THE FAIR DATA PRINCIPLES」和訳)" (2019). https://doi.org/10.18908/a.2019112601 - Gilmore, R. O., Lorenzo Kennedy, J., & Adolph, K. E. (2018). Practical Solutions for Sharing Data and Materials From Psychological Research. Advances in Methods and Practices in Psychological Science, 1(1), 121–130. - Goodman, A., Pepe, A., Blocker, A. W., Borgman, C. L., Cranmer, K., Crosas, M., Di Stefano, R., Gil, Y., Groth, P., Hedstrom, M., Hogg, D. W., Kashyap, V., Mahabal, A., Siemiginowska, A., & Slavkovic, A. (2014). Ten simple rules for the care and feeding of scientific data. PLoS Computational Biology, 10(4), e1003542. ] --- # 引用文献 .small[ - Hardwicke, T. E., Mathur, M. B., MacDonald, K., Nilsonne, G., Banks, G. C., Kidwell, M. C., Hofelich Mohr, A., Clayton, E., Yoon, E. J., Henry Tessler, M., Lenne, R. L., Altman, S., Long, B., & Frank, M. C. (2018). Data availability, reusability, and analytic reproducibility: evaluating the impact of a mandatory open data policy at the journal Cognition. Royal Society Open Science, 5(8), 180448. - Houtkoop, B. L., Chambers, C., Macleod, M., Bishop, D. V. M., Nichols, T. E., & Wagenmakers, E.-J. (2018). Data Sharing in Psychology: A Survey on Barriers and Preconditions. Advances in Methods and Practices in Psychological Science, 1(1), 70–85. - Kathawalla, U.-K., Silverstein, P., & Syed, M. (2021). Easing into open science: A guide for graduate students and their advisors. Collabra. Psychology, 7(1). https://doi.org/10.1525/collabra.18684 - Levenstein, M. C., & Lyle, J. A. (2018). Data: Sharing Is Caring. Advances in Methods and Practices in Psychological Science, 1(1), 95–103. - Meyer, M. N. (2018). Practical Tips for Ethical Data Sharing. Advances in Methods and Practices in Psychological Science, 1(1), 131–144. - オープンサイエンスの深化と推進に関する検討委員会 (2020). オープンサイエンスの深化と推進に向けて 日本学術会議 - Stubbs, A., Filannino, M., & Uzuner, Ö. (2017). De-identification of psychiatric intake records: Overview of 2016 CEGS N-GRID shared tasks Track 1. Journal of Biomedical Informatics, 75S, S4–S18. ] --- # 引用文献 .small[ - Wilkinson, M. D., Dumontier, M., Aalbersberg, I. J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.-W., da Silva Santos, L. B., Bourne, P. E., Bouwman, J., Brookes, A. J., Clark, T., Crosas, M., Dillo, I., Dumon, O., Edmunds, S., Evelo, C. T., Finkers, R., … Mons, B. (2016). The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data, 3(1), 160018. - Walsh, C. G., Xia, W., Li, M., Denny, J. C., Harris, P. A., & Malin, B. A. (2018). Enabling Open-Science Initiatives in Clinical Psychology and Psychiatry Without Sacrificing Patients’ Privacy: Current Practices and Future Challenges. Advances in Methods and Practices in Psychological Science, 1(1), 104–114. ] --- # 付録:codebookパッケージでコードブックを作成する - Arslan(2019)のcodebookがRでは便利 - codebookで作ったコードブックの例: https://rubenarslan.github.io/codebook_gallery/ - 以下のウェブアプリで,コードブックを作ることもできる(SPSSとStataユーザー用)。 https://opencpu.psych.bio.uni-goettingen.de/ocpu/library/codebook/www/ --- # codebookの作成 - codebook用のR Markdownを新規作成する ``` library(codebook) codebook::new_codebook_rmd() ``` - R Markdownのcodebook_dataを自分のデータに変更(以下ではrioを使ってOSFのデータを読み込んでいる。rioパッケージ便利) ``` codebook_data <- rio::import("https://osf.io/s87kd/download", "csv") ``` --- ### メタデータの追加:変数ラベルの追加 - labelledパッケージで変数ラベルをつけられる。 ``` library(labelled) var_label(codebook_data$C5) <- "Waste my time." ``` - 変数の辞書データを読み込んで,一気に変更できる。 ``` dict <- rio::import("https://osf.io/cs678/download", "csv") library(dplyr) var_label(codebook_data) <- dict %>% select(variable, label) %>% dict_to_list() ``` --- ### メタデータの追加:値のラベルの追加 val_labels()を使って,値のラベルを付けられる(性別や教育に付与された数字のラベルを説明できる)。 ``` val_labels(codebook_data$gender) <- c("male"= 1, "female"= 2) val_labels(codebook_data$education) <- c("in high school"= 1, "finished high school"= 2,"some college"= 3, "college graduate"= 4,"graduate degree"= 5) ``` --- ### メタデータの追加:値ラベルの追加 .med[Likert項目の場合,全てが同じ値ラベルなことも。その場合,以下のように関数を作って,適用する項目のリストを抽出し,変数のリストと関数を受け取って返す,murate_at関数を使って一気に処理] ``` add_likert_labels <- function(x){ val_labels(x) <- c("Very Inaccurate"= 1, "Moderately Inaccurate"= 2, "Slightly Inaccurate"= 3, "Slightly Accurate"= 4, "Moderately Accurate"= 5,"Very Accurate"= 6) x } likert_items <- dict %>% filter(Big6 != "") %>% pull(variable) codebook_data <- codebook_data %>% mutate_at(likert_items, add_likert_labels) ``` --- ### スケールの追加(逆転項目含む) .med[aggregate_and_document_scale()を使うと項目を集計した得点を変数に追加できる。ただ,逆転項目があることも多い。dic内で-1として逆転項目が記録がされていたので,それをつかって,rename_at(reversed_items, add_R)で,逆転項目の変数名にRを追加する。] ``` reversed_items <- dic %>% filter (Keying == -1) %>% pull(variable) codebook_data <- codebook_data %>% rename_at(reversed_items, add_R) ``` --- ### スケールの追加(逆転項目含む) .med[mutate_at(vars(matches("\\dR$")),reverse_labelled_values)で,Rがついたものについて,値を逆転させる。最後に,aggregate_and_document_scale()で,合計点を出す。] ``` codebook_data <- codebook_data %>% mutate_at(vars(matches("\\dR$")),reverse_labelled_values) codebook_data$extraversion <- codebook_data %>% select(E1R:E5) %>% aggregate_and_document_scale() ``` --- ### データセット全体のメタデータの追加 .med[データセットについての説明を追加する場合,RMarkdownに書いただけでは機械で読めるメタデータの一部にならない。metadata()を使って,メタデータを追加する] ``` metadata(codebook_data)$name <- "25 Personality items representing 5 factors" metadata(codebook_data)$description <- "25 personality self report items taken from the International Personality Item Pool (ipip.ori.org)" metadata(codebook_data)$creator <- "William Revelle" metadata(codebook_data)$citation <- "Revelle, W., Wilt, J., & Rosenthal, A. (2010). Individual differences in cognition: New methods for examining the personality-cognition link. In A. Gruszka, G. Matthews, & B. Szymura (Eds.), Handbook of individual differences in cognition: Attention, memory, and executive control (pp. 27–49). New York, NY: Springer." metadata(codebook_data)$url <- "https://CRAN.R-project.org/package=psych" metadata(codebook_data)$datePublished <- "2010-01-01" metadata(codebook_data)$temporalCoverage <- "Spring 2010" metadata(codebook_data)$spatialCoverage <- "Online" ``` --- ### メタデータ付きデータのエクスポートと共有 Rds形式も良いが,SPSSやStataでもデータを共有すると親切かもしれない(ただ,codebookで生成したSPSSとStataファイルは確認が必要らしい)。 ``` rio::export(codebook_data, "bfi.rds") #SPSS rio::export(codebook_data, "bfi.sav") # Stata rio::export(codebook_data, "bfi.dta") ``` --- ### コードブックの公開 - 出力されたHTMLを共有すれば,コードブックの共有はできるが,これだと検索可能ではない。 - HTMLファイルをindex.htmlなどに名前を変えて,netlify.comなどでHTMLを公開することで検索に引っかかるようにできる(Github pageを使うのもありかな)。 - データをOSFにアップロードして,それにコードブックのリンクをつけておくと,検索に引っかかるようになるらしい。