第20回JANSセミナー
オープンサイエンスの進展と看護学の未来:オープンデータを看護学研究へ
質問1 過去のデータをアーカイブし、利用できるようにすることには倫理的課題があるように思います。研究参加者はその研究の意義を理解してデータを提供してくださっています。その時にこのデータは2次分析にも使用されることを説明をしていなければ、そのデータを2次分析に利用することには倫理的問題があるように思います。 |
回答:この点に関しましては,アーカイブすること(長期保存),データを二次利用することを,まずは分けて考えるべきです。公共の資金を用いておこなった調査データを廃棄することは,現代のアーカイブ,オープンサイエンスの規準からはまったく推奨されるものではありません。
二次利用については,仰るように課題が残ります。理想的には,調査への回答とともに,公開および二次利用まで許諾を得るべきなのは,言うまでもありません。データそのものではなく,さまざまな方法に則って加工した二次データならば公開・二次利用の可能性が拓かれます。どの程度の加工を施すのかが次に問題となり,問題が小さい順に,集計データとしての公開,匿名データとしての公開,生データとしての公開,となるでしょう。二次利用の許諾をそのときどきではとっていないけれども,匿名化された公的統計のミクロデータが利用可能となっているのはひとつのベンチマークであると思います。 ただこれも,どのような状況のもとでおこなわれた調査であるのかも関係します。講演でお話したのは,調査地点が全国規模で,無作為抽出され,数千人が対象となるような,調査主体と対象者の距離が遠いデータを想定しています。これが,特定の病院で,直接に収集した,比較的小人数のデータであれば,匿名化は実質的に困難であり,いっそう公開や二次利用は難しくなると思います。 結局のところ,それぞれの分野ごとにアプローチや規範が異なりますから,その分野にふさわしいデータ公開にかんしてのガイドラインを整備していくことが重要となると思います。調査対象者の個人情報ならびにプライバシーを守ることは当然のことですが,そのうえで,公共財たるデータをいかに社会で共有するかという視点も今後ますます重要になっていくと思います。 |
質問2 インタビューやフィールドワーク(エスノグラフィ)などの質的な研究のデータのオープン化についてはどのようにお考えでしょうか。現在、質的研究のデータについてもデータベースの構築等は行われているのでしょうか。 |
回答:まず,質的データのオープン化(※1)については,学術界を取り巻くオープンサイエンス(※2)の流れの中で,今後,間違いなく進んでいくものと思われます。実際,ここ数年内で,質的データの二次分析に関する学術書の出版も増えている様子がみられます(※3)。
また,現状での質的データのデータベース/アーカイブについて,国内では,広く学術研究によって収集された質的データを保管したり,2次利用のために提供している機関はありません。ただ,近年では,「健康と病の語りのデータ」を扱っているDIPExJAPAN(※4)など,一般的なデータアーカイブとは異なる運営体制や活動範囲のもと,分野,テーマ,データの種類などを限定したりすることで,質的データをオープンにしていく活動が行われております。 海外では,1994年にイギリスで設立されたQualitative Data Archival Resource Centre(通称Qualidata)を皮切りに,2000年代に入ってからは,フィンランドのFinnish Data ServiceやスイスのSwiss Data Serviceなど,ヨーロッパでも質的データのアーカイビングが行われるようになっています。さらに,アジアでは,韓国のKorea Social Science Data Archiveが2010年以降に質的データを取り扱うようになっています(※5)。 (※1)2次利用を見据えて,質的データをアーカイビングしたり共有すること。 |
質問3 質的データの開示は、研究対象者の個人的な背景と密接にかかわる内容も多く含まれます。開示できるようなデータに加工する手続きとして、どのような点に注意が必要かを教えていただきたいです。 |
回答:大変重要なご指摘と存じます。2次利用に供するための質的データの加工(匿名化,画像・音声の処理など)については,データの種類,研究テーマ,データがいつ収集されたか,どのような同意を得ているか,などによっても異なるため,一般化してお答えするのが難しいというのが実情です。実際に,質的データの加工それ自体がひとつの研究テーマとして成立しています(※1)。 このような前置きのうえで,インタビューデータを念頭に置いて簡略化してお答えしますと,データの価値と参加者のプライバシーのバランスを図りつつ,「トランスクリプトの情報をどこまで匿名化するか」を決めていくことになると思われます。その際,特に注意すべき情報としては,たとえば,氏名,場所,宗教的背景,政治的信念,職業,家族関係などが挙げられます。 (※1)たとえば,Saunders, Kitzinger, & Kitzinger (2015) Anonymising interview data: challenges and compromise in practice. |
質問4 質的データの研究結果の信頼性を確保するために、様々な研究者が同じデータを活用して別々に分析し、結果を比較し、より精度の高い結果を導き出した事例がありましたら教えてください。 |
回答:まず,ご質問いただいた内容について,当方で把握できている事例はございません。そのうえで,少し補足をさせていただきます。信頼性(=trustworthiness, rigorousness, validity)の確保や向上を目的とした場合,そもそも質的データの2次分析とみなされない場合があります。たとえば,同じ研究目的のもと,同じ研究チーム内で,別々の研究者による分析結果を比較する方法はトライアンギュレーションとして知られていますが,これは「同じ研究目的」であることから,2次分析ではないとみなされています(※1)。一方で,過去の結果の信頼性を「検証する」ことを目的とするのであれば,2次分析のひとつのパターンとみなされることもあります(※2)。ただ,そもそも過去の質的研究の結果を「検証する」という考え方自体がどこまで妥当かについても,研究者間で様々な見解が存在しています(※3)。 (※1)たとえば,Heaton (2004) Reworking qualitative dataでは,同じような理由から質的メタ分析も2次分析ではないという見解を示しています。 |
第17回JANSセミナー
看護学研究の社会実装:インプリメンテーション研究とデータサイエンスの潮流
データ抽出や分析等研究を進めていく上で有効と思われる電子カルテは、どの業者のものがお勧めでしょうか?
回答:最近はある程度大手であればどの電子カルテベンダーの製品も、DWH(データウェアハウス)機能を備えていますし、電子カルテのデータベース自体から直接抽出することも可能です。DWHは製品オプションの位置づけであれば、施設の予算の関係で導入できていないかもしれません。また、抽出作業を行うスキルがあるスタッフが居るか居ないかも、データ抽出してもらえるかどうかに関わってきます。その他、ベンダーとの契約によりデータ抽出作業の委託も可能ですが、こちらも予算が関係してくるかも知れません。
分析スキルの習得をPythonとRのどちらにしようか迷っています。つきましては、Pythonが第一推奨で、次点推奨がRである理由をお教えいただけましたら幸いでございます。
回答:インターネット上の情報量の多さと今後の発展性から、Pythonを第一推奨にしました。私見としては、機械学習を主にしたい場合(人工知能開発など)はPython、データ分析研究を主としたい場合はRが良いと思います。私は用途に応じてどちらも使っています。