データ解析におけるプライバシー保護 (機械学習プロフェッショナルシリーズ)
- 講談社 (2016年8月25日発売)


- Amazon.co.jp ・本 (240ページ)
- / ISBN・EAN: 9784061529199
作品紹介・あらすじ
このわかりやすさ、もう手放せない!
・「仮名化/匿名化」「差分プライバシー」「秘密計算」の3つの主要技術を扱う。
・統計学・データ工学・暗号理論の観点から丁寧に解説。
・データ解析実務者も必読。
【機械学習プロフェッショナルシリーズ】
本シリーズでは、発展著しい機械学習技術の数学的な基礎理論、実用的なアルゴリズム、それらの活用法を、全30巻にわたって刊行する。
ビッグデータ時代を牽引している若手・中堅の現役研究者が、入門的な内容から最先端の研究成果までをわかりやすく解説。
これからデータサイエンス分野で研究を始めようとしている大学生・大学院生、および、機械学習技術を基礎科学や産業に応用しようとしている研究者・技術者に向けた注目のシリーズである。
第5期として、以下の3点を刊行!
バンディット問題の理論とアルゴリズム 本多 淳也/中村 篤祥・著
ウェブデータの機械学習 ダヌシカ ボレガラ/岡崎 直観/前原 貴憲・著
データ解析におけるプライバシー保護 佐久間 淳・著
第6期の刊行は2016年12月、第7期の刊行は2017年4月の予定。
【シリーズ編者】
杉山 将 東京大学大学院新領域創成科学研究科 教授
感想・レビュー・書評
-
2022年に社内の勉強会で読了しました。
2016年初版なので内容は少し古いですが、プライバシ保護技術が網羅的に紹介されていて外観を掴むのに丁度よい本だと思いました。
※最近流行りのゼロ知識証明の応用には、ふれられていませんが、「データ解析における」となると、ちょっと文脈も違うかな。
調査のとっかかりとしては、参考文献がしっかりしている点は良いですが、各用語の英語表記が書かれていると親切かなぁと思いました。
データ分析の実務者向けという点では、もう少し各技術の課題や限界を書いてしまっても良いのではと思いました。…もう、共同利用でいいじゃん、って気持ちになっちゃうかもしれないけど…。
詳細をみるコメント0件をすべて表示 -
第 4 章 パーソナルデータ提供のリスクと有用性 ······· 35
4.1 データ提供のプロセス ······································· 35
1.データ提供者は個人からデータを収集する(パーソナルデータ)
2.データ提供者は、収集したデータをプライバシーが保護されるよう加工し、これ を提供用のパーソナルデータとしてデータ利用者に提供する
3.データ利用者は提供用のパーソナルデータを入手しデータ解析を行う
・データの解析目的がデータ利用者によってあらかじめ決められている場合には、データ提供者の側でデータ解析を実施し、そのデータ解析結果を利用者に提供した方が、データそのものを提供するよりも、プライバシー保護の観点から問題が少ないと言える。
・ただし、P37の1〜6の様なケースは例外。
4.1.1 データ提供における自明なリスクと非自明なリスク················ 37
・自明なリスク:連絡、直接被害
・非自明なリスク:特定、連結、属性推定
4.1.2 データ提供において想定する攻撃者··························· 37
・提供用のパーソナルデータに含まれる個別の人物がその人物やデータ提供者の意図に反して特定されることは、プライバシー上の問題。
・データ解析におけるプライバシー上のリスクは、攻撃者が持つ計算能力、背景知識及び攻撃アルゴリズムに依存し、これらを定義する攻撃者モデルがプライバシー上のリスクを議論する上で重要となる。
・攻撃者モデルのシンプルな例はP38参照。
・https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r02/html/nd134520.html
4.2 個人属性データ提供に伴う特定と連結··························· 38
4.2.1 個人属性データにおける特定と連結··························· 39
・P20の表3.1参照
・このデータでは、マイナンバーが直接識別情報。これらを提供した場合には、データ単体から直ちに特定が起こる。
・データ提供者は(医療保険会社)は、直接識別情報=マイナンバー、氏名及び住所の丁目を取り除いた表4.1(P40参照)をデータ利用者(物販会社)に提供したと仮定。
・物販会社は医療保険会社から得たデータに含まれる個人を特定しようとする攻撃者として振る舞うものとし、具体的には、医療保険データと自身の外部情報(ユーザマスタ)を1件ずつ照合し、表4.1をもとの個人属性データ表3.1の状態に戻すことを試みるものとする。
・こうした行為は、個人情報保護法で定めるところの匿名加工情報で禁止されている。
・https://www.mhlw.go.jp/stf/seisakunitsuite/bunya/kenkou_iryou/iryouhoken/reseputo/index.html
4.2.2 個人属性データにおける特定を経ない連結 ······················ 41
・連結は必ずしも特定を必要としない。
・個人属性データにおける特定を経ない連結がプライバシーの侵害に当たるかどうかは議論の分かれるところ。
・サードパーティクッキーを通じた異なるドメイン間の閲覧情報の連結は、本章で議論した特定を経ない連結と類似した操作。
・プライバシーの保護とパーソナルデータの活用をバランスさセル技術や精度は重要な課題。
・https://www.coverage.com/insurance/status-update-your-social-media-activity-could-affect-your-insurance-rates-more/
https://www2.deloitte.com/content/dam/Deloitte/lu/Documents/strategy/insurance-social-media.pdf
4.3 履歴データ提供に伴う特定と連結 ······························ 42
・実例
https://www.maff.go.jp/j/budget/yosan_kansi/sikkou/tokutei_keihi/seika_R2/ippan/attach/pdf/R2_ippan-205.pdf
4.4 データ提供に伴う特定のリスク評価: k 匿名性····················· 43
・パーソナルデータの提供においては、個人属性データであっても履歴データであっても、単に直接識別情報を削除しただけでは、必ずしも特定や連結が防げるとは限らない。
・特定や連結を防ぐためには、これらが発生するリスクを定量評価し、そのリスクが許容範囲まで低下するようにデータそのものを加工する必要がある。
・k匿名性は、間接識別情報を外部情報としてもつ攻撃者による特定と連結のリスクの上限を評価する事ができる。
・k匿名性の定義:
Dをn人の個人から集めたレコードの集合とする。Dに含まれる間接識別情報の値の組み合わせの集合をAとする。全てのx^QI∈Aについて、x^QIを含むレコードがDに少なくともk個存在するならば、Dはk匿名性をもつ。
・攻撃者が間接識別情報に関する外部情報を用いて特定を試みるときに、提供用のパーソナルデータがk匿名性をもつならば、特定の候補となる人物が少なくともk人存在し、k人未満には絞り込めないことが保証される。
https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/r02/html/nd133430.html
https://www.ppc.go.jp/personalinfo/tokumeikakouInfo/
https://www.jstage.jst.go.jp/article/jami/33/3/33_127/_pdf
4.5 データ提供に伴う特定のリスク評価: 標本一意性と母集団一意性 ······ 45
・母集団:解析対象とする個人全員についてのレコードの集合
・標本:母集団から一部のデータを一様ランダムに選び出し、これを調査対象とする場合の、そのレコード集合
・標本調査:標本を対象とし、母集団の統計的性質を調査する方法
・標本一意:レコードの間接識別情報の組み合わせが、標本である提供データ全体
に渡って唯一である状態
・母集団一意:レコードの間接識別情報の組み合わせが、提供データがどのような標本であるかにかかわらず、母集団全体にわたって唯一である状態
・母集団一意であるレコードは必ず標本一意だが、標本一意であるからといって必ずしも母集団一意であるとは限らない
・https://www.ism.ac.jp/editsec/toukei/pdf/51-2-223.pdf
4.5.1 母集団一意であるレコード数の推定··························· 47
・データ提供者が母集団を保持しており、そこから無作為抽出によって標本を抽出し提供する場合には、提供データに含まれる母集団一意なレコード数をそのまま特定リスクの評価値として用いる事ができる。
・しかし、データ提供者がそもそも標本しか収集していない場合には、母集団一意なレコードの数を知ることはできない。
・母集団に関する完全な情報がなく、標本しか得られない場合には、母集団一意性は統計的に推定し、これを特定リスクの評価値として利用できる。
・推定の為の式は、P47〜49参照。
4.5.2 母集団一意かつ標本一意であるレコード数の推定 ················· 49
・標本からなる提供データにおいて、母集団一意なレコード数を特定のリスク評価として用いる場合、提供データから標本一意かつ母集団一意なレコード数を推定し、特定リスクを評価する。
・提供データにおいて、あるレコードが標本一意であるが母集団一意ではないならば、特定のリスクは無いものとみなす。
・ポアソンガンマモデルにおける、標本一位かつ母集団一意なレコード数の推定方法の式はP49〜50参照。
4.6 個人属性データ提供に伴う属性推定 ···························· 50
・提供用のパーソナルデータの中のレコードが特定された場合、その個人に関する(攻撃者にとって未知の)属性値が確定的に攻撃者に知られることとなるため、属性推定も同時に起こったと言える。
・特定のリスクを低減する事によって属性推定のリスクも同時に低減する事が可能だが、特定が起こっていないにも関わらず、個人の推定値が確定的に攻撃者に知られるリスクがある。
・特定を伴わない確定的な属性推定は、同一の間接識別情報を共有するレコード同士(k匿名性をもつ場合はそのようなレコードは少なくともk個存在する事が保証される)において、要配慮情報が全て同じ値をとっていたために起こる。
・逆に言えば、このようなレコード同士において、要配慮情報が多様な値をとっていれば、この様な属性推定のリスクは低減できる。
・k匿名性をもつデータの、間接識別情報の属性値の組み合わせが同じであるレコードについて、その要配慮情報の属性値のバリエーションが少なくともℓ(1<ℓ<=k)存在しているならば、これをℓ多様性と呼ぶ。
・ℓ多様性の定義:
Dをn人の個人から集めたk匿名性をもつレコードの集合とする。Dに含まれる間接識別情報の値の組み合わせの集合をAとする。全てのx^QI∈Aについて、x^QIを含むレコードの要配慮情報のバリエーションが、少なくともℓ個以上ならば、Dはℓ多様性を持つ。
・k匿名性を満足するデータベースにおける属性推定のリスクを評価する量として、ℓ多様性のℓの値を利用する事ができる。
・ℓ多様性のバリエーションについてはP50参照。
https://atmarkit.itmedia.co.jp/ait/articles/1503/24/news010_2.html
https://tech-blog.rakus.co.jp/entry/20190926/kamisen -
請求記号 417/Sa 45
著者プロフィール
佐久間淳の作品





