ゲノムという個人情報をどうやって守るか

先日人工知能が病気を診断したという記事を書きましたが、これに少し関連してゲノムのセキュリティーについてNatureのNews記事を読んだので紹介したいと思います。

http://www.nature.com/news/spiking-genomic-databases-with-misinformation-could-protect-patient-privacy-1.20407より引用

ゲノム(gene=遺伝子+ome=すべて)とは、生き物の設計図といわれるDNAの配列すべてのことを指し、ヒトのゲノムは4種類の塩基(ATGC)の対が30億個連なってできています。そして、このゲノムはそれぞれの人によって異なり、その違いは様々な体質・病気のなりやすさ等に関わっています。

実は最近、個人のゲノムはとても簡単に読める時代になってきており、2013年には女優のアンジェリーナジョリーが、自分のゲノムから遺伝性の乳がんを引き起こす変異(正常な遺伝子と異なる配列)が見つかったため、乳房を切除したことがニュースにもなりました。また、2015年にアメリカではオバマ大統領主導のもと、250万ドル(250億円)を投入し100万人以上のゲノムを用いて、ゲノムと特にがんや希少疾患の関係性を調べるプロジェクトが始まっています。

こうした流れの目指す理想の形は、データベース上にある多数のゲノムと、ある個人のゲノムを照らし合わせることで、その人の様々な疾患(特に環境要因が低い遺伝性の疾患)のリスクを事前に知ったり、病気の原因となる遺伝子を発見することのできるシステムだと思います。しかし、ここで難しい点はゲノムという究極の個人情報の取り扱いについてです。

ゲノムを匿名のデータにしたら何も問題ないんじゃないの?と思う方もいらっしゃるかもしれないですが、実はそうでもないのです。染色体のうちの一つであるY染色体は代々父親から受け継ぐことが知られていて、そのDNAの配列のパターンには先祖の情報が含まれています( Y染色体を調べることでfamily treeを調べてくれるサービスもあるぐらいです)。つまり、例えゲノムが匿名であったとしてもY染色体の配列を調べることで、その人の苗字(家系とも言えると思います)を推定することも不可能ではなく、それに加えて歳と生年月日が分かってしまえばインターネット上の情報から個人をある程度絞り込むことまでできてしまうという研究もあります。もちろんこれは専門の知識がないとできないですし、研究成果はアメリカの白人男性に限った話で正しく苗字を推定できたのは12%だけ(5%が間違い、83%がUnknown)のようですが、恐ろしい話ですね。

したがって、ゲノムのデータベースはプライバシーの観点から国の機関などが慎重に取り扱う必要があり、研究者や医者が研究用や診断用にアメリカの公的機関であるNIHから承認を受けたゲノムデータベースを用いようとする場合、アクセスする権利を取得するだけで数ヶ月かかってしまうという問題点があります。これでは欲しい情報がすぐに手に入りません。

一方で、ちょっとした工夫によってセキュリティのレベルを上げて、ゲノムデータベースへのアクセスを容易にしようとする動きもあるようです。
先日発表された論文(参考文献2)で構築したシステムでは、データベースからユーザーに提供する情報の項目を制限し、それに加えてゲノム情報へ、研究に用いる時に妨げにならない程度の小さいノイズを敢えて加えることで、ユーザーが受け取る情報から個人情報を読み取られないようにするという試みがなされています。具体的には、ユーザーが「ある疾患と関係する遺伝子の変異を教えて欲しい」といえば、システムがユーザーにその情報を提供するときに上位5つの順番を入れ替えたりその配列を少し変えたりするようなノイズを加えます。こうすることによって情報を受け取ったユーザーは個人情報をそこから読み取ることは困難になります。

このシステムを使うメリットは、提供する情報から個人を特定される恐れがないため誰でも自由にアクセスできるシステムを構築でき、知りたいゲノムデータベース上の情報に研究者や医者が迅速にたどり着けるようになることです。
ただ一方で、デメリットもあります。ノイズによって情報の精度が落ちてしまう可能性があったり、セキュリティーのために得をられる項目の数が限られてしまっていたりする(例えば上位5番目までしか提供できないなど)ため、研究や診断に十分な情報が得られないといったものです。つまり、個人情報のセキュリティー(公開できる範囲)と情報の質・量の間にトレードオフの関係があるのです。

個人的には、ノイズの解析結果への影響が確実にないとは言い切れないと思うので、早くデータにアクセスしたいときは今回紹介したシステム、確実な情報が欲しいときは少し時間がかかっても元のデータにアクセスするといった棲み分けがうまくできればよいと思いました。それから、記事と原著論文を読んだ限り、ある疾患に関わる変異の情報など、ゲノム全体ではなく一部の情報しかユーザーに提供しなければ個人が特定されることはなさそうですし、ノイズを加える必要性の理解が少し追いついてないので、もし詳しい方がいらっしゃれば是非コメント欄へ!

ドラゴン

ドラゴンの記事を読む

参考文献

1.NatureのNewsの記事”Spiking genomic database with misinformation could protect patient privacy

2.論文 “Enabling privacy-presearving GWAS inheterogeneous human population

3.論文”Identifying personal genome by surname inferance

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です