WBI コンシェルジュのブログ
WBI とは、Working、Business & ICT。WBI コンシェルジュとは、働き方の見直し、業務改善、ICT活用の支援・相談役です。                                                                           
home

« 前の記事 | メイン | 次の記事 »


年金問題 5000万件の突合ロジック


 国民の生活を脅かす年金問題。5000万件の持ち主不明データを1年で突合すと言っているが、本当に可能なのだろうか。システムを開発し、付き合わせるということなので、そのロジックを小生なりに考えてみる。
 
 突合せのキーとなるのは、氏名、性別、生年月日といわれている。小生も過去に何度もこの本人確認システムを考えてきた。既に登録されている会員かどうかを調べるロジックである。
 
 毎回、ロジックの内容は異なるのは事実。できることできないことがそのシステムよって異なるから。今回は、勝手に前提条件を付けて検討してみたい。
 
 まず、突合せで信用できないのが氏名の漢字でのつき合わせ。日本の漢字は、略字が存在する。渡辺、渡邊、渡邉、齋藤、斉藤、斎藤、齋藤など戸籍上の文字を記入してもらえるとは限らない。
 
 そこで、氏名のカナをキーと考える。これも、要注意。濁点やユやュなどの小さい文字が正しく書かれているとは限らない。そこで、カナをある規則を用いて突き合わせ用に変換する作業を行う。
 
 そのルールは、
・空白は取る。
・濁点、半濁点は取る。
・小さい文字は、大きい文字に変える。
である。
 
 例えば、「ヤマダ シュンイチ」は「ヤマタシユンイチ」、「ワタナベ ジュンイチ」は「ワタナヘシユンイチ」と変換する。
 
 この変換で、ジュンイチとシュンイチが同一化されてしまうが、それ以上に濁点、半濁点、小さい文字の対応を優先する。
 
 生年月日も西暦に統一し、数字8桁に変換する。例えば、昭和41年1月1日は、19660101とする。
 
 性別は、あまり意味がない、氏名である程度、判別できてしまう。もちろん、カズミなど男性、女性ともに使われる名前があることもあるが...
 
 基本は、システムのロジックは完璧ではないことをまず認識し、欲張らないこと。欲張ると、それこそさらに見落としが発生する。
 
 氏名カナの変換したもの、生年月日の変換したものの2つで同一データを洗い出す。カナと数字の2項目であれば、コンピューターはあっという間に突合せを行える。ただし、これで終わりではなく、コンピュータは同一人物候補を出しているに過ぎない。コンピュータが出した同一人物候補を人間がきちんと1件ずつ確認することを忘れてはならない。
 
 今回ご紹介したロジックは、一つの例であることを忘れてはならない。これが完璧とも思わない。ただ、いかに人間が記入するミスやあいまいさをどう吸収するかがポイント。
 
 これに、必要であれば、0と6と9 1と7 ユとヨ など、間違いやすい文字や数字を候補に追加するロジックを加えることもあるだろう。
 
 このあいまいさを加えれば加えるほど、精度は上がるが候補数が多くなり人間のチェック量も多くなる。この判断基準をどこに設定するかが設計者腕の見せ所である。
 
 この年金問題の突合せ処理、どのようなロジックになるのか、その公開はあるのか気になるところである。






トラックバック

このエントリーのトラックバックURL:







  • 個人情報・機密情報の取り扱いについて
  • サイトマップ
  • お問い合わせ


Copyright © 2005-2006 All Rights Reserved by Search Firm Japan Corporation