在数据挖掘中会遇到相同长度数字字串的类型区分问题，个人认为最好的解决方案就是了解各个类型数据的构词方法，从而对不同、甚至相同长度的数据进行解构区分。对于身份证而言，采用第十八位的校验码进行校验计算能够有效的达到区分效果。

1 首先说明一下中国身份证的组成结构。

1.1 第二代身份证（18位）和第一代身份证（15位）的构成

（1）出生日期

第二代身份证的出生日期由第一代身份证的XX/XX/XX的6位修改成XXXX/XX/XX的8位。

（2）顺序号

由于第二代身份证的出生日期补全到8位，所以顺序号也就由第一代身份证的13-15位顺延到了15-17位。

其中，需要注意的是，无论第一代还是第二代身份证，都是采用顺序号的最后一位（也就是第二代的17位和第一代的15位）标示着该名公民的性别。奇数就是男性，偶数就是女性。

（3）校验位

第二代身份证增加了第一代身份证中缺失的校验位。

Step 1：

使用第二代身份证的前十七位计算(Value_i*Weight_i)的累和S。

其中，规定前十七位相应的权值如下表所示：

i	1	2	3	4	5	6	7	8	9	10	11	12	13	14	15	16	17
Weight	7	9	10	5	8	4	2	1	6	3	7	9	10	5	8	4	2

Step 2：

计算模M=MOD(S,11)，即对累和S对11取余数。

Step 3：

根据计算的到的模M，对应标准规范的校验位对应表，取出相应的校验码K。

其中，标准规范的校验位对应表如下表所示：

M	0	1	2	3	4	5	6	7	8	9	10
K	1	0	X	9	8	7	6	5	4	3	2

计算过程对应下表所示

然后的到 M = (195, 11) = 8，经查表的到，对应的K = 4