刘卓军1 张永光1 黄冲1 2
(1 中国科学院数学与系统科学研究院,北京,100190;2 中国科学院研究生院,北京,100190)
摘要 本文收集整理了中医体质相关数据,根据数据相关性强、复杂度高的特点,以提高分类精度为目的,
研究选择了Fisher 判别分析法对数据进行特征变换,将中医体质判断标准的60 个问题(即60 维)的数据,
投影到8 个维度。同时,用贝叶斯分类器和最小距离分类器在特征变换前与特征变换后分别对该批数据进
行了分类,对比分析的分类结果表明,以Fisher 判别分析法进行的复杂数据特征变换能有效地提高中医体
质分类精度和分类的稳健性。
关键词 中医体质;贝叶斯分类;最小距离分类;特征变换
A Study on Applying Feature Transform of Complex Data to the Constitution Categories in Traditional
Chinese Medicine
LIU Zhuojun ZHANG Yongguang HUANG Chong
Abstract Feature transform、feature reduction and design of classifier are essential problem of pattern
recognition. The common aims of feature transform and feature reduction are reducing dimensionalities of data
space and calculation amount, and Improving precision. In our work, the authors collected data related to
Constitution Categories in Traditional Chinese Medicine. For classifying these strong dependence complex data,
we studied a kind of feature transform based on Fisher discriminatory analysis, and applied it to solve the problem
of Constitution Categories in Traditional Chinese Medicine. In the process, the data were transformed from 60
dimensionalities to 8 dimensionalities. Farther more, before and after the data feature were transformed, two
classifiers, called Bayes classifier and Minimum Distance Classifier respectively were introduced to classify them.
The result shows that the classification precision and stability are all improved much more after data were
transformed by our method.
Key words Constitution of TCM; Bayes classification; minimum distance classification; Feature Transform
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·32 ·
中 医 发 展
TCM development
1. 引言
本课题研究的目的是运用统计分析方法进行中医体质分类。中医医家认为人的体质是可分的,但不同
时期,人们对中医体质分类有不同的认识,从而有不同的中医体质分类法;同一时期,不同的中医学术流
派,也有不同的体质分类方法。例如,当前有体质7 分法、8 分法、9 分法及12 分法等,其中以9 分法影
响最为广泛。我们对由中医提供的相关数据进行了仔细分析,发现收集到的数据各属性之间有较强的相关
性,进行统计聚类时类别边界模糊,聚类精度很低。于是我们换一种思维方式,即分类思想来研究这个问
题。然而,在分类器的选择过程中发现,目前常用的分类器如决策树分类、最近邻分类、关联规则分类、
贝叶斯分类、判别分析分类、粗糙集分类、人工神经网络分类及支持向量机分类等,其分类结果依然不理
想,其原因还是类别边界模糊。因此可以断言,如果原数据不做预处理,很难对它精确分类。经过反复试
验和多次选择,最后确定在分类前运用Fisher 判别分析的思想对原数据进行特征变换。
特征变换是特征降维的重要方式之一,是数据挖掘、机器学习及模式识别等学科的重要内容。我们运
用Fisher 判别分析法和最优化方法,将60 维数据投影到8 维特征子空间。在这个子空间中,分别用贝叶
斯分类器和最小距离分类器对数据分类,有效地提高了分类精度,使用数据处理方法得到的体质分类与医
生的分类符合率达到百分之九十以上,从而可以建立用数据处理进行体质分类的数学基础,编写实用程序。
2. 数据说明
2009 年中华中医药学会以王琦的体质9 分法[1]为基础,制定了《中医体质分类与判定》标准,该标准
对每种体质,设置了一组问题,每组有7~8 个问题,去掉重复的问题后,九组问题的总数为60 个。每个
问题有五个备选答案,每个备选答案对应1-5 五个得分。例如标准中判断平和质有8 个问题,其中第一个
问题是“您精力充沛吗?”备选答案有A“根本不”、B“有一点”、C“有些”、D“相当”和__________E“非常”等,回答A
得1 分,B 得2 分,以此类推。根据答题者每组问题的得分情况,判定答题者的中医体质。本文得到的数
据格式是一个60 列(指标)1000 行(样本)离散数据表。其形式如表1。
表1
p1 p2 p3 p4 … p60 体质类型
X1 4 2 1 1 … 1 7
x2 1 5 1 3 … 3 3
x3 4 1 3 3 … 1 1
… … … … … … … …
x1000 2 3 3 3 … 2 8
其中q1~q60 是《中医体质判定标准》中的问题;x1~x1000 是1000 个被调查对象。将调查对象对60
个问题的回答转化为1~5 之间的离散数据,最后一列1~9 之间自然数分别表示平和质、气虚质、阳虚质、
阴虚质、痰湿质、湿热质、气郁质、特禀质等九种体质。
表1 的各列数据中,大多数指标相关性很强,同时类别之间的网络关系复杂,例如,有些样本同时兼
具几种体质类型的特征,本次数据以偏颇体质得分最高者最后确定为该样本的体质类型。根据数据的这些
特点,我们用特征变换法将高维数据投影到某个低维空间中,进而能更清晰地确定各类别的边界,提高分
类的精度。
3.基于Fisher 判别分析的特征变换法
Fisher 判别分析的基本思路就是将高维空间数据投影到低维空间,然后根据数据一维投影的类间均方
差与类内均方差之比最大的原则来判别分类[2]。
设是矩阵,表示p 维空间中的n 个样本, 表示第类样本的集合, 是第j 类中的第个样本;
,其中是个行向量, 是的转置。称j 是在方向a 上的投影,(简称Xij
的投影); 是所有 的平均值。
(1)
是投影的类间差平方和;
(2)
是投影的类内差平方和;
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·33·
中 医 发 展
TCM development
(3)
原数据的类间差的平方和,其中 是所有 的平均值。
(4)
原数据的类内差的平方和。
容易证明,
(5)
(6)
构造统计量:
(7)
由式(5)、(6)可得:
(
令, , 则
(9)
如果数据不可分类,则每个平均值都相等, 达到最小值0。反之, 越大,数据在空间
的分类越明显。
从上式看出,F 依赖的选取,选不同的会得到不同的值。可以合理地假设如果数据在直线上
的投影分类最清晰,这时使得达到最大。反过来,若要达到最大,则(9)式对a 求微分的值为0,得到
(10)
设满足上式的投影向量使得F= 达到最大值,设为,于是上式可化为:
(11)
在样本量足够大的时候,一般W 可逆。因此有
(12)
若不可逆,一个直接的处理方法是对作正则化判别分析(Regularized discriminant analysis) [7]处理得
到可逆矩阵,并且近似等于。
(12)式意味着c 是矩阵的特征根,满足该式的a 是它的特征向量。由于矩阵的秩小于或等于类
数,从而的秩小于或等于。设(12)式中有个特征根,它们对应的特征向量集的每个极大无关
组中向量个数为,并且有。
以某个极大无关组G 组成矩阵,令
(13)
则是原数据矩阵在变换矩阵的作用下进行坐标变换得到的矩阵,它是矩阵,原数据由个维度
降低到个维度。
我们用Matlab7 编写程序,实现了这个特征变换与贝叶斯分类器、最小距离分类器相结合的分类算法,
并对用医体质数据及uci 数据集上的iris 数据上做了试验,结果表明基于Fisher 判别分析的特征变换显著
提高了分类精度与稳健性。
4. 分类的精度与稳健性
贝叶斯分类器和最小距离分类器[2],[3]是最为常用和简单有效的分类工具。在对我们的数据分类时,这
两种分类器比引言中提到的其它几种分类器的分类精度相对较高。为了说明前述特征变换方法在中医体质
分类中的重要意义,我们用这两个分类器各自对数据特征变换前和特征变换后分别作了分类。
首先两种分类器都需要将数据分为两个不相交的子集:训练集和检验集。训练集用来训练和构建分类
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·34 ·
中 医 发 展
TCM development
模型,检验集用来检验分类模型的精度。
在不使用fisher 判别分析法进行特征变换前,我们的计算表明贝叶斯分类器需要更多的样本来完成模
型的构建,这是因为贝叶斯分类器训练集数据求出先验概率,根据贝叶斯原理求得检验集中各样本的后验
概率,数据的特征维度越高,求先验概率需要的训练样本越多。实际计算中,至少需要850 个训练样本。
不仅如此,从分类精度来看,两个分类器的分类精度都依赖训练集的选取,也就是说二者的分类模型不稳
健。尤其是贝叶斯分类,分类精度最高达到70%,最低只有50%,分类精度低,波动范围大。最小距离分
类器总体比贝叶斯分类效果好,但最高也只有80%,最低为60%。其原因是,两个分类器的分类效果依赖
数据各维度之间的独立性[4-6],由于我们的数据相关性太强,如果直接进行分类,难以达到预期效果。
我们引入Fisher 判别分析法,结合分类的需要,进行了特征变换。将60 维数据变换为8 维数据后,
再分别用两个分类器分类,分类的精度和分类模型的稳健性都有显著的提高。降维后贝叶斯分类法需要的
最少训练样本量由降维前的850 个降到300 个。而且对训练集的稳健性明显提高,两种分类的结果整体波
动很小,可以随机选取样本子集作为训练样本,在我们的试验当中,选取训练样本个数维持在总样本数量
的60%,得到的分类精度基本保持在93%左右,有少数甚至达到100%,最差情况下精度也接近于90%,
这个分类结果是相当满意的。
5. 特征约简
在特征变换中用到了(13)式中坐标变换矩阵,是个矩阵,(13)式当于用8 组权向量分别对原数
据60 个属性加权。我们把各属性(或问题)的8 次权值的绝对值求和并按从小到大排序,前6 个问题依
次是:(55)您受凉或吃(喝)凉的东西后,容易腹泻(拉肚子)吗? (53)您能适应外界自然和社会环境的变化
吗?(22)您比一般人耐受不了寒冷(冬天的寒冷或夏天的冷空调、电扇等)吗?(58)您腹部肥大吗? (您容易
忘事(健忘)吗?(60)您带下色黄(白带颜色发黄)吗?(限女性回答);或,(60) 您的阴囊部位潮湿吗? (限
男性回答)。直接删除这6 列数据对分类的精度影响如图1。
图1
图1 中的line 1、line 2 分别是最小距离分类器与贝叶斯分类器在属性简约前的符合率减去属性简约后
的符合率的差值,其最大值分别是0.0225、0.0276,最小值分别是-0.0222、-0.0135。差值小说明删除的6
个问题为我们的分类所需的信息增量小,换句话说,当有了其他54 个问题时,这6 个问题对分类的贡献
小。因此利用判别分析降维法得到的变换矩阵为分类特征约简提供了有价值的信息,值得进一步研究。
6. 结论
针对属性之间相关性较强的多类别数据分类问题,本文研究了Fisher 判别分析特征变换法将60 个维
度的数据降到了8 维,显著提高了分类精度和分类器的稳健性,解决了多类别数据中,类别之间相互关系
复杂的分类问题。同时,该方法可以与不同的分类器结合使用,不仅能在体质9 分法的相关数据中应用,
也可以在其它多类别分类问题中发挥它的优势。例如,我们在uci 数据集中,选择了iris 数据并将其从4
维特征空间转换到2 维子空间,同时也提高了分类的精度。
另一方面,特征变换方法本质上是一种坐标变换,用它来约简属性、删减指标虽然有数据分析的理论
依据,但其结果不容易向缺乏数学背景的人解释,在重新设计问卷时,不便于直接应用。因此有必要进一
步探索研究中医体质分类问题的属性简约方法,与中医专家深入探讨研究中医体质分类标准的发展,以便
更好地服务社会大众。
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·35·
中 医 发 展
TCM development
参考文献
[1]王琦.中医体质学2008.北京:人民卫生出版社. 2009.
[2]Krzanowski, W. J. Principles of Multivariate Analysis: A User's Perspective. New York: Oxford University Press, 1988.
[3]Seber, G. A. F. Multivariate Observations. Hoboken, NJ: John Wiley & Sons, Inc., 1984.
[4]殷志伟. 基于统计学习理论的分类方法研究. 哈尔滨工程大学博士学位论文.2009.11. p22
[5]成平. 对贝叶斯统计的几点看法[J]. 数理统计与应用概率. 1990.5(4). 387-388.
(1 中国科学院数学与系统科学研究院,北京,100190;2 中国科学院研究生院,北京,100190)
摘要 本文收集整理了中医体质相关数据,根据数据相关性强、复杂度高的特点,以提高分类精度为目的,
研究选择了Fisher 判别分析法对数据进行特征变换,将中医体质判断标准的60 个问题(即60 维)的数据,
投影到8 个维度。同时,用贝叶斯分类器和最小距离分类器在特征变换前与特征变换后分别对该批数据进
行了分类,对比分析的分类结果表明,以Fisher 判别分析法进行的复杂数据特征变换能有效地提高中医体
质分类精度和分类的稳健性。
关键词 中医体质;贝叶斯分类;最小距离分类;特征变换
A Study on Applying Feature Transform of Complex Data to the Constitution Categories in Traditional
Chinese Medicine
LIU Zhuojun ZHANG Yongguang HUANG Chong
Abstract Feature transform、feature reduction and design of classifier are essential problem of pattern
recognition. The common aims of feature transform and feature reduction are reducing dimensionalities of data
space and calculation amount, and Improving precision. In our work, the authors collected data related to
Constitution Categories in Traditional Chinese Medicine. For classifying these strong dependence complex data,
we studied a kind of feature transform based on Fisher discriminatory analysis, and applied it to solve the problem
of Constitution Categories in Traditional Chinese Medicine. In the process, the data were transformed from 60
dimensionalities to 8 dimensionalities. Farther more, before and after the data feature were transformed, two
classifiers, called Bayes classifier and Minimum Distance Classifier respectively were introduced to classify them.
The result shows that the classification precision and stability are all improved much more after data were
transformed by our method.
Key words Constitution of TCM; Bayes classification; minimum distance classification; Feature Transform
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·32 ·
中 医 发 展
TCM development
1. 引言
本课题研究的目的是运用统计分析方法进行中医体质分类。中医医家认为人的体质是可分的,但不同
时期,人们对中医体质分类有不同的认识,从而有不同的中医体质分类法;同一时期,不同的中医学术流
派,也有不同的体质分类方法。例如,当前有体质7 分法、8 分法、9 分法及12 分法等,其中以9 分法影
响最为广泛。我们对由中医提供的相关数据进行了仔细分析,发现收集到的数据各属性之间有较强的相关
性,进行统计聚类时类别边界模糊,聚类精度很低。于是我们换一种思维方式,即分类思想来研究这个问
题。然而,在分类器的选择过程中发现,目前常用的分类器如决策树分类、最近邻分类、关联规则分类、
贝叶斯分类、判别分析分类、粗糙集分类、人工神经网络分类及支持向量机分类等,其分类结果依然不理
想,其原因还是类别边界模糊。因此可以断言,如果原数据不做预处理,很难对它精确分类。经过反复试
验和多次选择,最后确定在分类前运用Fisher 判别分析的思想对原数据进行特征变换。
特征变换是特征降维的重要方式之一,是数据挖掘、机器学习及模式识别等学科的重要内容。我们运
用Fisher 判别分析法和最优化方法,将60 维数据投影到8 维特征子空间。在这个子空间中,分别用贝叶
斯分类器和最小距离分类器对数据分类,有效地提高了分类精度,使用数据处理方法得到的体质分类与医
生的分类符合率达到百分之九十以上,从而可以建立用数据处理进行体质分类的数学基础,编写实用程序。
2. 数据说明
2009 年中华中医药学会以王琦的体质9 分法[1]为基础,制定了《中医体质分类与判定》标准,该标准
对每种体质,设置了一组问题,每组有7~8 个问题,去掉重复的问题后,九组问题的总数为60 个。每个
问题有五个备选答案,每个备选答案对应1-5 五个得分。例如标准中判断平和质有8 个问题,其中第一个
问题是“您精力充沛吗?”备选答案有A“根本不”、B“有一点”、C“有些”、D“相当”和__________E“非常”等,回答A
得1 分,B 得2 分,以此类推。根据答题者每组问题的得分情况,判定答题者的中医体质。本文得到的数
据格式是一个60 列(指标)1000 行(样本)离散数据表。其形式如表1。
表1
p1 p2 p3 p4 … p60 体质类型
X1 4 2 1 1 … 1 7
x2 1 5 1 3 … 3 3
x3 4 1 3 3 … 1 1
… … … … … … … …
x1000 2 3 3 3 … 2 8
其中q1~q60 是《中医体质判定标准》中的问题;x1~x1000 是1000 个被调查对象。将调查对象对60
个问题的回答转化为1~5 之间的离散数据,最后一列1~9 之间自然数分别表示平和质、气虚质、阳虚质、
阴虚质、痰湿质、湿热质、气郁质、特禀质等九种体质。
表1 的各列数据中,大多数指标相关性很强,同时类别之间的网络关系复杂,例如,有些样本同时兼
具几种体质类型的特征,本次数据以偏颇体质得分最高者最后确定为该样本的体质类型。根据数据的这些
特点,我们用特征变换法将高维数据投影到某个低维空间中,进而能更清晰地确定各类别的边界,提高分
类的精度。
3.基于Fisher 判别分析的特征变换法
Fisher 判别分析的基本思路就是将高维空间数据投影到低维空间,然后根据数据一维投影的类间均方
差与类内均方差之比最大的原则来判别分类[2]。
设是矩阵,表示p 维空间中的n 个样本, 表示第类样本的集合, 是第j 类中的第个样本;
,其中是个行向量, 是的转置。称j 是在方向a 上的投影,(简称Xij
的投影); 是所有 的平均值。
(1)
是投影的类间差平方和;
(2)
是投影的类内差平方和;
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·33·
中 医 发 展
TCM development
(3)
原数据的类间差的平方和,其中 是所有 的平均值。
(4)
原数据的类内差的平方和。
容易证明,
(5)
(6)
构造统计量:
(7)
由式(5)、(6)可得:
(
令, , 则
(9)
如果数据不可分类,则每个平均值都相等, 达到最小值0。反之, 越大,数据在空间
的分类越明显。
从上式看出,F 依赖的选取,选不同的会得到不同的值。可以合理地假设如果数据在直线上
的投影分类最清晰,这时使得达到最大。反过来,若要达到最大,则(9)式对a 求微分的值为0,得到
(10)
设满足上式的投影向量使得F= 达到最大值,设为,于是上式可化为:
(11)
在样本量足够大的时候,一般W 可逆。因此有
(12)
若不可逆,一个直接的处理方法是对作正则化判别分析(Regularized discriminant analysis) [7]处理得
到可逆矩阵,并且近似等于。
(12)式意味着c 是矩阵的特征根,满足该式的a 是它的特征向量。由于矩阵的秩小于或等于类
数,从而的秩小于或等于。设(12)式中有个特征根,它们对应的特征向量集的每个极大无关
组中向量个数为,并且有。
以某个极大无关组G 组成矩阵,令
(13)
则是原数据矩阵在变换矩阵的作用下进行坐标变换得到的矩阵,它是矩阵,原数据由个维度
降低到个维度。
我们用Matlab7 编写程序,实现了这个特征变换与贝叶斯分类器、最小距离分类器相结合的分类算法,
并对用医体质数据及uci 数据集上的iris 数据上做了试验,结果表明基于Fisher 判别分析的特征变换显著
提高了分类精度与稳健性。
4. 分类的精度与稳健性
贝叶斯分类器和最小距离分类器[2],[3]是最为常用和简单有效的分类工具。在对我们的数据分类时,这
两种分类器比引言中提到的其它几种分类器的分类精度相对较高。为了说明前述特征变换方法在中医体质
分类中的重要意义,我们用这两个分类器各自对数据特征变换前和特征变换后分别作了分类。
首先两种分类器都需要将数据分为两个不相交的子集:训练集和检验集。训练集用来训练和构建分类
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·34 ·
中 医 发 展
TCM development
模型,检验集用来检验分类模型的精度。
在不使用fisher 判别分析法进行特征变换前,我们的计算表明贝叶斯分类器需要更多的样本来完成模
型的构建,这是因为贝叶斯分类器训练集数据求出先验概率,根据贝叶斯原理求得检验集中各样本的后验
概率,数据的特征维度越高,求先验概率需要的训练样本越多。实际计算中,至少需要850 个训练样本。
不仅如此,从分类精度来看,两个分类器的分类精度都依赖训练集的选取,也就是说二者的分类模型不稳
健。尤其是贝叶斯分类,分类精度最高达到70%,最低只有50%,分类精度低,波动范围大。最小距离分
类器总体比贝叶斯分类效果好,但最高也只有80%,最低为60%。其原因是,两个分类器的分类效果依赖
数据各维度之间的独立性[4-6],由于我们的数据相关性太强,如果直接进行分类,难以达到预期效果。
我们引入Fisher 判别分析法,结合分类的需要,进行了特征变换。将60 维数据变换为8 维数据后,
再分别用两个分类器分类,分类的精度和分类模型的稳健性都有显著的提高。降维后贝叶斯分类法需要的
最少训练样本量由降维前的850 个降到300 个。而且对训练集的稳健性明显提高,两种分类的结果整体波
动很小,可以随机选取样本子集作为训练样本,在我们的试验当中,选取训练样本个数维持在总样本数量
的60%,得到的分类精度基本保持在93%左右,有少数甚至达到100%,最差情况下精度也接近于90%,
这个分类结果是相当满意的。
5. 特征约简
在特征变换中用到了(13)式中坐标变换矩阵,是个矩阵,(13)式当于用8 组权向量分别对原数
据60 个属性加权。我们把各属性(或问题)的8 次权值的绝对值求和并按从小到大排序,前6 个问题依
次是:(55)您受凉或吃(喝)凉的东西后,容易腹泻(拉肚子)吗? (53)您能适应外界自然和社会环境的变化
吗?(22)您比一般人耐受不了寒冷(冬天的寒冷或夏天的冷空调、电扇等)吗?(58)您腹部肥大吗? (您容易
忘事(健忘)吗?(60)您带下色黄(白带颜色发黄)吗?(限女性回答);或,(60) 您的阴囊部位潮湿吗? (限
男性回答)。直接删除这6 列数据对分类的精度影响如图1。
图1
图1 中的line 1、line 2 分别是最小距离分类器与贝叶斯分类器在属性简约前的符合率减去属性简约后
的符合率的差值,其最大值分别是0.0225、0.0276,最小值分别是-0.0222、-0.0135。差值小说明删除的6
个问题为我们的分类所需的信息增量小,换句话说,当有了其他54 个问题时,这6 个问题对分类的贡献
小。因此利用判别分析降维法得到的变换矩阵为分类特征约简提供了有价值的信息,值得进一步研究。
6. 结论
针对属性之间相关性较强的多类别数据分类问题,本文研究了Fisher 判别分析特征变换法将60 个维
度的数据降到了8 维,显著提高了分类精度和分类器的稳健性,解决了多类别数据中,类别之间相互关系
复杂的分类问题。同时,该方法可以与不同的分类器结合使用,不仅能在体质9 分法的相关数据中应用,
也可以在其它多类别分类问题中发挥它的优势。例如,我们在uci 数据集中,选择了iris 数据并将其从4
维特征空间转换到2 维子空间,同时也提高了分类的精度。
另一方面,特征变换方法本质上是一种坐标变换,用它来约简属性、删减指标虽然有数据分析的理论
依据,但其结果不容易向缺乏数学背景的人解释,在重新设计问卷时,不便于直接应用。因此有必要进一
步探索研究中医体质分类问题的属性简约方法,与中医专家深入探讨研究中医体质分类标准的发展,以便
更好地服务社会大众。
第九届世界中医药大会
The 9th World Congress of Chinese Medicine
·35·
中 医 发 展
TCM development
参考文献
[1]王琦.中医体质学2008.北京:人民卫生出版社. 2009.
[2]Krzanowski, W. J. Principles of Multivariate Analysis: A User's Perspective. New York: Oxford University Press, 1988.
[3]Seber, G. A. F. Multivariate Observations. Hoboken, NJ: John Wiley & Sons, Inc., 1984.
[4]殷志伟. 基于统计学习理论的分类方法研究. 哈尔滨工程大学博士学位论文.2009.11. p22
[5]成平. 对贝叶斯统计的几点看法[J]. 数理统计与应用概率. 1990.5(4). 387-388.