图1 例1的多粒度粒球粗糙集的生成过程
纸质出版日期:2024-04-25,
收稿日期:2023-09-15
扫 描 看 全 文
引用本文
阅读全文PDF
基于粒球计算的粗糙集理论作为知识发现和数据挖掘的重要工具之一,已成功地应用于标记预测、属性约简等。而现有的粒球粗糙集模型仅仅是从单粒度出发,无法从多粒度角度对数据进行分析和处理,实际生活中仍有很多应用场景需从多粒度角度进行思考。将粒球计算思想结合到多粒度粗糙集模型,提出了多粒度粒球粗糙集模型,并讨论了该模型的相关性质。该模型通过纯度的设定对数据进行粒球划分,能够有效地刻画数据之间的内在联系,以此设计多粒度粒球粗糙集的正域生成算法。实验分析表明该模型的可行性和有效性。
As one of the important tools for knowledge discovery and data mining, rough set theory based on granular-ball computing has been successfully applied to label prediction and attribute reduction. However, the existing granular-ball rough set models only consider a single granulation, and cannot analyze and process data from a multi-granulation, and there are still many application scenarios that need to be considered from the perspective of multi-granulation. Based on this, this paper proposes a multi-granulation rough set based on granular-ball computing by embedding the idea of granular-ball in the multi-granulation rough set model, and discusses the relevant properties of the model. The model divides the data by setting the purity, which can effectively depict the internal relationship between the data, and thus design a position region generation algorithm for multi-granulation granular-ball rough set. Experimental analysis shows the feasibility and effectiveness of this model.
粗糙集理论是Pawlak[
此外,传统的粗糙集模型只能处理离散数据,而现实中的数据多为连续数据,离散化不可避免地造成信息的丢失。为了解决这一问题,Hu等提出了邻域粗糙集,利用邻域来描述样本之间的关系,能够有效地处理连续型数据[
然而,邻域粗糙集的上下近似是由样本点组成,而不是等价类,因此使邻域粗糙集失去了可解释性。基于此,Xia等人提出了一种基于粒球计算[
受文献[
本节主要回顾多粒度粗糙集、粒球粗糙集的相关知识。
Qian等将Pawlak粗糙集模型扩展为多粒粗糙集模型,该模型通过论域上的多重等价关系定义集合近似[
定义1 [
(1)
(2)
称 为多粒度粗糙集模型。
Xia等提出粒球计算方法,此方法能够在信息粒化过程中,自适应地生成粒球信息粒[
定义2 [
(3)
(4)
定义3 [
(5)
在粒球的生成过程中,首先,将整个数据集视为一个粒球;其次,计算粒球纯度,纯度不满足时将粒球均分为2个子球,依次进行迭代,直到所有粒球的纯度满足要求时,边界最清晰且算法收敛。其主要步骤如下:
1)假设m表示当前粒球的数量,将论域U初始化为一个粒球,令m=1;
2)利用k-means聚类算法对每个粒球进行聚类,令k=2,则每个粒球分裂为两个子粒球,此时粒球数量为2m;
3)计算所有的子粒球的纯度Purity,若所有的子粒球纯度达到要求或粒球半径r达到指定的阈值,则算法结束;否则,则返回步骤2)。
定义4 [
(6)
其中:Δ(x,cj)表示任意的对象x∈U与中心cj的距离度量。本文中 ,f(x, a)表示对象在属性a下的属性值,U′表示为k-means聚类算法每次迭代的类样本。
定义5 [
根据定义5,存在(x,y)∈INDGB(B),则x与y等价。论域U在GB下的划分表示为U/GB(B),粒球GB在不可分辩关系INDGB(B)下的等价类表示为[x]GB(B)={y∈U|(x,y)∈INDGB(B)},[x]GB(B)是U/GB(B)的元素。
定义6 [
(7)
(8)
定义7 [
(9)
(10)
在本节内容中,借鉴粒球计算的思想,结合多粒度粗糙集模型,构造多粒度粒球粗糙集模型。
定义8 设DS=〈U,AT,V, f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},Bi⊆AT,i=1,2,…,m。在U上存在基于Bi的粒球 相应的等价关系
。对于任意X⊆U,X关于B的上、下近似定义为
(11)
(12) 为多粒度粒球粗糙集,并称
为X关于B的正域,
为X关于B的边界域。
性质1 设DS=〈U,AT,V,f〉,是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},Bi∈B,在U上存在基于B和Bi的粒球GB和 ,其相应的等价关系为GBRB、
。对任意X⊆U,X关于B的上、下近似有以下的性质:
1)
2) 。
证明 1)由定义8得,任意 ,则至少存在i=j(j≤m),使得
。又因
,则任意
,存在Xj(j≤a)⊆GB(Bi),使得X′i⊆Xj,则
。综上,有
。
2)由Pawlak粗糙集理论的相关性质可得 ,又根据性质(1)有
性质2 设DS=〈U,AT,V,f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球 相应的等价关系
。假设有X⊆U,则X关于属B的上、下近似的性质有
1) ;
2) ;
;
3) ;
;
4) ;
5) 。
证明
1a)令x, ,且有X/GB(Bi)⊆X,则至少存在一个划分X/GB(Bi),使得x∈X/GB(Bi),且y∈X/GB(Bi);又因x,y∈X,则
。
1b)令x,y∈X,则有x∈X/GB(Bi)∩X,且y∈X/GB(Bi)∩X;又X/GB(Bi)∩X=Ø,所以x, ,
。
2a)根据1)可得 ,又有
(空集是任何集合的子集),则有
;假设
,据定义有
,而
,这与假设矛盾,因此有
。
2b)根据1)可得 ,若x∈U,
。则
,
,因此,
。
3a) 。
3b)根据3a),令X=~X,则
4)任意x⊆U,如果有X/GB(Bi)⊆X,则 ,若存在y,使
5)根据性质4)可得
性质3 设DS=〈U,AT,V,f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球 相应的等价关系
。假设有X,Y⊆U,则X,Y关于B的上、下近似的性质有
1) ;
2) ;
3) ;
4) ;
5) ;
6) ;
7) ;
8) 。
证明 先证明1)。
2)与1)类似可以证得。
由1)可以得出3)的证明。
由2)可得出4)的证明。
5)如果X⊆Y, X∩Y=X,则根据性质3)可得
。
6)若X⊆Y,X∪Y=Y,则根据性质4)可得
。
7) X⊆X∪Y且Y⊆X∪Y。则根据性质5),满足 ,且有
,则有
8)根据性质7),显然X∩Y⊆X,X∩Y⊆Y,根据X∩Y⊆X则有
基于以上性质,将粒球粗糙集模型拓展为多粒度粒球粗糙集模型。其中,该模型的集合近似通过论域上的多个等价关系来定义。
定义9 设DS=〈U,AT∪D,V,f〉是一个完备的决策信息系统,决策属性D将论域U划分为L个等价类,表示为U/D={X1,X2,…,XL}。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球 相应的等价关系
。D关于B的上下近似定义为
(13)
(14)
与粒球粗糙集相似,可以根据经典粗糙集理论得出粒球粗糙集的正域、边界域的表示。
定义10 设DS=〈U,AT∪D,V,f〉是一个完备的决策信息系统,∀B⊆AT,D关于B的正域和边界域定义为
(15)
(16)
根据上述定义和性质,基于Xia等的粒球粗糙集模型计算正域的算法[
算法1 多粒度粒球粗糙集在第i个粒度下正域生成
输入 DS=〈U,AT∪{d},f〉/*完备决策信息系统*/;
k/*DS的类别个数*/;
GBS/*用于临时储存GBn*/;
size(GB)/*最小粒径*/;
Purity/*纯度阈值*/。
输出 GBRSi/*存储满足条件的GB*/。
步骤1 初始化。
步骤2 对数据集DS=〈U, AT∪D, V, f〉进行划分,设AT={AT1, AT2, …,ATm},DSi=〈U,ATi∪D,V,f〉为DS的第i个子信息系统。
步骤3 对DSi进行k-means聚类分析。计算各簇心Cn和粒球半径rn,绘制粒球GBn。/*将GBn保存在GBS内*/
步骤4 if ∃GBn∈GBS,Purity<1,do
1)生成粒球GBn内的数据集DS′n;
2)返回步骤3。
until ∀GBn∈GBS,Purity=1 or
size(GBi)<size(GB)。
GBRSi←GBn。
end
步骤5 输出GBRSi(i=1,2,…,m)。
在算法1中,假设论域U被分解为|GBS|个粒球,迭代次数最多为(|U|×|GBS|)。因此,算法1的时间复杂度为O(|U|×|GBS|)。
算法2 多粒度粒球粗糙集正域生成
输入 POS_GBRSi(i=1,2,…,m)。
输出 POS_MGBRST/*多粒度粒球粗糙集正域*/。
步骤1 for i=1∶m
if ∃GB∈GBRSi,Purity<1,do
POS_GBrSi=GBRSi\GB
end
end
步骤2 对∀POS_GBRSi,do
POS_MGBRS=POS_GBRS1∪
POS_GBRS2∪…∪POS_GBRSm。
步骤3 输出POS_MGBRS。
由算法1可知,在最坏的情况下,多粒度粒球粗糙集在第i个粒度下正域生成所需的迭代次数为O(|U|×|GBS|)。此外,假定在粒度划分时,粒度划分为AT={AT1,AT2,…,ATm}。结合算法1可得算法2的时间复杂度为O(|U|×|GBS|×|m|)。
例1
根据定义2可求得在粒度B1和B2下,粒球GBi的球心ci、半径ri。各样本到球心Ci的距离d如
C1=(0.68,0.73,0.68);
C2=(0.67,0.72,0.72);
r1=0.019 7;r2=0.021 7。
则根据定义4和
GB1={x1,x2,x4};
GB2={x1,x5,x6}。
根据定义3计算粒球GB1、GB2的纯度为
Purity(GB1)=0.666 7,
Purity(GB2)=1。
又因为Purity(GB1)=0.666 7<1;且size(GB1)≥2,因此,对GB1进行第二次迭代,根据定义2计算簇心和半径可得
C11=(0.73,0.73,0.70),r11=0.01。
同理根据定义4可得
GB11={x2,x4},
Purity(GB11)=1。
根据定义8,可以求得论域U在属性集B下近似为
注1 例1中粒球GBi使用的最小粒径是粒球内样本个数为2(样本分为2类),在实际计算中,最小粒径的取值可以大于类别个数,否则会出现样本都是正域的情况,不利于正确地分类。
注2 在k-means聚类算法中,使用的距离度量是Squared Euclidean Distance。因此,例1使用相同的度量。
注3 例1中计算簇心的方法是利用对所有f(x,ci),i=1,2…,m取均值。实验中可以根据样本的类别标签,分别对所分的簇求均值从而得到簇心和半径。
采用多粒度粗糙集模型进行计算过程如
在各属性下的划分 | 下近似 | |
---|---|---|
a1 | {{x1,x5,x6},{x2,x4},{x3}} | {x3} |
a2 | {{x1,x4},{x2,x5,x6},{x3}} | {x4} |
a3 | {{x1,x2,x4},{x3},{x5,x6}} | {x3,x5,x6} |
a4 | {{x1,x3},{x2,x5,x6},{x4}} | {x1,x3,x4} |
a5 | {{x1,x2},{x3},{x4,x6},{x5}} | {x3,x5} |
a6 | {{x1,x3,x5},{x2},{x4,x6}} | {x1,x2,x3,x5} |
d | {{x1,x3,x5,x6},{x2,x4}} | {x1,x2,x3,x4,x5,x6} |
通过对比和分析例1在粒球粗糙集模型(MGRST)和多粒度粒球粗糙集模型(MGBRST)正域生成的结果(见
图1 例1的多粒度粒球粗糙集的生成过程
Fig. 1 The generation process of granular-ball rough set model based on multi-granulation in example 1
注: 红色表示决策属性为“1”;蓝色表示决策属性为“0”。(a)、(b)表示论域U分别在粒度B1和B2下的划分。根据纯度的定义,可以得到(a)中的粒球纯度为1,则表示正域,若粒球纯度不为1,如(b),则表示边界域。(c)表示对(b)粒球进行迭代,根据定义,最终结果如(d),可以得到最终多粒度粒球粗糙集的正域。
对于本文提出的多粒度粒球粗糙集模型生成正域算法,本节通过实验分析验证其可行性和有效性。所有实验硬件环境配置为AMD Ryzen 5 2500U CPU@ 2.00 GHz和8 GB内存的个人计算机,算法运行的软件环境为Matlab R2021b。
为了验证所提算法的有效性,在本节中,从UCI中选取了10组基准数据集进行相关的实验对比分析,其中前4组为连续型数据,后6组为离散型数据。数据的具体描述见
在数学实验中,选择最优的参数进行对比实验是一个重要的步骤。多粒度粒球粗糙集模型(MGBRST)生成正域算法中需要考虑的参数为最小粒径size(GB),即颗粒球GB内的最小样本数,它决定了颗粒球GB是否继续迭代;由于正域生成算法设置纯度阈值为“1”,因此实验不考虑纯度阈值的影响。选取German、Zoo、Lymphography、Anneal进行参数分析,size(GB)的选择范围为2~7。考虑参数对算法的时间消耗/s和包含度/%的影响,可视化结果如
图2 参数size(GB)的大小对时间消耗的影响
Fig. 2 The effect of parameter size (GB) on time consumption
图3 参数size(GB)的大小对包含度的影响
Fig. 3 The effect of parameter size (GB) on inclusion
包含度的定义如下:在多粒度粒球粗糙集模型(MGBRST)中,由于粒球刻画了数据之间的内在联系和规律,因此生成的正域的样本数从理论上来说将少于多粒度粗糙集(MGRST),并且可能包含在多粒度粗糙集(MGRST)中。故本文根据梁等提出的思想,即包含度可作为建立粗糙集数据分析中的度量的主要依据[
(17)
参数越小,迭代的次数越多,时间消耗理论上就越大;除此外,参数的设定还与数据类别有关,且k-means算法具有随机性,因此找到合适的参数是必要的。如
在本节实验中,将针对钱等提出的多粒度粗糙集模型(MGRST)[
ID | MGRST/s | MGBRST/s |
---|---|---|
1 | 0.541 091 | 0.484 320 |
2 | 0.271 866 | 0.179 734 |
3 | 3.460 916 | 2.414 930 |
4 | 1.596 670 | 1.130 863 |
5 | 12.135 100 | 12.522 220 |
6 | 3.499 518 | 2.913 096 |
7 | 1.882 662 | 3.564 317 |
8 | 23.741 600 | 22.754 823 |
9 | 3.070 070 | 3.461 867 |
10 | 4.122 445 | 3.978 553 |
均值 | 5.429 494 | 5.340 472 |
图4 两种算法计算正域的时间消耗
Fig. 4 Two algorithms calculate the time consumption of positive region
在数据的预处理阶段,由于MGRST模型处理的是离散型数据,因此,对前4组数据使用等宽离散化方法进行离散化,再利用MGRST模型计算离散数据。MGBRST模型处理前4组连续数据以及后6组离散数据。
观察
为了更好地对比MGBRST模型和MGBRST模型正域生成的关系,本节主要讨论两种模型在6个数据的正域样本数和包含度,包含度的计算如式(17)所示。
实验选取后6个离散型数据,分别利用两种模型对4个数据集求解,可得4个数据集在两种模型下生成的正域的样本个数和包含度α的结果如
图5 两种模型下生成的正域样本个数
Fig. 5 Number of positive region samples generated under two models
图6 6种数据集下的包含度
Fig. 6 Inclusion degree under six types of data set
观察
考虑到粒球粗糙集不能处理多粒度数据问题。为了解决该问题,本文将粒球思想与多粒度粗糙集模型结合,提出了多粒度粒球粗糙集模型,并讨论了多粒度粒球粗糙集的相关性质。此外,给出了该模型正域的计算算法。研究发现,多粒度粒球粗糙集能更好地刻画数据之间的内在联系,能进一步划分正域中的样本,减少样本数,便于决策者决策。最后,本文通过实验表明了多粒度粒球粗糙集模型的可行性和有效性。今后将进一步探索多粒度粒球粗糙集的相关研究,着重考虑基于该模型的粒度约简等问题。
PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11: 341-356. [百度学术]
WEI J M, WANG S Q, YUAN X J. Ensemble rough hypercuboid approach for classifying cancers[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(3): 381-391. [百度学术]
马文萍, 黄媛媛, 李豪, 等. 基于粗糙集与差分免疫模糊聚类算法的图像分割[J]. 软件学报, 2014, 25(11): 2675-2689. [百度学术]
MA W P, HUANG Y Y, LI H, et al. Image segmentation based on rough set and differential immune fuzzy clustering algorithm[J]. Journal of Software, 2014, 25(11): 2675-2689. [百度学术]
QIAN Y H, XU H, LIANG J Y, et al. Fusing monotonic decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2717-2728. [百度学术]
QIAN Y H, LIANG X Y, WANG Q, et al. Local rough set: A solution to rough data analysis in big data[J]. International Journal of Approximate Reasoning, 2018, 97: 38-63. [百度学术]
VIDHYA K A, GEETHA T V. Entity resolution framework using rough set blocking for heterogeneous web of data[J]. Journal of Intelligent & Fuzzy Systems, 2018, 34(1): 659-675. [百度学术]
HU M J, YAO Y Y. Structured approximations as a basis for three-way decisions in rough set theory[J]. Knowledge-Based Systems, 2019, 165: 92-109. [百度学术]
梁吉业, 钱宇华, 李德玉, 等. 面向大数据的粒计算理论与方法研究进展[J]. 大数据, 2016, 2(4): 13-23. [百度学术]
LIANG J Y, QIAN Y H, LI D Y, et al. Research development on granular computing theory and method for big data[J]. Big Data research, 2016, 2(4): 13-23. [百度学术]
KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information Sciences, 1998, 112(1/2/3/4): 39-49. [百度学术]
王国胤. Rough集理论在不完备信息系统中的扩充[J] 计算机研究与发展, 2002, 39(10): 1238-1243. [百度学术]
WANG G Y. Extension of rough set under incomplete information systems[J]. Journal of Computer Research and Development, 2002, 39(10): 1238-1243. [百度学术]
STEFANOWSKI J, TSOUKIAS A. Incomplete information tables and rough classification[J] Computational Intelligence, 2001, 17(3): 545-566. [百度学术]
QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: A multi-granulation rough set[J]. Information Sciences, 2010, 180(6): 949-970. [百度学术]
QIAN Y H, LIANG J Y, DANG C Y. Incomplete multigranulation rough set[J]. IEEE Transactions on Systems Man and Cybernetics-Part A: Systems and Humans, 2010, 40(2): 420-431. [百度学术]
QIAN Y H, LI S Y, LIANG J Y, et al. Pessimistic rough set based decisions: A multigranulation fusion strategy[J]. Information Sciences, 2014, 264: 196-210. [百度学术]
HU Q H, YU D R, XIE Z X. Neighborhood classifiers[J]. Expert Systems with Applications, 2008, 34(2): 866-876. [百度学术]
李楠, 谢娟英. 基于邻域粗糙集的增量特征选择[J]. 计算机技术与发展, 2011, 21(11): 149-152. [百度学术]
LI N, XIE J Y. A feature subset selection algorithm based on neighborhood rough set for incremental updating datasets[J]. Computer Technology and Development, 2011, 21(11): 149-152. [百度学术]
胡清华, 赵辉, 于达仁. 基于邻域粗糙集的符号与数值属性快速约简算法[J]. 模式识别与人工智能, 2008, 21(6): 732-738. [百度学术]
HU Q H, ZHAO H, YU D R. Efficient symbolic and numerical attribute reduction with neighborhood rough sets[J]. Pattern Recognition and Artificial Intelligence, 2008, 21(6):732-738. [百度学术]
彭潇然, 刘遵仁, 纪俊. 自适应的邻域粗糙集邻域大小取值方法[J]. 计算机应用研究, 2019, 36(1): 144-147. [百度学术]
PENG X R, LIU Z R, JI J. Adaptable method for determining neighborhood size of neighborhood rough set[J]. Application Research of Computers, 2019, 36(1): 144-147. [百度学术]
XIA S Y, LIU Y S, DING X, et al. Granular ball computing classifiers for efficient scalable and robust learning[J]. Information Sciences, 2019, 483(1): 136-152. [百度学术]
XIA S Y, WANG C, WANG G Y, et al.GBRS: An unified model of Pawlak rough set and neighborhood rough set[EB/OL]. (2022-01-10)[2023-06-01]. http://arxiv.org/abs/2201.03349. [百度学术]
XIA S Y, PENG D W, MENG D Y, et al. Ball k-means: Fast adaptive clustering with no bounds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 87-99. [百度学术]
XIA S Y, ZHANG H, LI W H, et al. GBNRS: A novel rough set algorithm for fast adaptive attribute reduction in classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(3): 1231-1242. [百度学术]
XIA S Y, ZHENG S Y, WANG G Y, et al.Granular ball sampling for noisy label classification or imbalanced classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 2144-2155. [百度学术]
陈中华, 巴婧, 徐泰华, 等. 一种面向粒球粗糙集的快速约简求解方法[J]. 小型微型计算机系统, 2023, 44(1): 24-29. [百度学术]
CHEN Z H, BA J, XU T H, et al. Quick strategy for searching granular ball rough set based reduct[J]. Journal of Chinese Computer Systems, 2023, 44(1): 24-29. [百度学术]
XIE J, XIA S Y, WANG G Y, et al. GBMST: An efficient minimum spanning tree clustering based on granular-ball computing[EB/OL]. (2023-03-02)[2023-06-01]. http://arxiv.org/abs/2303.01082. [百度学术]
251
浏览量
314
下载量
0
CSCD
相关文章
相关作者
相关机构