注册 登录 English Version 陕西省科技期刊编辑学会
您当前的位置:
首页 >
文章列表页 >
多粒度粒球粗糙集模型
粒计算与概念知识获取 | 更新时间:2024-04-19
    • 多粒度粒球粗糙集模型

    • Multi-granulation rough set model based on granular-ball computing

    • 蒋珊珊

      ,  

      林国平

      ,  

      林艺东

      ,  

      寇毅

      ,  
    • 西北大学学报(自然科学版)   2024年54卷第2期 页码:197-208
    • DOI:10.16152/j.cnki.xdxbzr.2024-02-006    

      中图分类号: TP391
    • 纸质出版日期:2024-04-25

      收稿日期:2023-09-15

    扫 描 看 全 文

  • 引用本文

    阅读全文PDF

  • 蒋珊珊, 林国平, 林艺东, 等. 多粒度粒球粗糙集模型[J]. 西北大学学报(自然科学版), 2024,54(2):197-208. DOI: 10.16152/j.cnki.xdxbzr.2024-02-006.

    JIANG Shanshan, LIN Guoping, LIN Yidong, et al. Multi-granulation rough set model based on granular-ball computing[J]. Journal of Northwest University (Natural Science Edition), 2024,54(2):197-208. DOI: 10.16152/j.cnki.xdxbzr.2024-02-006.

  •  
  •  
    论文导航

    摘要

    基于粒球计算的粗糙集理论作为知识发现和数据挖掘的重要工具之一,已成功地应用于标记预测、属性约简等。而现有的粒球粗糙集模型仅仅是从单粒度出发,无法从多粒度角度对数据进行分析和处理,实际生活中仍有很多应用场景需从多粒度角度进行思考。将粒球计算思想结合到多粒度粗糙集模型,提出了多粒度粒球粗糙集模型,并讨论了该模型的相关性质。该模型通过纯度的设定对数据进行粒球划分,能够有效地刻画数据之间的内在联系,以此设计多粒度粒球粗糙集的正域生成算法。实验分析表明该模型的可行性和有效性。

    Abstract

    As one of the important tools for knowledge discovery and data mining, rough set theory based on granular-ball computing has been successfully applied to label prediction and attribute reduction. However, the existing granular-ball rough set models only consider a single granulation, and cannot analyze and process data from a multi-granulation, and there are still many application scenarios that need to be considered from the perspective of multi-granulation. Based on this, this paper proposes a multi-granulation rough set based on granular-ball computing by embedding the idea of granular-ball in the multi-granulation rough set model, and discusses the relevant properties of the model. The model divides the data by setting the purity, which can effectively depict the internal relationship between the data, and thus design a position region generation algorithm for multi-granulation granular-ball rough set. Experimental analysis shows the feasibility and effectiveness of this model.

    关键词

    粒球计算; 粒球粗糙集; 多粒度粗糙集; 纯度

    Keywords

    granular-ball computing; granular-ball rough set; multi-granulation rough set; purity

    粗糙集理论是Pawlak[

    1]于1982年提出的一种能够有效分析和处理不精确、不一致、不完整信息的数学方法。粗糙集理论[2-7]已经广泛地应用于模式识别、数据挖掘、机器学习、决策支持系统等领域。为了处理不同类型的信息系统,许多学者将Pawlak粗糙集模型扩充为容差关系、相似关系、限制容差关系、优势关系和模糊关系粗糙集等[8-11]。然而,经典粗糙集模型基于单个不可分辨二元关系的单一粒度框架,无法从多粒度、多层次的角度对数据进行分析和处理,单一粒度框架下的数据处理方法已经不能满足实际应用的需求。基于此,Qian等人从粒计算的角度出发,考虑多个二元关系,将单粒度粗糙集模型拓展至多粒度结构,提出多粒度粗糙集思想,建立基于“求同存异”思想的乐观多粒度粗糙集和基于“求同排异”思想的悲观多粒度粗糙集[12-14]

    此外,传统的粗糙集模型只能处理离散数据,而现实中的数据多为连续数据,离散化不可避免地造成信息的丢失。为了解决这一问题,Hu等提出了邻域粗糙集,利用邻域来描述样本之间的关系,能够有效地处理连续型数据[

    15]。基于它的诸多优势,许多学者对其进行了相关的研究和改进。李和谢提出了一种基于邻域粗糙集的特征子集增量式更新NRS加速方法[16]。胡和赵等根据样本的分布提出了基于不确定性和邻域关系粗糙集的增量属性约简方法[17]。彭和刘等设计了一个适应度函数,它结合了数据集和分类器的属性,从给定的邻域半径区间中选择最优邻域半径[18]

    然而,邻域粗糙集的上下近似是由样本点组成,而不是等价类,因此使邻域粗糙集失去了可解释性。基于此,Xia等人提出了一种基于粒球计算[

    19]的粒球粗糙集[20],通过引入粒球计算来表示邻域,用等价类来表示上下近似,从而实现Pawlak粗糙集和邻域粗糙集的统一。Xia等提出的粒球计算是一种基于颗粒认知计算的新型、高效、鲁棒的粒计算方法,其核心思想是利用“粒球”覆盖或部分覆盖样本空间[19]。此外,Xia等还将粒球计算进行改进和发展,提出粒球分类器[19]、粒球聚类[21]、粒球邻域粗糙集[22]和粒球采样方法[23]。其中,粒球邻域粗糙集可以自动优化邻域半径。粒球计算还拓展到基于伪标签粒球粗糙集的约简[24]、粒球生成树聚类算法[25]等研究。

    受文献[

    12]、[20]的启发,本文借鉴粒球计算的思想,结合多粒度粗糙集模型,提出“多粒度粒球粗糙集模型”,将粒球粗糙集从单一粒度拓展为多粒度。此外,讨论了该模型的重要性质,给出了多粒度粒球粗糙集正域的生成算法,并通过实验验证该模型的可行性和有效性。

    1 相关知识

    本节主要回顾多粒度粗糙集、粒球粗糙集的相关知识。

    1.1 多粒度粗糙集

    Qian等将Pawlak粗糙集模型扩展为多粒粗糙集模型,该模型通过论域上的多重等价关系定义集合近似[

    12]

    定义1  [

    12]     设DS=〈UATV, f〉是一个完备的信息系统,任意B∈2ATB={B1B2,…,Bm},BiATi=1,2,…,m。对于任意XU,则X关于B的上、下近似表示为
    math (1)
    math (2)

    math 为多粒度粗糙集模型。

    1.2 粒球粗糙集

    Xia等提出粒球计算方法,此方法能够在信息粒化过程中,自适应地生成粒球信息粒[

    19]。进一步提出粒球粗糙集,从而实现了Pawlak粗糙集和邻域粗糙集的统一表示。

    定义2  [

    20]     设GB={xii=1,2,…,N}为粒球,xi表示粒球GB内的样本,N为粒球GB中样本的个数。粒球GB的中心C和半径r分别定义为
    math (3)
    math (4)

    定义3  [

    20]     设粒球GB={xii=1,2,…,N},xi表示粒球GB的样本,N为粒球GB中样本的个数。设M为粒球GB样本标签占比最大的样本数,则可定义粒球GB的纯度为
    math (5)

    在粒球的生成过程中,首先,将整个数据集视为一个粒球;其次,计算粒球纯度,纯度不满足时将粒球均分为2个子球,依次进行迭代,直到所有粒球的纯度满足要求时,边界最清晰且算法收敛。其主要步骤如下:

    1)假设m表示当前粒球的数量,将论域U初始化为一个粒球,令m=1;

    2)利用k-means聚类算法对每个粒球进行聚类,令k=2,则每个粒球分裂为两个子粒球,此时粒球数量为2m

    3)计算所有的子粒球的纯度Purity,若所有的子粒球纯度达到要求或粒球半径r达到指定的阈值,则算法结束;否则,则返回步骤2)。

    定义4  [

    18]     设DS=〈UATV, f〉是一个完备的信息系统,任意xiU,其中cjrj分别表示粒球GBj的中心和半径,则粒球GBj定义为
    math (6)

    其中:Δ(xcj)表示任意的对象xU与中心cj的距离度量。本文中math f(x, a)表示对象在属性a下的属性值,U′表示为k-means聚类算法每次迭代的类样本。

    定义5  [

    20]     设DS=〈UATV, f〉是一个完备的信息系统,任意xyUBAT,粒球GB基于属性集B下的不可分辨关系定义为INDGB(B)={(xy)∈U2|f(xa)=f(ya)=GB,∀aB}。

    根据定义5,存在(xy)∈INDGB(B),则xy等价。论域UGB下的划分表示为U/GB(B),粒球GB在不可分辩关系INDGB(B)下的等价类表示为[x]GB(B)={yU|(xy)∈INDGB(B)},[x]GB(B)U/GB(B)的元素。

    定义6  [

    20]     设DS=〈UATDV, f〉是一个完备的决策信息系统,U是非空有限集合,AT是属性集,决策D将论域U划分为L个等价类,表示为U/D={X1X2,…,XL},任意BAT,在U上存在着相应的等价关系GBRBD关于属性集B的上、下近似分别定义为
    math (7)
    math (8)
    其中,对于任意xU
    math

    定义7  [

    20]     设DS=〈UATDV, f〉是一个完备的决策信息系统,任意BATDS关于属性集B的正域和边界域定义为
    math (9)
    math (10)

    2 多粒度粒球粗糙集模型

    在本节内容中,借鉴粒球计算的思想,结合多粒度粗糙集模型,构造多粒度粒球粗糙集模型。

    定义8   设DS=〈UATV, f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2ATB={B1B2,…,Bm},BiATi=1,2,…,m。在U上存在基于Bi的粒球math 相应的等价关系math 。对于任意XUX关于B的上、下近似定义为

    math (11)
    math (12)
    math 为多粒度粒球粗糙集,并称math X关于B的正域,math X关于B的边界域。

    性质1   设DS=〈U,AT,V,f〉,是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},BiB,在U上存在基于BBi的粒球GBmath ,其相应的等价关系为GBRBmath 。对任意XU,X关于B的上、下近似有以下的性质:

    1) math

    2) math

    证明   1)由定义8得,任意math ,则至少存在i=j(jm),使得math 。又因math ,则任意math ,存在Xj(ja)⊆GB(Bi),使得XiXj,则math 。综上,有math

    2)由Pawlak粗糙集理论的相关性质可得math ,又根据性质(1)有

    math

    性质2   设DS=〈U,AT,V,f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球math 相应的等价关系math 。假设有XU,则X关于属B的上、下近似的性质有

    1) math ;

    2) math ;math ;

    3) math ;math ;

    4) math ;

    5) math

    证明  

    1a)令x,math ,且有X/GB(Bi)⊆X,则至少存在一个划分X/GB(Bi),使得xX/GB(Bi),且yX/GB(Bi);又因x,yX,则math

    1b)令x,yX,则有xX/GB(Bi)∩X,且yX/GB(Bi)∩X;又X/GB(Bi)X=Ø,所以x,math math

    2a)根据1)可得math ,又有math (空集是任何集合的子集),则有math ;假设math ,据定义有math ,而math ,这与假设矛盾,因此有math

    2b)根据1)可得math ,若xUmath 。则math math ,因此,math

    3a) math

    3b)根据3a),令X=~X,则

    math

    4)任意xU,如果有X/GB(Bi)⊆X,则math ,若存在y,使

    math
    X/GB(Bi)=Ø,所以
    math

    5)根据性质4)可得

    math

    性质3   设DS=〈U,AT,V,f〉是一个完备的信息系统,U是非空有限集合,AT是属性集。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球math 相应的等价关系math 。假设有X,YU,则X,Y关于B的上、下近似的性质有

    1)math ;

    2)math ;

    3)math ;

    4)math ;

    5)math ;

    6) math ;

    7) math ;

    8) math

    证明   先证明1)。

    math

    2)与1)类似可以证得。

    math

    由1)可以得出3)的证明。

    math

    由2)可得出4)的证明。

    math

    5)如果XY, XY=X,则根据性质3)可得

    math
    则有math

    6)若XY,XY=Y,则根据性质4)可得

    math
    则有math

    7) XXYYXY。则根据性质5),满足math ,且有math ,则有

    math

    8)根据性质7),显然XYX,XYY,根据XYX则有

    math
    综上所述,
    math

    基于以上性质,将粒球粗糙集模型拓展为多粒度粒球粗糙集模型。其中,该模型的集合近似通过论域上的多个等价关系来定义。

    定义9   设DS=〈U,ATD,V,f〉是一个完备的决策信息系统,决策属性D将论域U划分为L个等价类,表示为U/D={X1,X2,…,XL}。任意B∈2AT,B={B1,B2,…,Bm},在U上存在基于Bi的粒球math 相应的等价关系math D关于B的上下近似定义为

    math (13)
    math (14)

    与粒球粗糙集相似,可以根据经典粗糙集理论得出粒球粗糙集的正域、边界域的表示。

    定义10   设DS=〈UATDVf〉是一个完备的决策信息系统,∀BATD关于B的正域和边界域定义为

    math (15)
    math (16)

    根据上述定义和性质,基于Xia等的粒球粗糙集模型计算正域的算法[

    20],结合多粒度粗糙集的理论,设计出多粒度粒球粗糙集计算正域的算法如下。

    算法1   多粒度粒球粗糙集在第i个粒度下正域生成

    输入   DS=〈UAT∪{d},f〉/*完备决策信息系统*/;

    k/*DS的类别个数*/;

    GBS/*用于临时储存GBn*/;

    size(GB)/*最小粒径*/;

    Purity/*纯度阈值*/。

    输出   GBRSi/*存储满足条件的GB*/。

    步骤1   初始化。

    步骤2   对数据集DS=〈U, ATD, V, f〉进行划分,设AT={AT1, AT2, …,ATm},DSi=〈UATiDVf〉为DS的第i个子信息系统。

    步骤3   对DSi进行k-means聚类分析。计算各簇心Cn和粒球半径rn,绘制粒球GBn。/*将GBn保存在GBS内*/

    步骤4   if ∃GBnGBS,Purity<1,do

    1)生成粒球GBn内的数据集DSn

    2)返回步骤3。

    until ∀GBnGBS,Purity=1 or

    size(GBi)<size(GB)。

    GBRSiGBn

    end

    步骤5   输出GBRSi(i=1,2,…,m)。

    在算法1中,假设论域U被分解为|GBS|个粒球,迭代次数最多为(|U|×|GBS|)。因此,算法1的时间复杂度为O(|U|×|GBS|)。

    算法2   多粒度粒球粗糙集正域生成

    输入   POS_GBRSi(i=1,2,…,m)。

    输出   POS_MGBRST/*多粒度粒球粗糙集正域*/。

    步骤1   for i=1∶m

    if ∃GBGBRSi,Purity<1,do

    POS_GBrSiGBRSi\GB

    end

    end

    步骤2   对∀POS_GBRSi,do

    POS_MGBRSPOS_GBRS1

    POS_GBRS2∪…∪POS_GBRSm

    步骤3   输出POS_MGBRS

    由算法1可知,在最坏的情况下,多粒度粒球粗糙集在第i个粒度下正域生成所需的迭代次数为O(|U|×|GBS|)。此外,假定在粒度划分时,粒度划分为AT={AT1AT2,…,ATm}。结合算法1可得算法2的时间复杂度为O(|U|×|GBS|×|m|)。

    3 案例的说明与比较分析

    例1   表1是一个多专家面试学生的决策信息表。其中:U={x1x2x3x4x5x6}表示6位不同的学生;条件属性集B={a1a2a3a4a5a6}表示生物、管理领域的专家团队对学生是否通过面试的赞成率;决策属性D={d}表示学生能否通过面试。其中:“1”表示通过面试;“0”则表示不通过面试。结合相关性质,可将属性集B分成B1B2。其中B1表示生物领域,B2表示管理领域,即B={B1B2}={{a1a2a3},{a4a5a6}},且设最小粒径size(GB)=2(决定粒球GB是否继续迭代的最小样本数)。

    表1  多专家面试学生评估表
    Tab. 1  Multi-expert interview student assessment form
     a1a2a3a4a5a6d
    x1 0.6 0.7 0.7 0.7 0.6 0.7 0
    x2 0.8 0.8 0.7 0.6 0.6 0.6 1
    x3 0.7 0.6 0.6 0.7 0.9 0.7 0
    x4 0.8 0.7 0.7 0.8 0.7 0.8 1
    x5 0.6 0.8 0.8 0.6 0.8 0.7 0
    x6 0.6 0.8 0.8 0.6 0.7 0.8 0
    icon 下载:  CSV icon 下载:  表格图片

    根据定义2可求得在粒度B1B2下,粒球GBi的球心ci、半径ri。各样本到球心Ci的距离d表2所示。

    表2  各样本到中心的距离
    Tab. 2  Distance from each sample to center
     c1c2
    x1 0.007 7 0.015 7
    x2 0.019 7 0.033 7
    x3 0.023 7 0.033 7
    x4 0.015 7 0.023 7
    x5 0.025 7 0.011 7
    x6 0.025 7 0.011 7
    icon 下载:  CSV icon 下载:  表格图片

    C1=(0.68,0.73,0.68);

    C2=(0.67,0.72,0.72);

    r1=0.019 7;r2=0.021 7。

    则根据定义4和表2可以求得粒球GBi的样本集如下。

    GB1={x1x2x4};

    GB2={x1x5x6}。

    根据定义3计算粒球GB1GB2的纯度为

    Purity(GB1)=0.666 7,

    Purity(GB2)=1。

    又因为Purity(GB1)=0.666 7<1;且size(GB1)≥2,因此,对GB1进行第二次迭代,根据定义2计算簇心和半径可得

    C11=(0.73,0.73,0.70),r11=0.01。

    同理根据定义4可得

    GB11={x2x4},

    Purity(GB11)=1。

    根据定义8,可以求得论域U在属性集B下近似为

    math
    进而,可以得到D关于属性集B正域为
    math

    注1   例1中粒球GBi使用的最小粒径是粒球内样本个数为2(样本分为2类),在实际计算中,最小粒径的取值可以大于类别个数,否则会出现样本都是正域的情况,不利于正确地分类。

    注2   在k-means聚类算法中,使用的距离度量是Squared Euclidean Distance。因此,例1使用相同的度量。

    注3   例1中计算簇心的方法是利用对所有f(xci),i=1,2…,m取均值。实验中可以根据样本的类别标签,分别对所分的簇求均值从而得到簇心和半径。

    采用多粒度粗糙集模型进行计算过程如表3所示,所得正域的结果与多粒度粒球粗糙集进行对比,结果如表4所示。

    表3  例1在多粒度粗糙集模型下的计算结果
    Tab. 3  Calculation results of example 1 under multi-granulation rough set model
     在各属性下的划分下近似
    a1 {{x1x5x6},{x2x4},{x3}} {x3}
    a2 {{x1x4},{x2x5x6},{x3}} {x4}
    a3 {{x1x2x4},{x3},{x5x6}} {x3x5x6}
    a4 {{x1x3},{x2x5x6},{x4}} {x1x3x4}
    a5 {{x1x2},{x3},{x4x6},{x5}} {x3x5}
    a6 {{x1x3x5},{x2},{x4x6}} {x1x2x3x5}
    d {{x1x3x5x6},{x2x4}} {x1x2x3x4x5x6}
    icon 下载:  CSV icon 下载:  表格图片
    表4  例1在两个模型下计算正域的结果
    Tab. 4  Positive region calculating results of example 1 under two models
    模型POSB(D)
    MRST {x1x2x3x4x5x6}
    MGBRST {x1x2x4x5x6}
    icon 下载:  CSV icon 下载:  表格图片

    通过对比和分析例1在粒球粗糙集模型(MGRST)和多粒度粒球粗糙集模型(MGBRST)正域生成的结果(见图1),根据表3,可以得到POSB(D)MGBRST⊆POSB(D)MGRST。这是因为MGBRST模型结合了粒球粗糙集更细致的描述能力,更好地刻画了数据之间的内在联系,减少部分目标区域的样本,便于进一步决策。

    fig

    图1  例1的多粒度粒球粗糙集的生成过程

    Fig. 1  The generation process of granular-ball rough set model based on multi-granulation in example 1

    注:  红色表示决策属性为“1”;蓝色表示决策属性为“0”。(a)、(b)表示论域U分别在粒度B1B2下的划分。根据纯度的定义,可以得到(a)中的粒球纯度为1,则表示正域,若粒球纯度不为1,如(b),则表示边界域。(c)表示对(b)粒球进行迭代,根据定义,最终结果如(d),可以得到最终多粒度粒球粗糙集的正域。

    icon 下载:  原图 | 高精图 | 低精图

    4 实验结果与分析

    对于本文提出的多粒度粒球粗糙集模型生成正域算法,本节通过实验分析验证其可行性和有效性。所有实验硬件环境配置为AMD Ryzen 5 2500U CPU@ 2.00 GHz和8 GB内存的个人计算机,算法运行的软件环境为Matlab R2021b。

    为了验证所提算法的有效性,在本节中,从UCI中选取了10组基准数据集进行相关的实验对比分析,其中前4组为连续型数据,后6组为离散型数据。数据的具体描述见表5

    表5  数据集描述
    Tab. 5  Data sets description
    ID数据集名称样本数属性数决策类数
    1 Wine 178 13 3
    2 Iris 150 4 3
    3 Segmentation 2 310 19 7
    4 Pima 768 8 2
    5 Mushroom 7 535 22 2
    6 Zoo 101 16 7
    7 Lymphography 148 18 4
    8 Mushroom1 8 124 22 2
    9 German 1 000 21 2
    10 Anneal 798 39 5
    icon 下载:  CSV icon 下载:  表格图片

    4.1 参数分析

    在数学实验中,选择最优的参数进行对比实验是一个重要的步骤。多粒度粒球粗糙集模型(MGBRST)生成正域算法中需要考虑的参数为最小粒径size(GB),即颗粒球GB内的最小样本数,它决定了颗粒球GB是否继续迭代;由于正域生成算法设置纯度阈值为“1”,因此实验不考虑纯度阈值的影响。选取German、Zoo、Lymphography、Anneal进行参数分析,size(GB)的选择范围为2~7。考虑参数对算法的时间消耗/s和包含度/%的影响,可视化结果如图23所示。

    fig

    图2  参数size(GB)的大小对时间消耗的影响

    Fig. 2  The effect of parameter size (GB) on time consumption

    icon 下载:  原图 | 高精图 | 低精图
    fig

    图3  参数size(GB)的大小对包含度的影响

    Fig. 3  The effect of parameter size (GB) on inclusion

    icon 下载:  原图 | 高精图 | 低精图

    包含度的定义如下:在多粒度粒球粗糙集模型(MGBRST)中,由于粒球刻画了数据之间的内在联系和规律,因此生成的正域的样本数从理论上来说将少于多粒度粗糙集(MGRST),并且可能包含在多粒度粗糙集(MGRST)中。故本文根据梁等提出的思想,即包含度可作为建立粗糙集数据分析中的度量的主要依据[

    26],定义在MGBRST模型上正域生成的样本关于MGRST模型的包含度α
    math (17)
    其中:XMG表示在MGRST模型下生成正域的样本集;XMGB表示在MGBRST模型下生成正域的样本集;|XMGB|表示集合XMGB的基数。

    参数越小,迭代的次数越多,时间消耗理论上就越大;除此外,参数的设定还与数据类别有关,且k-means算法具有随机性,因此找到合适的参数是必要的。如图2所示,参数size(GB)的大小对4个数据集的影响不同。数据集Anneal受参数的影响较小,而数据集German受参数的影响较大。参数的大小还影响了包含度的大小,最小粒径越小,迭代的次数越多,理论上得到的粒球就越多,包含度可能就越大;此外,参数过小也可能出现生成单点集的情况,这样也一定程度上减少了正域样本的生成,导致包含度下降。如图3所示数据集Anneal受参数的影响较小,而数据集Lymphography受参数的影响较大,曲线呈大幅度下降趋势。综上所述,结合图23,选择最优的参数。如German数据集中选择size(GB)的值为4,能更好地结合时间消耗小和包含度高这两个优点。各数据集的参数大小选择如表6所示。

    表6  各数据集的参数选择
    Tab. 6  Parameter selection for each dataset
    IDSize(GB)
    1 3
    2 2
    3 6
    4 3
    5 5
    6 3
    7 3
    8 5
    9 4
    10 7
    icon 下载:  CSV icon 下载:  表格图片

    4.2 正域生成的时间消耗对比

    在本节实验中,将针对钱等提出的多粒度粗糙集模型(MGRST)[

    12]及本文提出的多粒度粒球粗糙集模型(MGBRST),进行时间消耗的对比,最终采集的时间消耗为两种方法分别求解正域所需时间的均值,具体结果如表7图4所示。

    表7  两种模型计算正域的时间消耗
    Tab. 7  Two models calculate the time consumption of positive region
    IDMGRST/sMGBRST/s
    1 0.541 091 0.484 320
    2 0.271 866 0.179 734
    3 3.460 916 2.414 930
    4 1.596 670 1.130 863
    5 12.135 100 12.522 220
    6 3.499 518 2.913 096
    7 1.882 662 3.564 317
    8 23.741 600 22.754 823
    9 3.070 070 3.461 867
    10 4.122 445 3.978 553
    均值 5.429 494 5.340 472
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图4  两种算法计算正域的时间消耗

    Fig. 4  Two algorithms calculate the time consumption of positive region

    icon 下载:  原图 | 高精图 | 低精图

    在数据的预处理阶段,由于MGRST模型处理的是离散型数据,因此,对前4组数据使用等宽离散化方法进行离散化,再利用MGRST模型计算离散数据。MGBRST模型处理前4组连续数据以及后6组离散数据。

    观察表7图4,不难得出如下结论:利用多粒度粒球粗糙集模型(MGBRST)计算正域的时间消耗大多低于传统的多粒度粗糙集模型(MGRST)。这说明粒球与多粒度粗糙集的结合,可以有效地提升计算正域的效率;其次,多粒度粒球粗糙集模型(MGBRST)不仅可以处理连续型数据,还可以处理离散型数据。

    4.3 正域生成的样本数和包含率对比

    为了更好地对比MGBRST模型和MGBRST模型正域生成的关系,本节主要讨论两种模型在6个数据的正域样本数和包含度,包含度的计算如式(17)所示。

    实验选取后6个离散型数据,分别利用两种模型对4个数据集求解,可得4个数据集在两种模型下生成的正域的样本个数和包含度α的结果如表8图56所示。

    表8  两种模型生成的正域样本个数和包含度α的值
    Tab. 8  Number and inclusion degree α of positive region samples generated by the two models
    IDMGRSTMGBRSTα
    5 3 151 1 264 0.999 2
    6 61 38 1.000 0
    7 20 7 0.914 4
    8 4 896 3 884 0.918 6
    9 653 110 0.922 4
    10 538 96 1.000 0
    均值 0.959 1
    icon 下载:  CSV icon 下载:  表格图片
    fig

    图5  两种模型下生成的正域样本个数

    Fig. 5  Number of positive region samples generated under two models

    icon 下载:  原图 | 高精图 | 低精图
    fig

    图6  6种数据集下的包含度

    Fig. 6  Inclusion degree under six types of data set

    icon 下载:  原图 | 高精图 | 低精图

    观察表8图56可知,6个数据集在MGBRST模型下生成正域的样本个数明显小于MGRST模型下生成正域的样本个数;且包含度α基本上稳定在0.9以上,Zoo数据集和Anneal数据集的包含度α为1。这说明MGBRST模型是MGRST模型的一个拓展模型,它结合了粒球粗糙集更细致的描述能力,更好地刻画了数据之间的内在联系和规律,可以进一步划分正域中不被需要的那一部分。

    5 结语

    考虑到粒球粗糙集不能处理多粒度数据问题。为了解决该问题,本文将粒球思想与多粒度粗糙集模型结合,提出了多粒度粒球粗糙集模型,并讨论了多粒度粒球粗糙集的相关性质。此外,给出了该模型正域的计算算法。研究发现,多粒度粒球粗糙集能更好地刻画数据之间的内在联系,能进一步划分正域中的样本,减少样本数,便于决策者决策。最后,本文通过实验表明了多粒度粒球粗糙集模型的可行性和有效性。今后将进一步探索多粒度粒球粗糙集的相关研究,着重考虑基于该模型的粒度约简等问题。

    参考文献

    [1]

    PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11: 341-356. [百度学术] 

    [2]

    WEI J M, WANG S Q, YUAN X J. Ensemble rough hypercuboid approach for classifying cancers[J]. IEEE Transactions on Knowledge and Data Engineering, 2010, 22(3): 381-391. [百度学术] 

    [3]

    马文萍, 黄媛媛, 李豪, . 基于粗糙集与差分免疫模糊聚类算法的图像分割[J]. 软件学报, 2014, 25(11): 2675-2689. [百度学术] 

    MA W P, HUANG Y Y, LI H, et al. Image segmentation based on rough set and differential immune fuzzy clustering algorithm[J]. Journal of Software, 2014, 25(11): 2675-2689. [百度学术] 

    [4]

    QIAN Y H, XU H, LIANG J Y, et al. Fusing monotonic decision trees[J]. IEEE Transactions on Knowledge and Data Engineering, 2015, 27(10): 2717-2728. [百度学术] 

    [5]

    QIAN Y H, LIANG X Y, WANG Q, et al. Local rough set: A solution to rough data analysis in big data[J]. International Journal of Approximate Reasoning, 2018, 97: 38-63. [百度学术] 

    [6]

    VIDHYA K A, GEETHA T V. Entity resolution framework using rough set blocking for heterogeneous web of data[J]. Journal of Intelligent & Fuzzy Systems, 2018, 34(1): 659-675. [百度学术] 

    [7]

    HU M J, YAO Y Y. Structured approximations as a basis for three-way decisions in rough set theory[J]. Knowledge-Based Systems, 2019, 165: 92-109. [百度学术] 

    [8]

    梁吉业, 钱宇华, 李德玉, . 面向大数据的粒计算理论与方法研究进展[J]. 大数据, 2016, 2(4): 13-23. [百度学术] 

    LIANG J Y, QIAN Y H, LI D Y, et al. Research development on granular computing theory and method for big data[J]. Big Data research, 2016, 2(4): 13-23. [百度学术] 

    [9]

    KRYSZKIEWICZ M. Rough set approach to incomplete information systems[J]. Information Sciences, 1998, 112(1/2/3/4): 39-49. [百度学术] 

    [10]

    王国胤. Rough集理论在不完备信息系统中的扩充[J] 计算机研究与发展, 2002, 39(10): 1238-1243. [百度学术] 

    WANG G Y. Extension of rough set under incomplete information systems[J]. Journal of Computer Research and Development, 2002, 39(10): 1238-1243. [百度学术] 

    [11]

    STEFANOWSKI J, TSOUKIAS A. Incomplete information tables and rough classification[J] Computational Intelligence, 2001, 17(3): 545-566. [百度学术] 

    [12]

    QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: A multi-granulation rough set[J]. Information Sciences, 2010, 180(6): 949-970. [百度学术] 

    [13]

    QIAN Y H, LIANG J Y, DANG C Y. Incomplete multigranulation rough set[J]. IEEE Transactions on Systems Man and Cybernetics-Part A: Systems and Humans, 2010, 40(2): 420-431. [百度学术] 

    [14]

    QIAN Y H, LI S Y, LIANG J Y, et al. Pessimistic rough set based decisions: A multigranulation fusion strategy[J]. Information Sciences, 2014, 264: 196-210. [百度学术] 

    [15]

    HU Q H, YU D R, XIE Z X. Neighborhood classifiers[J]. Expert Systems with Applications, 2008, 34(2): 866-876. [百度学术] 

    [16]

    李楠, 谢娟英. 基于邻域粗糙集的增量特征选择[J]. 计算机技术与发展, 2011, 21(11): 149-152. [百度学术] 

    LI N, XIE J Y. A feature subset selection algorithm based on neighborhood rough set for incremental updating datasets[J]. Computer Technology and Development, 2011, 21(11): 149-152. [百度学术] 

    [17]

    胡清华, 赵辉, 于达仁. 基于邻域粗糙集的符号与数值属性快速约简算法[J]. 模式识别与人工智能, 2008, 21(6): 732-738. [百度学术] 

    HU Q H, ZHAO H, YU D R. Efficient symbolic and numerical attribute reduction with neighborhood rough sets[J]. Pattern Recognition and Artificial Intelligence, 2008, 21(6):732-738. [百度学术] 

    [18]

    彭潇然, 刘遵仁, 纪俊. 自适应的邻域粗糙集邻域大小取值方法[J]. 计算机应用研究, 2019, 36(1): 144-147. [百度学术] 

    PENG X R, LIU Z R, JI J. Adaptable method for determining neighborhood size of neighborhood rough set[J]. Application Research of Computers, 2019, 36(1): 144-147. [百度学术] 

    [19]

    XIA S Y, LIU Y S, DING X, et al. Granular ball computing classifiers for efficient scalable and robust learning[J]. Information Sciences, 2019, 483(1): 136-152. [百度学术] 

    [20]

    XIA S Y, WANG C, WANG G Y, et al.GBRS: An unified model of Pawlak rough set and neighborhood rough set[EB/OL]. (2022-01-10)[2023-06-01]. http://arxiv.org/abs/2201.03349. [百度学术] 

    [21]

    XIA S Y, PENG D W, MENG D Y, et al. Ball k-means: Fast adaptive clustering with no bounds[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 87-99. [百度学术] 

    [22]

    XIA S Y, ZHANG H, LI W H, et al. GBNRS: A novel rough set algorithm for fast adaptive attribute reduction in classification[J]. IEEE Transactions on Knowledge and Data Engineering, 2022, 34(3): 1231-1242. [百度学术] 

    [23]

    XIA S Y, ZHENG S Y, WANG G Y, et al.Granular ball sampling for noisy label classification or imbalanced classification[J]. IEEE Transactions on Neural Networks and Learning Systems, 2023, 34(4): 2144-2155. [百度学术] 

    [24]

    陈中华, 巴婧, 徐泰华, . 一种面向粒球粗糙集的快速约简求解方法[J]. 小型微型计算机系统, 2023, 44(1): 24-29. [百度学术] 

    CHEN Z H, BA J, XU T H, et al. Quick strategy for searching granular ball rough set based reduct[J]. Journal of Chinese Computer Systems, 2023, 44(1): 24-29. [百度学术] 

    [25]

    XIE J, XIA S Y, WANG G Y, et al. GBMST: An efficient minimum spanning tree clustering based on granular-ball computing[EB/OL]. (2023-03-02)[2023-06-01]. http://arxiv.org/abs/2303.01082. [百度学术] 

    [26]

    梁吉业, 徐宗本, 李月香. 包含度与粗糙集数据分析中的度量[J]. 计算机学报, 2001, 24(5): 544-547. [百度学术] 

    LIANG J Y, XU Z B, LI Y X. Inclusion degree and measures of rough set data analysis[J]. Chinese Journal of Computers, 2001, 24(5): 544-547. [百度学术] 

    251

    浏览量

    314

    下载量

    0

    CSCD

    文章被引用时,请邮件提醒。
    提交
    工具集
    下载
    参考文献导出
    分享
    收藏
    添加至我的专辑

    相关文章

    暂无数据

    相关作者

    暂无数据

    相关机构

    暂无数据
    0