1.本发明属于电力大数据预处理技术领域,尤其涉及一种适用于电力大数据预处理的方法。
背景技术:
博鱼2.随着社会的发展,电力企业逐渐由生产性质向着服务性质的企业过渡,客户服务和企业经营管理是电力企业的重要部分,电网中蕴含着海量数据。但是由于电力大数据本身种类繁多、易受到干扰,不方便进行数据的读取以及数据挖掘,通常存在以下几方面的问题:
3.(1)杂乱性。
4.电网原始数据是各个数据库中存在的数据,由于各个数据库定义标准不一样,因此在进行使用数据时,往往不能直接拿来使用。
博鱼5.(2)重复性。
6.是指同一数据可能由多个监测机构检测得到电力时间不足概率lolp计算公式,这样该数据就会存在于多个数据库中,在使用数据库时不可避免存在重复性。
7.(3)不完整性。
博鱼8.由于实际检测机构在检测时并不能够完全按照人类的意愿进行检测,因此所检测获得的数据并非是完整的。
9.现有数据挖掘系统包含数据预处理模块。数据预处理模块以领域内的专业知识作为指引,修正原始数据中存在的异常数据,为数据挖掘做充分准备。而这3个方面问题带来的影响因素便会对企业决策部门的决策准确性产生很大影响,导致准确度不高,并且效率也较低。
10.因此,在进行决策之前必须要对数据进行预处理,以便对电力海量数据进行充分地挖掘其中蕴含着的知识,将对电力企业具有重大的意义。
技术实现要素:
11.针对上述现有技术中电力大数据预处理技术中存在效率慢和聚类中心选择困难的不足之处,本发明提供了一种适用于电力大数据预处理的方法。其目的是为了提供一种具有高准确性、高效率的电力大数据预处理的方法的发明目的。
12.本发明为实现上述目的所采用的技术方案是:
13.一种适用于电力大数据预处理的方法,包括:
14.电力数据挖掘以及改进fcm电力大数据预处理方法;
15.所述电力数据挖掘,是从海量的数据中通过均值漂移聚类算法搜索其中隐藏信息;
16.所述改进fcm电力大数据预处理方法,是通过均值漂移聚类与模糊c-均值聚类fcm相结合的算法电力时间不足概率lolp计算公式,来进行数据预处理。
17.更进一步的,所述电力数据挖掘包括:
18.步骤1.将海量的原始数据通过采集选择得到源数据;
19.步骤2.将得到的源数据经过数据预处理得到目标数据;
20.步骤3.将目标数据通过数据开采得到模式;
21.步骤4.将模式通过解释评价得到知识。
22.更进一步的,所述原始数据,是从电网运营过程中所存储的各种数据,未经过处理或简化的数据;
23.所述采集选择,是将原始数据是进行采集与选择所需数据;
24.所述源数据,是通过采集与选择的所需数据;
25.所述数据预处理,是指在对数据进行操作;
26.所述预处理,是对海量电力大数据中的异常值进行修正、删除等操作;
27.所述目标数据,是兴趣度,是企业所感兴趣的知识;
28.所述数据开采,是从海量电力大数据中获取事先不了解,但有用的信息;
29.所述模式,是根据想要获取知识的内容选择,包括:预测性或可视性;
30.所述解释评价,是根据模式所得来获得知识;
31.所述知识,是企业做得到的最终内容。
32.更进一步的,所述改进fcm电力大数据预处理方法,包括:
33.步骤1.利用均值漂移聚类算法获取海量原始电力大数据的聚类数目和中心;再使用模糊c-均值聚类fcm进行聚类;
34.步骤2.利用获得的聚类数目和中心作为模糊c-均值聚类fcm聚类算法的初始值;
35.步骤3.利用负荷曲线的横向特性判断初始化的聚类数目和中心是否存在异常数据。
36.更进一步的,所述均值漂移聚类算法,包括以下步骤:
37.步骤(1)设置聚类参数:包括漂移函数g(x),漂移向量nh(x),样本点选取为n,半径为h,计算簇密度距离为s,聚类数目为x
k*
,聚类中心为i
*
,数据密度的阈值为ε,聚类中心的均方差为
38.步骤(2)从均值漂移聚类得到的i个聚类中心里选出i
*
个作为fcm的聚类中心;
39.步骤(3)计算隶属度μ
ij(r)
和目标函数j
(r)
;
40.步骤(4)修正聚类中心v
(r-1)
;
41.如果满足|j
(r-1)-j
(r)
|《ε,则输出结果;如果不满足,则返回至步骤(3);
42.式中:j
(r-1)
表示迭代目标函数的上一步计算结果。
43.更进一步的,所述均值漂移聚类算法,包括以下步骤:
44.步骤(1)在n维空间rn中,选取一个半径为h的圆,记录球心为o;
45.步骤(2)记录半径h内的点所属于集合n,定义集合n内的点属于簇c;
46.步骤(3)计算漂移向量的值nh(x);
47.步骤(4)如果||nh(x)||《ε,迭代过程结束;否则重新推导新球心o',重复上述步骤(2)-步骤(4)的过程;迭代时,遇到的所有数据点都属于簇c;
48.步骤(5)如果收敛时,当前簇c的密度最大点与其他已经存在的簇密度点之间的距离比s大,则增加一类;若比距离s小,则两簇合并为一类;
49.步骤(6)重复上述步骤(1)-(5),直到所有点全部被标记;
50.步骤(7)对于每个电力大数据的访问次数,该点的所属类按照访问次数最多的类,最终确定所有电力大数据的聚类数目和中心。
51.所述均值漂移聚类算法流程,或包括以下步骤:
52.步骤(1)在n维空间rn中,任意选择一个搜索中心o,它的半径是核函数的带宽h;
53.步骤(2)可以理解的是k(x)为核函数;记半径h内的点集合n,这些点属于簇c;
54.步骤(3)计算漂移向量nh(x)的数值;
55.其中,
56.上式中,xi表示n个样本点,g(x)表示漂移函数;
57.步骤(4)若||nh(x)||≥ε,则重新计算新球心o’;否则结束迭代,重复上述步骤(2)-步骤(4)的过程;在所迭代的过程中,遇到的所有点都属于该簇;ε表示数据密度的阈值;
58.步骤(5)若在收敛的时候,当前簇c的密度最大点与其他已经存在的簇密度点距离比s大,则增加一类;若小于距离s,则两簇合并为一类;s表示距离;
59.步骤(6)重复上述步骤(1)-(5)的过程,直到所有数据全部被标记;
60.步骤(7)依据每个类,对电力大数据每个点的访问次数,选择访问次数最多的那个类当作该点集的所属类别,最终得到所有电力大数据的聚类中心i和数目xk。
61.更进一步的,所述模糊c-均值聚类fcm算法,是从均值漂移聚类算法获得聚类数目和中心,从其中选择fcm的聚类中心和数目。
62.更进一步的,所述利用负荷曲线的横向特性判断初始化的聚类数目和中心是否存在异常数据,是采用基于改进的模糊c-均值聚类fcm算法对海量电力大数据进行检验,通过数据曲线的横向特性来搜寻海量数据中存在的异常数据,将相似度高的负荷数据划分为一类,在聚类集合之外的数据点划分为异常数据,最后通过公式修正异常数据,获得准确的数据,包括:
63.步骤(1)采用改进fcm方法对海量电力大数据进行处理,获取聚类数目x
k*
与聚类中心i
*
;
64.由下式计算每个时间点的均方差根:
[0065][0066]
上式中,xi表示n个样本点,为聚类中心的均方差;
[0067]
步骤(2)对获取的聚类数目与聚类中心,利用判别这一类数据里面是否有异常数据:
[0068]
若满足上式,则此数据为不良数据;
[0069]
步骤(3)设海量电力大数据中一共存在i条特征曲线,x
t
是特征曲线,xr是修正曲线,在被检测曲线xd上的a点到b点存在异常数据,由下面式子来进行异常数据的修正:
[0070][0071]
通过以上步骤实现异常数据处理。
[0072]
一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现任一所述的一种适用于电力大数据预处理的方法的步骤。
[0073]
一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现任一所述的一种适用于电力大数据预处理的方法的步骤。
[0074]
本发明具有以下有益效果及优点:
[0075]
本发明在充分考虑到电力大数据影响企业决策的情况下,通过改进的fcm电力大数据预处理算法,首先采用均值漂移聚类算法获取数据的聚类数目与中心;其次采用fcm对电力大数据进行检验,将相似度高的负荷数据划分为一类,确定在聚类集合之外的数据点就是异常数据。本发明利用电力部门的大数据,建立了基于均值漂移聚类与fcm结合的算法,并且运用于数据的预处理问题上,可以较为有效且快速地搜寻出异常数据,实现了负荷数据的优化,使电力大数据预处理的有效性、准确性和效率得到显著的提高,更好的为电力行业保驾护航。
附图说明
[0076]
本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
[0077]
图1是本发明数据挖掘过程图;
[0078]
图2是本发明改进fcm聚类算法流程图。
具体实施方式
[0079]
为了能够更清楚地理解本发明的上述目的、特征和优点,下面将结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
[0080]
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
[0081]
下面参照图1和图2描述本发明一些实施例的技术方案。
[0082]
实施例1
[0083]
本发明提供了一个实施例,是一种适用于电力大数据预处理的方法,如图1所示,图1是本发明数据挖掘过程图。
[0084]
根据图1可以知,数据预处理是其中必不可少的一环,要使数据挖掘更精确,就必须为它准备“精确”的数据。但是实际操作中,原始数据必然都存在许多异常值,这样的数据就不能够直接给数据挖掘过程使用。因此,本发明充分考虑到电力大数据影响企业决策的情况下,通过本发明方法对电力大数据进行预处理。
[0085]
所述fcm是指基于对目标函数的优化基础上的一种数据聚类方法。聚类结果是每
一个数据点对聚类中心的隶属程度,该隶属程度用一个数值来表示。
[0086]
本发明一种适用于电力大数据预处理的方法,利用电力部门的大数据,建立了基于均值漂移聚类与fcm结合的算法。具体包括:电力数据挖掘以及改进fcm电力大数据预处理方法。
[0087]
本发明所述电力数据挖掘,即从海量的数据中通过均值漂移聚类算法搜索其中隐藏信息的过程,包括原始数据、源数据、目标数据模式以及知识。按照数据挖掘系统,理解各个名词的含义,进而更好地明确电网数据处理在数据挖掘中的意义。
[0088]
电力数据挖掘包括:
[0089]
步骤1.将海量的原始数据通过采集选择得到源数据;
[0090]
所述原始数据,即从电网运营过程中所存储的各种数据,未经过处理或简化的数据,这些数据可能是也可能不是机器可读形式。
[0091]
所述采集选择,是将原始数据是进行采集与选择所需数据。
[0092]
步骤2.将得到的源数据经过数据预处理得到目标数据;
[0093]
所述源数据,是通过采集与选择的所需数据。
[0094]
所述数据预处理,是指在对数据进行操作。
[0095]
所述预处理,是对海量电力大数据中的异常值进行修正、删除等操作。预处理使得电力大数据更加合乎事实。
[0096]
步骤3.将目标数据通过数据开采得到模式;
[0097]
所述目标数据,是兴趣度,是企业所感兴趣的知识。
[0098]
所述数据开采,是从海量电力大数据中获取事先不了解,但有用信息的过程。
[0099]
所述模式,是根据想要获取知识的内容选择,一般可以是预测性或者可视性。
[0100]
步骤4.将模式通过解释评价得到知识。
[0101]
所述解释评价,是根据模式所得来获得知识的步骤。
[0102]
所述知识,是企业做得到的最终内容。
[0103]
如图2所示,图2是本发明改进fcm聚类算法流程图。所述改进fcm电力大数据预处理方法,是指通过均值漂移聚类与模糊c-均值聚类fcm相结合的算法,来进行数据的预处理的过程。
[0104]
本发明改进fcm电力大数据预处理方法,具体步骤如下:
[0105]
步骤1.利用均值漂移聚类算法获取海量原始电力大数据的聚类数目和中心;再使用模糊c-均值聚类fcm进行聚类。包括设置聚类参数和数据准备。其中:漂移函数为g(x),漂移向量为nh(x),样本点选取为n,半径为h,计算簇密度距离为s,聚类数目为x
k*
,聚类中心为i
*
,数据密度的阈值为ε,聚类中心的均方差为计算隶属度为μ
ij(r)
,目标函数为j
(r)
,计算修正后的聚类中心为v
(r-1)
。
[0106]
所述参数的确立,是确定目标的过程。包括设置聚类参数。
[0107]
所述数据准备电力时间不足概率lolp计算公式,是为算法分析提供所需数据的过程。包括:计算隶属度μ
ij(r)
及目标函数j
(r)
等步骤。
[0108]
所述均值漂移聚类算法,是一种自适应地查找概率密度最大值的算法,任何形状的概率密度分布都可以使用。
[0109]
均值漂移聚类算法,具体包括以下步骤:
[0110]
步骤(1)设置聚类参数:包括漂移函数g(x),漂移向量nh(x),样本点选取为n,半径为h,计算簇密度距离为s,聚类数目为x
k*
,聚类中心为i
*
电力时间不足概率lolp计算公式,数据密度的阈值为ε,聚类中心的均方差为
[0111]
步骤(2)从均值漂移聚类得到的i个聚类中心里选出i
*
个作为fcm的聚类中心;
[0112]
步骤(3)计算隶属度μ
ij(r)
和目标函数j
(r)
;
[0113]
步骤(4)修正聚类中心v
(r-1)
;
[0114]
如果满足|j
(r-1)-j
(r)
|《ε,则输出结果;如果不满足电力时间不足概率lolp计算公式,则返回至步骤(3)。
[0115]
式中:j
(r-1)
表示迭代目标函数的上一步计算结果。
[0116]
步骤2.利用获得的聚类数目和中心作为模糊c-均值聚类fcm聚类算法的初始值;
[0117]
利用模糊c-均值聚类fcm进行聚类,是从中选取聚类数目和中心送入fcm中,即给fcm初始化,这使得预处理系统有了较快的运算速度,同时也合理地获得了聚类数目和中心,妥善地解决了fcm算法初值确定难的棘手问题,为数据挖掘的准确性提供保障。
[0118]
所述模糊c-均值聚类fcm算法,初始参数对fcm的影响很大,因为fcm算法必须先确定簇的个数,同时对初始聚类中心的选择有很大的依赖性。如果fcm初始聚类中心偏离全局最优聚类中心较严重时,在这种情况下,fcm大概率会陷入局部极大值,对数据预处理造成不利影响。为了改善fcm的缺点,本发明从均值漂移聚类算法获得聚类数目和中心,从其中选择fcm的聚类数目和中心,而不需要再重新从海量大数据中选择fcm的初始参数,提高了fcm的运算速度,从而更加高效准确地进行电力大数据的预处理,并且妥善解决了fcm初值难以确定的问题。
[0119]
步骤3.利用负荷曲线的横向特性判断初始化的聚类数目和中心是否存在异常数据。
[0120]
采用基于改进的模糊c-均值聚类fcm算法对海量电力大数据进行检验,通过数据曲线的横向特性来搜寻海量数据中存在的异常数据,将相似度高的负荷数据划分为一类,在聚类集合之外的数据点划分为异常数据,最后通过公式修正异常数据,获得准确的数据。
[0121]
实施例2
[0122]
本发明提供了一个实施例,是一种适用于电力大数据预处理的方法,其中如实施例1中所述的均值漂移聚类算法,具体包括以下步骤:
[0123]
步骤(1)在n维空间rn中,选取一个半径为h的圆,记录球心为o;
[0124]
步骤(2)记录半径h内的点所属于集合n,定义集合n内的点属于簇c;
[0125]
步骤(3)计算漂移向量的值nh(x);
[0126]
步骤(4)如果||nh(x)||《ε,迭代过程结束;否则重新推导新球心o',重复上述步骤(2)-步骤(4)的过程;迭代时,遇到的所有数据点都属于簇c;
[0127]
步骤(5)如果收敛时,当前簇c的密度最大点与其他已经存在的簇密度点之间的距离比s大,则增加一类;若比距离s小,则两簇合并为一类;
[0128]
步骤(6)重复上述步骤(1)-(5),直到所有点全部被标记;
[0129]
步骤(7)对于每个电力大数据的访问次数,该点的所属类按照访问次数最多的那个类确定,最终确定所有电力大数据的聚类数目和中心。
[0130]
实施例3
[0131]
本发明提供了一个实施例,是一种适用于电力大数据预处理的方法,其中如实施
例1中所述的均值漂移聚类算法流程,具体包括以下步骤:
[0132]
步骤(1)在n维空间rn中,任意选择一个搜索中心o,它的半径是核函数的带宽h;
[0133]
步骤(2)可以理解的是k(x)为核函数;记半径h内的点集合n,这些点属于簇c;
[0134]
步骤(3)计算漂移向量nh(x)的数值;
[0135]
其中,
[0136]
上式中,xi表示n个样本点,g(x)表示漂移函数。
[0137]
步骤(4)若||nh(x)||≥ε,则重新计算新球心o’;否则结束迭代,重复上述步骤(2)-步骤(4)的过程。在所迭代的过程中,遇到的所有点都属于该簇;
[0138]
可以理解的是ε表示数据密度的阈值;
[0139]
步骤(5)若在收敛的时候,当前簇c的密度最大点与其他已经存在的簇密度点距离比s大,则增加一类;若小于距离s,则两簇合并为一类;s表示距离;
[0140]
步骤(6)重复上述步骤(1)-(5)的过程,直到所有数据全部被标记;
[0141]
步骤(7)依据每个类,对电力大数据每个点的访问次数,选择访问次数最多的那个类当作该点集的所属类别,最终得到所有电力大数据的聚类中心i和数目xk。计算过程中变量表示为i
*
,计算结果表示为i。
[0142]
实施例4
[0143]
本发明提供了一个实施例,是一种适用于电力大数据预处理的方法,其中,改进fcm电力大数据预处理方法中,步骤3是利用负荷曲线的横向特性判断初始化的聚类数目和中心是否存在异常数据。采用模糊c-均值聚类fcm对海量电力大数据进行检验,将相似度高的负荷数据划分为一类,在聚类集合之外的数据点划分为异常数据。具体包括:
[0144]
步骤(1)采用改进fcm方法对海量电力大数据进行处理,获取聚类数目x
k*
与聚类中心i
*
。
[0145]
由下式计算每个时间点的均方差根:
[0146][0147]
上式中,xi表示n个样本点,为聚类中心的均方差。
[0148]
步骤(2)对获取的聚类数目与聚类中心,利用判别这一类数据里面是否有异常数据。若满足上式,则此数据为不良数据。
[0149]
步骤(3)设海量电力大数据中一共存在i条特征曲线,x
t
是特征曲线,xr是修正曲线,在被检测曲线xd上的a点到b点存在异常数据,由下式来进行异常数据的修正:
[0150][0151]
通过以上步骤实现了异常数据处理的目标,数据的连续性、真实性更好,为后续分析工作奠定了基础。
[0152]
因此,本发明在考虑到电网大数据存在的异常值情况,设计了改进fcm算法对电力大数据进行预处理,在聚类集合外的点就是需要进行修正的异常值数据,从而确保后续电
力大数据挖掘的准确性。
[0153]
实施例5
[0154]
基于同一发明构思,本发明实施例还提供了一种计算机设备,包括存储介质、处理器及存储在存储介质上并可在处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现实施例1或2或3所述的任意一种适用于电力大数据预处理的方法的步骤。
[0155]
实施例6
[0156]
基于同一发明构思,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质上存有计算机程序,所述计算机程序被处理器执行时实现实施例1或2或3或4所述的任意一种适用于电力大数据预处理的方法的步骤。
[0157]
本领域内的技术人员应明白,本技术的实施例可提供为方法、系统、或计算机程序产品。因此,本技术可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本技术可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0158]
本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0159]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0160]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0161]
博鱼最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
电话:400-318-1802
座机:13588888888
邮箱:89145720@qq.com
地址:河南省鹤壁市