基于密度的稀疏表示及其對煙葉分級研究
發(fā)布時間:2019-08-25 來源: 美文摘抄 點擊:
摘要:稀疏表示(SRC)中字典的構(gòu)建對分級的效率和準確率至關(guān)重要,提出一種基于密度的SRC字典構(gòu)建方法,并利用建立好的DSRC(基于密度的SRC)對煙葉進行分級。該方法將減法聚類算法中基于密度選擇中心的思想應用于稀疏算法中進行字典構(gòu)建,通過確定合適的聚類半徑kia、kib以及約束條件來確定字典原子,不僅可減少字典原子數(shù)目,而且選擇的字典具有更好的代表性;谠摲椒ㄟx擇的字典對2013年(13個等級)、2014年(6個等級)和2015年(42個等級)的煙葉進行分級,試驗結(jié)果表明,該方法不僅可以提高煙葉分級的準確率,而且還可以有效地提高煙葉分級速度。
關(guān)鍵詞:減法聚類;稀疏表示;煙葉分級;字典
中圖分類號: TP391.4;S126 文獻標志碼: A
文章編號:1002-1302(2016)09-0371-03
現(xiàn)階段,在我國的煙葉收購過程中,大多是通過人工方式來對其進行分級。這種帶有較大主觀性的分級方式在人力、物力有限的情況下,存在較大的誤差,進而影響卷煙質(zhì)量。近年來,計算機和人工智能技術(shù)越來越多地被應用于農(nóng)產(chǎn)品檢測中,基于計算機視覺和紅外光譜分析技術(shù)的煙葉無損分級引起越來越多的關(guān)注[1-2]。
基于計算機視覺的煙葉分級研究主要集中于識別方法和數(shù)字圖像特征篩選方法的研究[1-2]。用于煙葉智能分級的方法有很多,如最近鄰、徑向基神經(jīng)網(wǎng)絡(luò)、支持向量機、Adaboost、粗糙集、隨機森林[3]和稀疏表示[4]等,在文獻[4]中簡單地隨機地選擇每級煙葉中的2/3作為字典原子建立稀疏表示字典,這樣選擇的字典不僅原子數(shù)目大,影響煙葉分級時間,而且可能選擇了不正確的樣本作為字典,因而影響煙葉分級的準確率。合適的字典對煙葉分級的準確率和速度都有重要的影響,為此本研究提出一種基于密度的稀疏表示算法對煙葉進行分級。
減法聚類算法是Chiu于1994年在山峰聚類算法的基礎(chǔ)上提出的,此方法根據(jù)歐氏距離準則對每個樣本點計算其密度值(山峰值),選擇其中密度最大的點作為聚類中心[5]。然后對剩余樣本的密度進行更新,重復選擇密度值最大的樣本點直到到達設(shè)定的條件為止。本研究將減法聚類算法中基于密度的聚類中心的選擇思想應用于稀疏表示的字典原子構(gòu)建中,提出一種基于密度的稀疏表示方法[6]。通過確定每類中合適的聚類半徑kia、kib以及約束條件確定字典原子數(shù)目和選擇字典原子,然后通過求解L1范數(shù)最小化問題和最小殘差項對煙葉進行分級,結(jié)果表明本方法可以在保證一定識別率的前提下有效提高煙葉分級的速度。
1 基于密度的稀疏表示(DSRC)
1.1 稀疏表示(SRC)原理[7]
稀疏表示算法首先通過訓練樣本構(gòu)建字典,然后利用測試樣本對字典的投影進行模式識別。常見的字典構(gòu)建原理如下,假設(shè)模式分屬于C類,第i類的訓練樣本集為:
kib的取值一般大于kia是為了避免距離太近的聚類中心;根據(jù)更新后的密度選擇出Di2,以此類推,可選擇出所有的中心Di3,Di4,…,DiLi。
1.3 改進SRC算法
稀疏表示中影響輸入模式分類的主要因素有2個,一個是字典原子的構(gòu)成,另一個是最佳稀疏矩陣X的求解方法。其中字典原子的數(shù)目會極大地影響稀疏表示的分級速度,進而影響到該方法的實時使用性能;而字典原子的特性則不僅僅影響字典原子的數(shù)目而且會直接影響稀疏表示分級的正確性。一個好的字典應該不僅具有良好的代表性、遍歷性,而且數(shù)目應該盡可能地少。具有非常好的代表性的原子,即以較少的原子實現(xiàn)樣本的遍歷性。沒有經(jīng)過分析選擇的訓練樣本,其代表性不一定很好。因此本研究提出利用基于密度的減法聚類算法進行字典的原子選擇。
根據(jù)公式(4)計算第i類樣本點的密度值,選擇密度最大的樣本作為第1個原子Di1;然后利用公式(5)進行樣本點的密度值更新,選擇具有密度最大的樣本作為第2個原子Di2,依此類推可選擇出所需要的所有原子Di3,Di4,……,DiLi。
鄰域半徑值kia、kib的選擇非常關(guān)鍵,極大地影響字典的構(gòu)成;傳統(tǒng)中鄰域半徑值為固定值,不能隨著原始數(shù)據(jù)的特性進行調(diào)整變化,具有一定的局限性。本研究中根據(jù)公式(7)來確定第i類鄰域半徑kia,其公式如下:
最后利用公式(2),基于L1范數(shù)通過字典D求解系數(shù)矩陣X,并根據(jù)公式(3)求解最小殘差值對輸入樣本進行分類。
2 實際煙葉分級結(jié)果及分析
2.1 試驗對象和預處理
試驗對象為河南省煙草公司平頂山市煙草公司提供的2013年(13個等級的煙葉)、2014年(6個等級,每個等級的煙葉來自5個不同的縣區(qū))和2015年(42個等級的煙葉)的煙葉,其中27組主組15組副組。煙葉分級的標準為鄭州市煙草公司提供的煙葉評定準則。本研究中采集的煙葉圖片是用CCD攝像機(型號為TK-C1481BEC)在暗箱中拍攝所得(圖1)。
為了減少在采集數(shù)據(jù)過程中熱噪聲、背景噪聲的影響,對圖像進行中值濾波進行去噪。
基于圖像選擇39個特征X={xj}對煙葉進行自動分級,xj表示第j個特征的值,特征順序j分別對應為長,寬,長寬比,面積,周長,破損率,圓形度,矩形度,R、G、B、H、S、I的均值和方差等,能量,慣性,相關(guān)性,熵(煙葉的4個紋理特征),脈絡(luò)長,脈絡(luò)寬,脈絡(luò)比,脈絡(luò)的R、G、B、H、S、I的均值和方差等。為了提高分級率以及減少建立分級模型所需的時間,對特征數(shù)據(jù)按照公式(9)進行歸一化:
2.2 結(jié)果分析
試驗時選擇其中的1/3為訓練樣本,2/3為測試樣本。根據(jù)公式(6)、公式(7)對聚類半徑kia、kib進行確定,在求解聚類半徑的時候,主要確定合適的參數(shù)值T1、T2。
圖2為采用網(wǎng)格遍歷法對參數(shù)T1、T2進行篩選,橫軸為參數(shù)T2的取值范圍,縱軸為對應的識別率,從圖2中可以發(fā)現(xiàn)在T1為0.8和0.9時的識別率相對其他參數(shù)值具有較好的識別效果。表1為T1取值1.1、1.2、1.3時的識別率,結(jié)合圖2、表1可以進一步看出T1在0.8到0.9之間相比其他值具有更好的識別效果。
熱點文章閱讀