期刊VIP學(xué)術(shù)指導(dǎo) 符合學(xué)術(shù)規(guī)范和道德
保障品質(zhì) 保證專業(yè),沒有后顧之憂
來源:期刊VIP網(wǎng)所屬分類:綜合論文時間:瀏覽:次
摘 要:葡萄酒的化學(xué)成分是辨別葡萄酒品種的主要依據(jù)。考慮到常規(guī)檢測方法復(fù)雜、繁瑣,準(zhǔn)確率低,選擇機器學(xué)習(xí)方法識別葡萄酒種類。針對目前常用的K均值算法在葡萄酒識別中存在的問題,嘗試使用支持向量機進(jìn)行分類,并與K均值算法進(jìn)行對比分析。結(jié)果表明,基于支持向量機的模型分類性能更好,準(zhǔn)確率達(dá)到98.15%。
關(guān)鍵詞:葡萄酒識別;機器學(xué)習(xí);支持向量機;K均值
0 引言
葡萄酒的化學(xué)成分復(fù)雜,因此是區(qū)分不同葡萄酒的重要依據(jù)。在進(jìn)行葡萄酒識別時,目前國內(nèi)外常用的檢測方法是化學(xué)成分分析法和感官評價法。化學(xué)成分分析法[1]是指采用近紅外光譜[2]和三維熒光光譜等技術(shù)檢測葡萄酒化學(xué)成分,從而區(qū)分不同葡萄酒。采用該技術(shù)需要專業(yè)的化學(xué)知識,步驟繁瑣、成本高,而且無法檢測葡萄酒所有化學(xué)成分。感官評價法是指根據(jù)品酒師個人經(jīng)驗,憑借感官鑒別葡萄酒種類。該方法雖然成本較低,但是主觀性很強,分類準(zhǔn)確率很容易受到品酒師個人經(jīng)驗的影響。因此,本文使用機器學(xué)習(xí)方法識別葡萄酒種類。
目前機器學(xué)習(xí)領(lǐng)域常用的幾種分類器為:邏輯回歸、人工神經(jīng)網(wǎng)絡(luò)、決策樹和支持向量機。邏輯回歸[3-4]操作簡單、容易解釋,支持?jǐn)?shù)值變量和分類變量,是學(xué)者們最常使用的分類器,但其更適用于二分類問題,即只有兩個類別,而本文葡萄酒類別有3個,出于準(zhǔn)確率的考慮,本文舍棄該方法;在樣本量充足的情況下,人工神經(jīng)網(wǎng)絡(luò)[5-7]分類準(zhǔn)確率較高,但本文樣本只有178個,不滿足神經(jīng)網(wǎng)絡(luò)對樣本量的要求;決策樹[8-9]簡單、直觀,但在實際使用時經(jīng)常會出現(xiàn)過擬合的情況,即訓(xùn)練集準(zhǔn)確率很高,而測試集準(zhǔn)確率很低;支持向量機在解決小樣本識別問題中體現(xiàn)出其它分類器所不具備的優(yōu)勢,并且通過定義恰當(dāng)?shù)暮撕瘮?shù)可解決神經(jīng)網(wǎng)絡(luò)局部最優(yōu)問題。鑒于上述分析,本文選擇支持向量機進(jìn)行葡萄酒種類識別。
1 數(shù)據(jù)來源與可視化
1.1 數(shù)據(jù)來源
本文葡萄酒數(shù)據(jù)來自于UCI數(shù)據(jù)庫的wine數(shù)據(jù)集,記錄了意大利同一地區(qū)3種不同品種葡萄酒的13種化學(xué)成分。本次擬分類樣本共有178個,每個樣本有13個屬性。葡萄酒共分為3種類別,其中類別1包含59個樣本,類別2包含71個樣本,類別3包含48個樣本。
1.2 字段解釋
數(shù)據(jù)集共包括以下13個字段,都為葡萄酒化學(xué)成分,屬性含義如表1所示。
1.3 數(shù)據(jù)可視化
通過畫出屬性的二維散點圖,以直觀分析數(shù)據(jù)分布情況。樣本散點圖如圖1所示。
由于從圖1中很難區(qū)分出每種葡萄酒屬于哪個類別,因此接下來構(gòu)建支持向量機模型對葡萄酒進(jìn)行分類。
2 基于支持向量機的模型構(gòu)建
2.1 理論介紹
支持向量機[10-12]簡稱SVM,是一種非常常見的廣義線性分類器,主要用于小樣本數(shù)據(jù)的分類與回歸問題,其最終目標(biāo)是找到一個最優(yōu)超平面對樣本進(jìn)行分割。支持向量機可分為3種類別:完全線性可分支持向量機、部分線性可分支持向量機與線性不可分支持向量機。
完全線性可分支持向量機原理如圖2所示。圖中,實心點和空心點代表兩類不同樣本,[H]為分類超平面,[H1、H2]為經(jīng)過兩類樣本的所有平面中,離分類超平面最近,且平行于分類超平面的平面,[H1]與[H2]之間距離稱為分類間隔。所謂最優(yōu)分類面就是在正確區(qū)分兩類樣本的同時,使分類間隔達(dá)到最大的分類面。
推薦閱讀:葡萄酒文化類期刊投稿