- 軟件大?。?span>3.00M
- 軟件語(yǔ)言:中文
- 軟件類(lèi)型:國(guó)產(chǎn)軟件
- 軟件類(lèi)別:免費(fèi)軟件 / 雜類(lèi)工具
- 更新時(shí)間:2015-07-13 08:42
- 運(yùn)行環(huán)境:WinAll, WinXP
- 軟件等級(jí):
- 軟件廠商:
- 官方網(wǎng)站:http://m.aimjoke.net


12KB/中文/4.2
3.66M/中文/10.0
8.84M/英文/9.4
26KB/中文/10.0
7.66M/英文/10.0
聚類(lèi)分析軟件是一款主要用于物品聚類(lèi)分析的工具。軟件功能強(qiáng)大,可對(duì)物品的雜合度、信息含量進(jìn)行計(jì)算分析,并支持以圖文的形式顯示分析結(jié)果,方便用戶查看,更詳盡的表達(dá)出分析結(jié)果的情況。
軟件主要用于血型、蛋白質(zhì)多態(tài)、品種聚類(lèi)等方面的統(tǒng)計(jì)分析,可自動(dòng)進(jìn)行雜合度、多態(tài)信息含量、遺傳距離以及聚類(lèi)的計(jì)算,并可自動(dòng)畫(huà)出聚類(lèi)圖。
聚類(lèi)分析指將物理或抽象對(duì)象的集合分組為由類(lèi)似的對(duì)象組成的多個(gè)類(lèi)的分析過(guò)程。它是一種重要的人類(lèi)行為。
聚類(lèi)分析的目標(biāo)就是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類(lèi)。聚類(lèi)源于很多領(lǐng)域,包括數(shù)學(xué),計(jì)算機(jī)科學(xué),統(tǒng)計(jì)學(xué),生物學(xué)和經(jīng)濟(jì)學(xué)。在不同的應(yīng)用領(lǐng)域,很多聚類(lèi)技術(shù)都得到了發(fā)展,這些技術(shù)方法被用作描述數(shù)據(jù),衡量不同數(shù)據(jù)源間的相似性,以及把數(shù)據(jù)源分類(lèi)到不同的簇中。
1、層次聚類(lèi)(Hierarchical Clustering)
合并法、分解法、樹(shù)狀圖
2、非層次聚類(lèi)
劃分聚類(lèi)、譜聚類(lèi)
聚類(lèi)方法特征:
聚類(lèi)分析簡(jiǎn)單、直觀。
聚類(lèi)分析主要應(yīng)用于探索性的研究,其分析的結(jié)果可以提供多個(gè)可能的解,選擇最終的解需要研究者的主觀判斷和后續(xù)的分析;
不管實(shí)際數(shù)據(jù)中是否真正存在不同的類(lèi)別,利用聚類(lèi)分析都能得到分成若干類(lèi)別的解;
聚類(lèi)分析的解完全依賴于研究者所選擇的聚類(lèi)變量,增加或刪除一些變量對(duì)最終的解都可能產(chǎn)生實(shí)質(zhì)性的影響。
研究者在使用聚類(lèi)分析時(shí)應(yīng)特別注意可能影響結(jié)果的各個(gè)因素。
異常值和特殊的變量對(duì)聚類(lèi)有較大影響
當(dāng)分類(lèi)變量的測(cè)量尺度不一致時(shí),需要事先做標(biāo)準(zhǔn)化處理。
當(dāng)然,聚類(lèi)分析不能做的事情是:
自動(dòng)發(fā)現(xiàn)和告訴你應(yīng)該分成多少個(gè)類(lèi)——屬于非監(jiān)督類(lèi)分析方法
期望能很清楚的找到大致相等的類(lèi)或細(xì)分市場(chǎng)是不現(xiàn)實(shí)的;
樣本聚類(lèi),變量之間的關(guān)系需要研究者決定;
不會(huì)自動(dòng)給出一個(gè)最佳聚類(lèi)結(jié)果;
我這里提到的聚類(lèi)分析主要是譜系聚類(lèi)(hierarchical clustering)和快速聚類(lèi)(K-means)、兩階段聚類(lèi)(Two-Step);
根據(jù)聚類(lèi)變量得到的描述兩個(gè)個(gè)體間(或變量間)的對(duì)應(yīng)程度或聯(lián)系緊密程度的度量。
可以用兩種方式來(lái)測(cè)量:
1、采用描述個(gè)體對(duì)(變量對(duì))之間的接近程度的指標(biāo),例如“距離”,“距離”越小的個(gè)體(變量)越具有相似性。
2、采用表示相似程度的指標(biāo),例如“相關(guān)系數(shù)”,“相關(guān)系數(shù)”越大的個(gè)體(變量)越具有相似性。
計(jì)算聚類(lèi)——距離指標(biāo)D(distance)的方法非常多:按照數(shù)據(jù)的不同性質(zhì),可選用不同的距離指標(biāo)。歐氏距離(Euclidean distance)、歐氏距離的平方(Squared Euclidean distance)、曼哈頓距離(Block)、切比雪夫距離(Chebychev distance)、卡方距離(Chi-Square measure) 等;相似性也有不少,主要是皮爾遜相關(guān)系數(shù)了!
聚類(lèi)變量的測(cè)量尺度不同,需要事先對(duì)變量標(biāo)準(zhǔn)化;
聚類(lèi)變量中如果有些變量非常相關(guān),意味著這個(gè)變量的權(quán)重會(huì)更大
歐式距離的平方是最常用的距離測(cè)量方法;
聚類(lèi)算法要比距離測(cè)量方法對(duì)聚類(lèi)結(jié)果影響更大;
標(biāo)準(zhǔn)化方法影響聚類(lèi)模式:
變量標(biāo)準(zhǔn)化傾向產(chǎn)生基于數(shù)量的聚類(lèi);
樣本標(biāo)準(zhǔn)化傾向產(chǎn)生基于模式的聚類(lèi);
一般聚類(lèi)個(gè)數(shù)在4-6類(lèi),不易太多,或太少;
統(tǒng)計(jì)量
群重心
群中心
群間距離
分層步驟
定義問(wèn)題與選擇分類(lèi)變量
聚類(lèi)方法
確定群組數(shù)目
聚類(lèi)結(jié)果評(píng)估
結(jié)果的描述、解釋
K-means
屬于非層次聚類(lèi)法的一種
(1)執(zhí)行過(guò)程
初始化:選擇(或人為指定)某些記錄作為凝聚點(diǎn)
循環(huán):
按就近原則將其余記錄向凝聚點(diǎn)凝集
計(jì)算出各個(gè)初始分類(lèi)的中心位置(均值)
用計(jì)算出的中心位置重新進(jìn)行聚類(lèi)
如此反復(fù)循環(huán),直到凝聚點(diǎn)位置收斂為止
(2)方法特點(diǎn)
通常要求已知類(lèi)別數(shù)
可人為指定初始位置
節(jié)省運(yùn)算時(shí)間
樣本量大于100時(shí)有必要考慮
只能使用連續(xù)性變量
過(guò)程
特點(diǎn):
處理對(duì)象:分類(lèi)變量和連續(xù)變量
自動(dòng)決定最佳分類(lèi)數(shù)
快速處理大數(shù)據(jù)集
前提假設(shè):
變量間彼此獨(dú)立
分類(lèi)變量服從多項(xiàng)分布,連續(xù)變量服從正態(tài)分布
模型穩(wěn)健
算法原理
第一步:逐個(gè)掃描樣本,每個(gè)樣本依據(jù)其與已掃描過(guò)的樣本的距離,被歸為以前的類(lèi),或生成一個(gè)新類(lèi)
第二步,對(duì)第一步中各類(lèi)依據(jù)類(lèi)間距離進(jìn)行合并,按一定的標(biāo)準(zhǔn),停止合并
判別分析 Discriminant Analysis
介紹: 判別分析
分類(lèi)學(xué)是人類(lèi)認(rèn)識(shí)世界的基礎(chǔ)科學(xué)。聚類(lèi)分析和判別分析是研究事物分類(lèi)的基本方法,廣泛地應(yīng)用于自然科學(xué)、社會(huì)科學(xué)、工農(nóng)業(yè)生產(chǎn)的各個(gè)領(lǐng)域。
判別分析DA
概述
DA模型
DA有關(guān)的統(tǒng)計(jì)量
兩組DA
案例分析
判別分析
判別分析是根據(jù)表明事物特點(diǎn)的變量值和它們所屬的類(lèi),求出判別函數(shù)。根據(jù)判別函數(shù)對(duì)未知所屬類(lèi)別的事物進(jìn)行分類(lèi)的一種分析方法。核心是考察類(lèi)別之間的差異。
判別分析
不同:判別分析和聚類(lèi)分析不同的在于判別分析要求已知一系列反映事物特征的數(shù)值變量的值,并且已知各個(gè)體的分類(lèi)。
DA適用于定類(lèi)變量(因)、任意變量(自)
兩類(lèi):一個(gè)判別函數(shù);
多組:一個(gè)以上判別函數(shù)
DA目的
建立判別函數(shù)
檢查不同組之間在有關(guān)預(yù)測(cè)變量方面是否有顯著差異
決定哪個(gè)預(yù)測(cè)變量對(duì)組間差異的貢獻(xiàn)最大
根據(jù)預(yù)測(cè)變量對(duì)個(gè)體進(jìn)行分類(lèi)
請(qǐng)描述您所遇到的錯(cuò)誤,我們將盡快予以修正,謝謝!
*必填項(xiàng),請(qǐng)輸入內(nèi)容