- 軟件大小:32.08M
- 軟件語言:中文
- 軟件類型:國產(chǎn)軟件
- 軟件類別:免費軟件 / 電子圖書
- 更新時間:2016-05-19 17:55
- 運行環(huán)境:WinAll, WinXP
- 軟件等級:
- 軟件廠商:
- 官方網(wǎng)站:http://m.aimjoke.net
2.24M/中文/5.0
0KB/中文/6.0
98.92M/中文/1.6
56.00M/中文/0.0
33.00M/中文/10.0
數(shù)據(jù)挖掘概念與技術(shù)第三版pdf是由Jiawei Han編寫的一本關(guān)于數(shù)據(jù)挖掘的書籍。第三版結(jié)合了一、二版的精華部分,并且更深入的分析了數(shù)據(jù)挖掘技術(shù)。有需要的朋友,趕快下載閱讀吧!
本書全面地講述數(shù)據(jù)挖掘領(lǐng)域的重要知識和技術(shù)創(chuàng)新。在第1版內(nèi)容相當全面的基礎(chǔ)上,第2版展示了該領(lǐng)域的最新研究成果,例如挖掘流、時序和序列數(shù)據(jù)以及挖掘時間空間、多媒體、文本和Web數(shù)據(jù)。本書可作為數(shù)據(jù)挖掘和知識發(fā)現(xiàn)領(lǐng)域的教師、研究人員和開發(fā)人員的一本必讀書。
本書第1版曾是受讀者歡迎的數(shù)據(jù)挖掘?qū)V?,是一本可讀性極佳的教材。第2版充實了數(shù)據(jù)挖掘領(lǐng)域研究新進展的題材,增加了講述最新的數(shù)據(jù)挖掘方法的若干章節(jié)。本書適合作為高等院校計算機及相關(guān)專業(yè)高年級本科生的選修課教材,特別適合作為研究生的專業(yè)課教材。
Jiawei Han,伊利諾伊大學(xué)厄巴納-尚佩恩分校計算機科學(xué)系教授。由于在數(shù)據(jù)挖掘和數(shù)據(jù)庫系統(tǒng)領(lǐng)域卓有成效的研究工作,他曾多次獲得各種榮譽和獎勵,其中包括2004年ACM SIGKDD頒發(fā)的創(chuàng)新獎。同時,他還是ACM《Transactions on Knowledge Discovery from Data》的主編,以及IEEE《Transactions on Knowledge and Data Engineering》和《Data Mining and Knowledge Discovery》的編委會成員。
出版者的話
中文版序
譯者序
譯者簡介
第3版序
第2版序
前言
致謝
作者簡介
第1章 引論
1.1 為什么進行數(shù)據(jù)挖掘
1.1.1 邁向信息時代
1.1.2 數(shù)據(jù)挖掘是信息技術(shù)的進化
1.2 什么是數(shù)據(jù)挖掘
1.3 可以挖掘什么類型的數(shù)據(jù)
1.3.1 數(shù)據(jù)庫數(shù)據(jù)
1.3.2 數(shù)據(jù)倉庫
1.3.3 事務(wù)數(shù)據(jù)
1.3.4 其他類型的數(shù)據(jù)
1.4 可以挖掘什么類型的模式
1.4.1 類/概念描述:特征化與區(qū)分
1.4.2 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性
1.4.3 用于預(yù)測分析的分類與回歸
1.4.4 聚類分析
1.4.5 離群點分析
1.4.6 所有模式都是有趣的嗎
1.5 使用什么技術(shù)
1.5.1 統(tǒng)計學(xué)
1.5.2 機器學(xué)習(xí)
1.5.3 數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫
1.5.4 信息檢索
1.6 面向什么類型的應(yīng)用
1.6.1 商務(wù)智能
1.6.2 Web搜索引擎
1.7 數(shù)據(jù)挖掘的主要問題
1.7.1 挖掘方法
1.7.2 用戶界面
1.7.3 有效性和可伸縮性
1.7.4 數(shù)據(jù)庫類型的多樣性
1.7.5 數(shù)據(jù)挖掘與社會
1.8 小結(jié)
1.9 習(xí)題
1.10 文獻注釋
第2章 認識數(shù)據(jù)
2.1 數(shù)據(jù)對象與屬性類型
2.1.1 什么是屬性
2.1.2 標稱屬性
2.1.3 二元屬性
2.1.4 序數(shù)屬性
2.1.5 數(shù)值屬性
2.1.6 離散屬性與連續(xù)屬性
2.2 數(shù)據(jù)的基本統(tǒng)計描述
2.2.1 中心趨勢度量:均值、中位數(shù)和眾數(shù)
2.2.2 度量數(shù)據(jù)散布:極差、四分位數(shù)、方差、標準差和四分位數(shù)極差
2.2.3 數(shù)據(jù)的基本統(tǒng)計描述的圖形顯示
2.3 數(shù)據(jù)可視化
2.3.1 基于像素的可視化技術(shù)
2.3.2 幾何投影可視化技術(shù)
2.3.3 基于圖符的可視化技術(shù)
2.3.4 層次可視化技術(shù)
2.3.5 可視化復(fù)雜對象和關(guān)系
2.4 度量數(shù)據(jù)的相似性和相異性
2.4.1 數(shù)據(jù)矩陣與相異性矩陣
2.4.2 標稱屬性的鄰近性度量
2.4.3 二元屬性的鄰近性度量
2.4.4 數(shù)值屬性的相異性:閔可夫斯基距離
2.4.5 序數(shù)屬性的鄰近性度量
2.4.6 混合類型屬性的相異性
2.4.7 余弦相似性
2.5 小結(jié)
2.6 習(xí)題
2.7 文獻注釋
第3章 數(shù)據(jù)預(yù)處理
3.1 數(shù)據(jù)預(yù)處理:概述
3.1.1 數(shù)據(jù)質(zhì)量:為什么要對數(shù)據(jù)預(yù)處理
3.1.2 數(shù)據(jù)預(yù)處理的主要任務(wù)
3.2 數(shù)據(jù)清理
3.2.1 缺失值
3.2.2 噪聲數(shù)據(jù)
3.2.3 數(shù)據(jù)清理作為一個過程
3.3 數(shù)據(jù)集成
3.3.1 實體識別問題
3.3.2 冗余和相關(guān)分析
3.3.3 元組重復(fù)
3.3.4 數(shù)據(jù)值沖突的檢測與處理
3.4 數(shù)據(jù)歸約
3.4.1 數(shù)據(jù)歸約策略概述
3.4.2 小波變換
3.4.3 主成分分析
3.4.4 屬性子集選擇
3.4.5 回歸和對數(shù)線性模型:參數(shù)化數(shù)據(jù)歸約
3.4.6 直方圖
3.4.7 聚類
3.4.8 抽樣
3.4.9 數(shù)據(jù)立方體聚集
3.5 數(shù)據(jù)變換與數(shù)據(jù)離散化
3.5.1 數(shù)據(jù)變換策略概述
3.5.2 通過規(guī)范化變換數(shù)據(jù)
3.5.3 通過分箱離散化
3.5.4 通過直方圖分析離散化
3.5.5 通過聚類、決策樹和相關(guān)分析離散化
3.5.6 標稱數(shù)據(jù)的概念分層產(chǎn)生
3.6 小結(jié)
3.7 習(xí)題
3.8 文獻注釋
第4章 數(shù)據(jù)倉庫與聯(lián)機分析處理
4.1 數(shù)據(jù)倉庫:基本概念
4.1.1 什么是數(shù)據(jù)倉庫
4.1.2 操作數(shù)據(jù)庫系統(tǒng)與數(shù)據(jù)倉庫的區(qū)別
4.1.3 為什么需要分離的數(shù)據(jù)倉庫
4.1.4 數(shù)據(jù)倉庫:一種多層體系結(jié)構(gòu)
4.1.5 數(shù)據(jù)倉庫模型:企業(yè)倉庫、數(shù)據(jù)集市和虛擬倉庫
4.1.6 數(shù)據(jù)提取、變換和裝入
4.1.7 元數(shù)據(jù)庫
4.2 數(shù)據(jù)倉庫建模:數(shù)據(jù)立方體與OLAP
4.2.1 數(shù)據(jù)立方體:一種多維數(shù)據(jù)模型
4.2.2 星形、雪花形和事實星座:多維數(shù)據(jù)模型的模式
4.2.3 維:概念分層的作用
4.2.4 度量的分類和計算
4.2.5 典型的OLAP操作
4.2.6 查詢多維數(shù)據(jù)庫的星網(wǎng)查詢模型
4.3 數(shù)據(jù)倉庫的設(shè)計與使用
4.3.1 數(shù)據(jù)倉庫的設(shè)計的商務(wù)分析框架
4.3.2 數(shù)據(jù)倉庫的設(shè)計過程
4.3.3 數(shù)據(jù)倉庫用于信息處理
4.3.4 從聯(lián)機分析處理到多維數(shù)據(jù)挖掘
4.4 數(shù)據(jù)倉庫的實現(xiàn)
4.4.1 數(shù)據(jù)立方體的有效計算:概述
4.4.2 索引OLAP數(shù)據(jù):位圖索引和連接索引
4.4.3 OLAP查詢的有效處理
4.4.4 OLAP服務(wù)器結(jié)構(gòu):ROLAP、MOLAP、HOLAP的比較
4.5 數(shù)據(jù)泛化:面向?qū)傩缘臍w納
4.5.1 數(shù)據(jù)特征的面向?qū)傩缘臍w納
4.5.2 面向?qū)傩詺w納的有效實現(xiàn)
4.5.3 類比較的面向?qū)傩詺w納
4.6 小結(jié)
4.7 習(xí)題
4.8 文獻注釋
第5章 數(shù)據(jù)立方體技術(shù)
5.1 數(shù)據(jù)立方體計算:基本概念
5.1.1 立方體物化:完全立方體、冰山立方體、閉立方體和立方體外殼
5.1.2 數(shù)據(jù)立方體計算的一般策略
5.2 數(shù)據(jù)立方體計算方法
5.2.1 完全立方體計算的多路數(shù)組聚集
5.2.2 BUC:從頂點方體向下計算冰山立方體
5.2.3 Star-Cubing:使用動態(tài)星樹結(jié)構(gòu)計算冰山立方體
5.2.4 為快速高維OLAP預(yù)計算殼片段
5.3 使用探索立方體技術(shù)處理高級查詢
5.3.1 抽樣立方體:樣本數(shù)據(jù)上基于OLAP的挖掘
5.3.2 排序立方體:top-k查詢的有效計算
5.4 數(shù)據(jù)立方體空間的多維數(shù)據(jù)分析
5.4.1 預(yù)測立方體:立方體空間的預(yù)測挖掘
5.4.2 多特征立方體:多粒度上的復(fù)雜聚集
5.4.3 基于異常的、發(fā)現(xiàn)驅(qū)動的立方體空間探查
5.5 小結(jié)
5.6 習(xí)題
5.7 文獻注釋
第6章 挖掘頻繁模式、關(guān)聯(lián)和相關(guān)性:基本概念和方法
6.1 基本概念
6.1.1 購物籃分析:一個誘發(fā)例子
6.1.2 頻繁項集、閉項集和關(guān)聯(lián)規(guī)則
6.2 頻繁項集挖掘方法
6.2.1 Apriori算法:通過限制候選產(chǎn)生發(fā)現(xiàn)頻繁項集
6.2.2 由頻繁項集產(chǎn)生關(guān)聯(lián)規(guī)則
6.2.3 提高Apriori算法的效率
6.2.4 挖掘頻繁項集的模式增長方法
6.2.5 使用垂直數(shù)據(jù)格式挖掘頻繁項集
6.2.6 挖掘閉模式和極大模式
6.3 哪些模式是有趣的:模式評估方法
6.3.1 強規(guī)則不一定是有趣的
6.3.2 從關(guān)聯(lián)分析到相關(guān)分析
6.3.3 模式評估度量比較
6.4 小結(jié)
6.5 習(xí)題
6.6 文獻注釋
第7章 高級模式挖掘
7.1 模式挖掘:一個路線圖
7.2 多層、多維空間中的模式挖掘
7.2.1 挖掘多層關(guān)聯(lián)規(guī)則
7.2.2 挖掘多維關(guān)聯(lián)規(guī)則
7.2.3 挖掘量化關(guān)聯(lián)規(guī)則
7.2.4 挖掘稀有模式和負模式
7.3 基于約束的頻繁模式挖掘
7.3.1 關(guān)聯(lián)規(guī)則的元規(guī)則制導(dǎo)挖掘
7.3.2 基于約束的模式產(chǎn)生:模式空間剪枝和數(shù)據(jù)空間剪枝
7.4 挖掘高維數(shù)據(jù)和巨型模式
7.5 挖掘壓縮或近似模式
7.5.1 通過模式聚類挖掘壓縮模式
7.5.2 提取感知冗余的top-k模式
7.6 模式探索與應(yīng)用
7.6.1 頻繁模式的語義注解
7.6.2 模式挖掘的應(yīng)用
7.7 小結(jié)
7.8 習(xí)題
7.9 文獻注釋
第8章 分類:基本概念
8.1 基本概念
8.1.1 什么是分類
8.1.2 分類的一般方法
8.2 決策樹歸納
8.2.1 決策樹歸納
8.2.2 屬性選擇度量
8.2.3 樹剪枝
8.2.4 可伸縮性與決策樹歸納
8.2.5 決策樹歸納的可視化挖掘
8.3 貝葉斯分類方法
8.3.1 貝葉斯定理
8.3.2 樸素貝葉斯分類
8.4 基于規(guī)則的分類
8.4.1 使用IF-THEN規(guī)則分類
8.4.2 由決策樹提取規(guī)則
8.4.3 使用順序覆蓋算法的規(guī)則歸納
8.5 模型評估與選擇
8.5.1 評估分類器性能的度量
8.5.2 保持方法和隨機二次抽樣
8.5.3 交叉驗證
8.5.4 自助法
8.5.5 使用統(tǒng)計顯著性檢驗選擇模型
8.5.6 基于成本效益和ROC曲線比較分類器
8.6 提高分類準確率的技術(shù)
8.6.1 組合分類方法簡介
8.6.2 裝袋
8.6.3 提升和AdaBoost
8.6.4 隨機森林
8.6.5 提高類不平衡數(shù)據(jù)的分類準確率
8.7 小結(jié)
8.8 習(xí)題
8.9 文獻注釋
第9章 分類:高級方法
9.1 貝葉斯信念網(wǎng)絡(luò)
9.1.1 概念和機制
9.1.2 訓(xùn)練貝葉斯信念網(wǎng)絡(luò)
9.2 用后向傳播分類
9.2.1 多層前饋神經(jīng)網(wǎng)絡(luò)
9.2.2 定義網(wǎng)絡(luò)拓撲
9.2.3 后向傳播
9.2.4 黑盒內(nèi)部:后向傳播和可解釋性
9.3 支持向量機
9.3.1 數(shù)據(jù)線性可分的情況
9.3.2 數(shù)據(jù)非線性可分的情況
9.4 使用頻繁模式分類
9.4.1 關(guān)聯(lián)分類
9.4.2 基于有區(qū)別力的頻繁模式分類
9.5 惰性學(xué)習(xí)法(或從近鄰學(xué)習(xí))
9.5.1 k-最近鄰分類
9.5.2 基于案例的推理
9.6 其他分類方法
9.6.1 遺傳算法
9.6.2 粗糙集方法
9.6.3 模糊集方法
9.7 關(guān)于分類的其他問題
9.7.1 多類分類
9.7.2 半監(jiān)督分類
9.7.3 主動學(xué)習(xí)
9.7.4 遷移學(xué)習(xí)
9.8 小結(jié)
9.9 習(xí)題
9.10 文獻注釋
第10章 聚類分析:基本概念和方法
10.1 聚類分析
10.1.1 什么是聚類分析
10.1.2 對聚類分析的要求
10.1.3 基本聚類方法概述
10.2 劃分方法
10.2.1 k-均值:一種基于形心的技術(shù)
10.2.2 k-中心點:一種基于代表對象的技術(shù)
10.3 層次方法
10.3.1 凝聚的與分裂的層次聚類
10.3.2 算法方法的距離度量
10.3.3 BIRCH:使用聚類特征樹的多階段聚類
10.3.4 Chameleon:使用動態(tài)建模的多階段層次聚類
10.3.5 概率層次聚類
10.4 基于密度的方法
10.4.1 DBSCAN:一種基于高密度連通區(qū)域的基于密度的聚類
10.4.2 OPTICS:通過點排序識別聚類結(jié)構(gòu)
10.4.3 DENCLUE:基于密度分布函數(shù)的聚類
10.5 基于網(wǎng)格的方法
10.5.1 STING:統(tǒng)計信息網(wǎng)格
10.5.2 CLIQUE:一種類似于Apriori的子空間聚類方法
10.6 聚類評估
10.6.1 估計聚類趨勢
10.6.2 確定簇數(shù)
10.6.3 測定聚類質(zhì)量
10.7 小結(jié)
10.8 習(xí)題
10.9 文獻注釋
第11章 高級聚類分析
11.1 基于概率模型的聚類
11.1.1 模糊簇
11.1.2 基于概率模型的聚類
11.1.3 期望最大化算法
11.2 聚類高維數(shù)據(jù)
11.2.1 聚類高維數(shù)據(jù):問題、挑戰(zhàn)和主要方法
11.2.2 子空間聚類方法
11.2.3 雙聚類
11.2.4 維歸約方法和譜聚類
11.3 聚類圖和網(wǎng)絡(luò)數(shù)據(jù)
11.3.1 應(yīng)用與挑戰(zhàn)
11.3.2 相似性度量
11.3.3 圖聚類方法
11.4 具有約束的聚類
11.4.1 約束的分類
11.4.2 具有約束的聚類方法
11.5 小結(jié)
11.6 習(xí)題
11.7 文獻注釋
第12章 離群點檢測
12.1 離群點和離群點分析
12.1.1 什么是離群點
12.1.2 離群點的類型
12.1.3 離群點檢測的挑戰(zhàn)
12.2 離群點檢測方法
12.2.1 監(jiān)督、半監(jiān)督和無監(jiān)督方法
12.2.2 統(tǒng)計方法、基于鄰近性的方法和基于聚類的方法
12.3 統(tǒng)計學(xué)方法
12.3.1 參數(shù)方法
12.3.2 非參數(shù)方法
12.4 基于鄰近性的方法
12.4.1 基于距離的離群點檢測和嵌套循環(huán)方法
12.4.2 基于網(wǎng)格的方法
12.4.3 基于密度的離群點檢測
12.5 基于聚類的方法
12.6 基于分類的方法
12.7 挖掘情境離群點和集體離群點
12.7.1 把情境離群點檢測轉(zhuǎn)換成傳統(tǒng)的離群點檢測
12.7.2 關(guān)于情境對正常行為建模
12.7.3 挖掘集體離群點
12.8 高維數(shù)據(jù)中的離群點檢測
12.8.1 擴充的傳統(tǒng)離群點檢測
12.8.2 發(fā)現(xiàn)子空間中的離群點
12.8.3 高維離群點建模
12.9 小結(jié)
12.10 習(xí)題
12.11 文獻注釋
第13章 數(shù)據(jù)挖掘的發(fā)展趨勢和研究前沿
13.1 挖掘復(fù)雜的數(shù)據(jù)類型
13.1.1 挖掘序列數(shù)據(jù):時間序列、符號序列和生物學(xué)序列
13.1.2 挖掘圖和網(wǎng)絡(luò)
13.1.3 挖掘其他類型的數(shù)據(jù)
13.2 數(shù)據(jù)挖掘的其他方法
13.2.1 統(tǒng)計學(xué)數(shù)據(jù)挖掘
13.2.2 關(guān)于數(shù)據(jù)挖掘基礎(chǔ)的觀點
13.2.3 可視和聽覺數(shù)據(jù)挖掘
13.3 數(shù)據(jù)挖掘應(yīng)用
13.3.1 金融數(shù)據(jù)分析的數(shù)據(jù)挖掘
13.3.2 零售和電信業(yè)的數(shù)據(jù)挖掘
13.3.3 科學(xué)與工程數(shù)據(jù)挖掘
13.3.4 入侵檢測和預(yù)防數(shù)據(jù)挖掘
13.3.5 數(shù)據(jù)挖掘與推薦系統(tǒng)
13.4 數(shù)據(jù)挖掘與社會
13.4.1 普適的和無形的數(shù)據(jù)挖掘
13.4.2 數(shù)據(jù)挖掘的隱私、安全和社會影響
13.5 數(shù)據(jù)挖掘的發(fā)展趨勢
13.6 小結(jié)
13.7 習(xí)題
13.8 文獻注釋
參考文獻
索引
請描述您所遇到的錯誤,我們將盡快予以修正,謝謝!
*必填項,請輸入內(nèi)容