第2章资料.ppt

资源ID：2600579 资源大小：1.88MB 全文页数：60页
资源格式： PPT 下载积分：8元

快捷下载

会员登录下载

微信登录下载

三方登录下载：

微信扫一扫登录

下载资源需要8元

邮箱/手机：
温馨提示：	用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）
支付方式：
验证码：	换一换

加入VIP免费专享

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

网站客服

侵权投诉

第2章资料.ppt

,第 2 章資料,© 2008 台灣培生教育出版 (Pearson Education Taiwan),什麼是資料?,資料物件和其屬性的集合一個屬性是指物件的特性，而其特性可能會隨時間而變動範例：眼睛的顏色、溫度,屬性,物件,屬性值,屬性值可以用數值或是符號來表示屬性和屬性值的區別相同的屬性可以對映至不同的屬性值範例：測量出的長度可以尺或米來表示不同的屬性可以對映至相同的屬性值集合範例：身分證字號和年齡這兩種屬性，都可以用整數來表示,屬性的型態,不同的屬性型態名目範例：員工編號、眼睛顏色、郵遞區號順序範例：成績、金屬硬度區間範例：日期、華氏或攝氏溫度比例範例：溫度、電子現金,可用以描述屬性的運算特性,差異性： = 順序性：加減： + - 乘除： * / 名目屬性：差異性順序屬性：差異性、順序性區間屬性：差異性、順序性、加減比例屬性：四種皆可,離散型和連續型屬性,離散型屬性屬性是有限的或是可數的範例：郵遞區號通常以整數值表示注意：二元屬性是離散型屬性的一個例外情形連續型屬性屬性值通常為實數範例：氣溫通常以浮點數來表示,資料集的型態,記錄型資料資料矩陣文件資料交易資料圖形資料全球資訊網（World Wide Web）分子結構順序資料時序資料序列資料時間序列資料空間資料,對資料探勘具重大影響的資料特性,維度資料集的維度事實上就是物件的屬性，維度愈高的資料愈難分析，有時稱為維度的魔咒（curse of dimensionality）稀疏性對一些非對稱屬性資料而言，也許僅1%的資料是不為0；可是實際上，因為只有非0的數值需要被儲存和運算，因此節省很多時間和儲存空間，所以也算是稀疏資料的一項優點解析度不同解析度的資料其特性差異很大，例如在以公尺為單位的解析度上看地球的表面是很不平的，但是在以公里為單位的解析度上來看卻又相對平坦。所以如果解析度太大，那麼有些特性可能會因此消失,記錄資料,資料集包含很多固定欄位的記錄,資料矩陣,如果資料物件都有一些相同的屬性，那麼這些資料物件就可以視為一個多維空間中的一點或是向量，其中每個維度表示一個屬性這些資料物件可以解釋成m n 的矩陣，其中m列表示每個物件；n行表示每個屬性,文件資料,如果文件中的某些字詞可被忽略，那麼其文件就可以形成一個字詞向量，也就是將字詞視為一個屬性，如此一來所形成的矩陣稱為文件字詞矩陣（document-term matrix）,交易資料,是一種特殊的記錄資料類型每一筆記錄（或稱交易）都包含很多產品項目範例：顧客在超市的購買記錄。下圖的每一列，表示顧客在特定時間所購買的產品項目,圖形資料,範例：網頁連結和化學元素的結構,（a）網頁連結,（b）苯分子,順序資料,時序交易資料,順序資料,基因序列資料,順序資料,空間性暫時資料,資料品質,有哪些資料品質的問題? 如何偵測資料的問題? 我們如何處理這些問題? 資料品質的問題包括：雜訊和離群值遺漏值重複性資料,雜訊,雜訊值有可能來自於測量誤差，包含一些資料的扭曲或是不實下圖是一個刪除雜訊值前後的時間序列,離群值,離群值可能是因為資料物件的某些特性和其他物件不一樣，或者是其屬性值較不常出現在其他物件中,遺漏值,會有遺漏值的原因某些資料無法完整搜集 (例如，在問卷回答的過程中，很多人不想揭露年齡或是體重 ) 處理遺漏值的方法刪除資料物件估計遺漏值在分析過程中忽略遺漏值,重複性資料,資料有可能包含重複的物件或者是幾乎都是重複的物件整合來自不同來源的資料時範例：一個人有多個不同的電子郵件帳號資料清理（data cleaning）處理重複性資料的過程,資料前處理,聚合抽樣維度縮減特徵選取特徵的產生離散化及二元化變數的轉換,聚合,假設有一個記錄產品在各分店每日交易的資料，我們可以用聚合的觀念將每個分店的每日銷售額彙總出來，如此一來資料量就可以大幅降低,聚合的範例,澳洲降雨量,抽樣,抽樣是用來選取欲分析資料的主要技術通常用在資料調查及資料分析上統計學上的抽樣主要在於要得到所有資料太過耗時資料探勘的抽樣主要在於計算的時間太過耗時,抽樣 ,有效的抽樣原則在於樣本必須是具有代表性：抽樣的樣本所得到的結果會和整個原始資料的結果很接近如果某一個資料的平均數很接近整體資料的平均數，那麼就具有代表性,抽樣的方法：隨機抽樣,隨機抽樣每個項目被選取的機率是一樣的抽樣後不放回被抽中的樣本就不再繼續抽抽樣後放回被抽中的樣本有可能繼續被抽中分層抽樣法（Stratified sampling）第一種分層抽樣法，是假設不同類型中的資料不管數量多少都有相同的抽樣機率；第二種分層抽樣法是依照類型中的資料所佔比例來決定其抽樣的個數,樣本的大小,樣本大小,圖 (a) 假設群體數很少，只有10個。圖 (b) 顯示從10個群體中各抽出一個物件的機率，其樣本大小從10到60,維度的問題,當維度增加時，資料分析的工作會變得很困難，因為它可能會增加空間中的稀疏性對分類和分群問題而言，資料密度以及樣本點間的距離是很重要的，可是卻因為維度太多而變得沒有意義,縮減維度,目的避免維度的問題降低資料探勘演算法所需的時間和記憶體讓資料更易於用視覺化方式呈現出來協助刪除掉一些無關的特徵或是雜訊值技術主成份分析（PCA）奇異值分解法（SVD）,特徵選取,另一個縮減資料維度的方法重複的特徵是指大部分資訊包含一個或多個其他屬性無關的特徵是指大部分的資訊是不可用的情形。例如學生的學號就和成績的表現無關,特徵選取,技術嵌入法在資料探勘演算的過程中，可以自己決定所要用的屬性或是必須忽略的屬性過濾法在進行資料探勘之前，可以先選擇一些相關性較低的屬性包裝法是將資料探勘視為一個黑盒子，利用此黑盒子來找到最好的屬性，但是不會處理所有可能的特徵組合,特徵的產生,新的屬性通常是從原始屬性中建立出來的，而且新的屬性個數一定會比原始屬性個數要來的少三種常見的方法特徵的萃取將資料映射到新的空間特徵的建構,將資料映射到新的空間,傅立葉轉換波轉換,監督式離散化,使用亂度方法,三個區間,五個區間,非監督式離散化,原始資料,等寬離散化,等深離散化,K-means離散化,變數的轉換,變數的轉換可以應用到所有變數上（變數其實就是屬性），換句話說，例如只有一個變數很重要，但有很大的值，那麼其值就可以用絕對值進行轉換簡單函數： xk, log(x), ex, |x| 正規化和標準化,相似度與不相似度,相似度相似度表示物件間相同的程度物件之間的相似度愈高，其物件愈相像其值僅會介於01之間不相似度不相似度表示兩個物件間差異的程度不相似度和距離其實是同義字，距離愈大，不相似度愈高其值介於01之間，但是有時其範圍可以是0到鄰近值（proximity）來表示相似度與不相似度,簡單屬性間的相似度與不相似度,下表是各種屬性型態的不相似度及相似度之計算方法，其中兩個物件x與y，各有一個屬性，而 d(x,y) 與 s(x,y) 分別表示不相似度及相似度,歐幾里德距離,歐幾里德距離其中n是指維度個數，而xk 及yk 分別表示x與y的第k個屬性,歐幾里德距離,距離矩陣,四個二維樣本點,x 與 y 座標軸上的四個點,Minkowski 距離,Minkowski 距離是由歐幾里德距離衍生而來其中r是一個參數，n是指維度個數，而xk 及yk 分別表示x與y的第k個屬性,Minkowski 距離：範例,當 r = 1 時（L1 範數），常見的例子是漢明（Hamming）距離，它是用來計算物件間有多少個不同的位元個數。 r = 2，則是用歐幾里德距離（L2 範數）。 r = ，是指物件間任何屬性的最大距離（Lmax 或L 範數），其的公式如下： r 的參數和 n 維的個數不一樣，所以從以上情形中，我們可以瞭解不同的屬性個數所用的公式不一樣。.,Minkowski 距離,距離矩陣,距離公式常見的衡量方法,歐幾里德距離公式是用常見的衡量方法，如果有兩個點 x 與 y，那麼其 d(x, y) 具有以下特性：滿足以上三個條件稱為metrics（度量）,相似度的特性,對相似度而言，三角不等式通常很難成立，但是一定會具有對稱性以及正向性，例如 s(x, y) 是 x 與 y 樣本點間的相似度，如下：,二元資料間的相似度,二元資料間的相似度值稱為相似係數，通常介於01 之間，其值為 1 表示物件間具有完全相關的特性，為0表示完全不相關假設 x 與 y 是具有 n 個二位元屬性的物件，而所產生的二個向量有以下四種關係,二元資料間的相似度,簡單配對係數（simple matching coefficient，SMC）,Jaccard 係數,SMC 和 Jaccard：範例,Cosine 相似度,假設有兩個文件向量x與y 其中是指向量的乘積，而 | x | 是向量的長度範例：,Extended Jaccard 係數（Tanimoto係數）,Extended Jaccard係數可以用在文件資料上，而且也鬆綁Jaccard係數僅能處理二元屬性的限制，其方法也稱為Tanimto係數；但是有一些其他的係數也稱為Tanimto係數。這個係數我們將用EJ來表示，定義如下：,相關性,具有二元或是連續屬性的二個物件，可以用線性函數來計算其相關性，一般也稱為相似度其中皮爾森相關係數的定義如下：,視覺化關係,相關係數 1 到 1 之間的散佈圖,馬氏（Mahalanobis）距離,可用來處理屬性間具有相關性的問題：,異質屬性的相似度,當屬性型態不一樣時，較為簡單的方法是分別計算每個屬性的相似度，然後將其結果整合成介於01之間的相似度，其作法通常是取其平均數,使用權重值,當權重不相同時如果權重和為 1： Mikowski距離可修改如下：,選擇適當的鄰近值衡量公式,對於一些連續型的資料，可以使用歐幾里德距離公式對於稀疏資料，餘弦、Jaccard及extended Jaccard都可以處理這類型的問題對於時間序列，若時間序列的長度很重要，可以使用歐幾里德距離公式；如果時間序列表示不同的值（像是血壓及氧氣消耗），那麼我們可以決定是否其時間序列具有相同的形狀，而不是相同的長度。而相關係數則可以用來量不同長度或是等級的問題,

注意事项

本文（第2章资料.ppt）为本站会员（本田雅阁）主动上传，三一文库仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知三一文库（点击联系客服），我们立即给予删除！

温馨提示：如果因为网速或其他原因下载失败请重新下载，重复下载不扣分。