第2章资料.ppt
《第2章资料.ppt》由会员分享,可在线阅读,更多相关《第2章资料.ppt(60页珍藏版)》请在三一文库上搜索。
1、,第 2 章 資 料, 2008 台灣培生教育出版 (Pearson Education Taiwan),什麼是資料?,資料物件和其屬性的集合 一個屬性是指物件的特性,而其特性可能會隨時間而變動 範例:眼睛的顏色、溫度,屬性,物件,屬性值,屬性值可以用數值或是符號來表示 屬性和屬性值的區別 相同的屬性可以對映至不同的屬性值 範例:測量出的長度可以尺或米來表示 不同的屬性可以對映至相同的屬性值集合 範例:身分證字號和年齡這兩種屬性,都可以用整數來表示,屬性的型態,不同的屬性型態 名目 範例:員工編號、眼睛顏色、郵遞區號 順序 範例:成績、金屬硬度 區間 範例:日期、華氏或攝氏溫度 比例 範例:溫
2、度、電子現金,可用以描述屬性的運算特性,差異性: = 順序性: 加減: + - 乘除: * / 名目屬性:差異性 順序屬性:差異性、順序性 區間屬性:差異性、順序性、加減 比例屬性:四種皆可,離散型和連續型屬性,離散型屬性 屬性是有限的或是可數的 範例:郵遞區號 通常以整數值表示 注意:二元屬性是離散型屬性的一個例外情形 連續型屬性 屬性值通常為實數 範例:氣溫 通常以浮點數來表示,資料集的型態,記錄型資料 資料矩陣 文件資料 交易資料 圖形資料 全球資訊網(World Wide Web) 分子結構 順序資料 時序資料 序列資料 時間序列資料 空間資料,對資料探勘具重大影響的資料特性,維度 資
3、料集的維度事實上就是物件的屬性,維度愈高的資料愈難分析,有時稱為維度的魔咒(curse of dimensionality) 稀疏性 對一些非對稱屬性資料而言,也許僅1%的資料是不為0;可是實際上,因為只有非0的數值需要被儲存和運算,因此節省很多時間和儲存空間,所以也算是稀疏資料的一項優點 解析度 不同解析度的資料其特性差異很大,例如在以公尺為單位的解析度上看地球的表面是很不平的,但是在以公里為單位的解析度上來看卻又相對平坦。所以如果解析度太大,那麼有些特性可能會因此消失,記錄資料,資料集包含很多固定欄位的記錄,資料矩陣,如果資料物件都有一些相同的屬性,那麼這些資料物件就可以視為一個多維空間中
4、的一點或是向量,其中每個維度表示一個屬性 這些資料物件可以解釋成m n 的矩陣,其中m列表示每個物件;n行表示每個屬性,文件資料,如果文件中的某些字詞可被忽略,那麼其文件就可以形成一個字詞向量,也就是將字詞視為一個屬性,如此一來所形成的矩陣稱為文件字詞矩陣(document-term matrix),交易資料,是一種特殊的記錄資料類型 每一筆記錄(或稱交易)都包含很多產品項目 範例:顧客在超市的購買記錄。下圖的每一列,表示顧客在特定時間所購買的產品項目,圖形資料,範例:網頁連結和化學元素的結構,(a)網頁連結,(b)苯分子,順序資料,時序交易資料,順序資料,基因序列資料,順序資料,空間性暫時資
5、料,資料品質,有哪些資料品質的問題? 如何偵測資料的問題? 我們如何處理這些問題? 資料品質的問題包括: 雜訊和離群值 遺漏值 重複性資料,雜訊,雜訊值有可能來自於測量誤差,包含一些資料的扭曲或是不實 下圖是一個刪除雜訊值前後的時間序列,離群值,離群值可能是因為資料物件的某些特性和其他物件不一樣,或者是其屬性值較不常出現在其他物件中,遺漏值,會有遺漏值的原因 某些資料無法完整搜集 (例如,在問卷回答的過程中,很多人不想揭露年齡或是體重 ) 處理遺漏值的方法 刪除資料物件 估計遺漏值 在分析過程中忽略遺漏值,重複性資料,資料有可能包含重複的物件或者是幾乎都是重複的物件 整合來自不同來源的資料時
6、範例:一個人有多個不同的電子郵件帳號 資料清理(data cleaning) 處理重複性資料的過程,資料前處理,聚合 抽樣 維度縮減 特徵選取 特徵的產生 離散化及二元化 變數的轉換,聚合,假設有一個記錄產品在各分店每日交易的資料,我們可以用聚合的觀念將每個分店的每日銷售額彙總出來,如此一來資料量就可以大幅降低,聚合的範例,澳洲降雨量,抽樣,抽樣是用來選取欲分析資料的主要技術 通常用在資料調查及資料分析上 統計學上的抽樣主要在於要得到所有資料太過耗時 資料探勘的抽樣主要在於計算的時間太過耗時,抽樣 ,有效的抽樣原則在於樣本必須是具有代表性: 抽樣的樣本所得到的結果會和整個原始資料的結果很接近
7、如果某一個資料的平均數很接近整體資料的平均數,那麼就具有代表性,抽樣的方法:隨機抽樣,隨機抽樣 每個項目被選取的機率是一樣的 抽樣後不放回 被抽中的樣本就不再繼續抽 抽樣後放回 被抽中的樣本有可能繼續被抽中 分層抽樣法(Stratified sampling) 第一種分層抽樣法,是假設不同類型中的資料不管數量多少都有相同的抽樣機率; 第二種分層抽樣法是依照類型中的資料所佔比例來決定其抽樣的個數,樣本的大小,樣本大小,圖 (a) 假設群體數很少,只有10個。圖 (b) 顯示從10個群體中各抽出一個物件的機率,其樣本大小從10到60,維度的問題,當維度增加時,資料分析的工作會變得很困難,因為它可能
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 资料
链接地址:https://www.31doc.com/p-2600579.html