亞寵展、全球?qū)櫸锂a(chǎn)業(yè)風(fēng)向標(biāo)——亞洲寵物展覽會深度解析
811
2022-05-29
參-1
1.數(shù)據(jù)分析人才的稀缺,Internet與數(shù)據(jù)密切相關(guān),數(shù)據(jù)能看清一切,用來預(yù)測流感,以及總統(tǒng)競選和助女排奪冠
2.數(shù)據(jù)分析技術(shù)不應(yīng)被濫用
3.定義:數(shù)據(jù)科學(xué)是將數(shù)據(jù)轉(zhuǎn)化為決策和行動(tradecraft)的藝術(shù),是人和計算機一起工作將數(shù)據(jù)轉(zhuǎn)化為知識發(fā)現(xiàn)的工具、技術(shù)和流程的整合。數(shù)據(jù)學(xué)科通過收集數(shù)據(jù)、描述數(shù)據(jù)、發(fā)現(xiàn)知識,進而進行合理的有針對性的預(yù)測和建議。
數(shù)據(jù)特征:1.數(shù)據(jù)有型和值之分2.數(shù)據(jù)受數(shù)據(jù)類型和取值范圍的約束3.數(shù)據(jù)有定性表示和定量表示之分4.數(shù)據(jù)應(yīng)具有載體和多種表現(xiàn)形式
4.結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù): 即行數(shù)據(jù), 存儲在數(shù)據(jù)庫里,可以用二維表結(jié)構(gòu)來邏輯表達實現(xiàn)的數(shù)據(jù) 先有結(jié)構(gòu)、再有數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)(包含半結(jié)構(gòu)化):包括所有格式的辦公文檔、文本、圖片等
半結(jié)構(gòu)化數(shù)據(jù):就是介于完全結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫、面向?qū)ο髷?shù)據(jù)庫中的數(shù)據(jù))和完全無結(jié)構(gòu)的數(shù)據(jù)(如聲音、圖像文件等)之間的數(shù)據(jù)。HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。 先有數(shù)據(jù),再有結(jié)構(gòu)
5.關(guān)系數(shù)據(jù)庫已經(jīng)無法滿足大數(shù)據(jù)的需求
主要表現(xiàn)在以下幾個方面:
無法滿足海量數(shù)據(jù)的管理需求
無法滿足數(shù)據(jù)高并發(fā)的需求
無法滿足高可擴展性和高可用性的需求
6.Not only SQL
鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫
7.鍵值(Key-Value)數(shù)據(jù)庫
查找快速,擴展性好,靈活性好,大量寫操作時性能高
數(shù)據(jù)無結(jié)構(gòu),無法存儲結(jié)構(gòu)化信息,條件查詢效率較低
涉及頻繁讀寫、擁有簡單數(shù)據(jù)模型的應(yīng)用
內(nèi)容緩存,比如會話、配置文件、參數(shù)、購物車等
存儲配置和用戶數(shù)據(jù)信息的移動應(yīng)用
列族數(shù)據(jù)庫(經(jīng)典)
查找速度快,可擴展性強(重點優(yōu)勢),
容易進行分布式擴展,復(fù)雜性低
功能較少,大都不支持強事務(wù)一致性
分布式數(shù)據(jù)存儲與管理
數(shù)據(jù)在地理上分布于多個數(shù)據(jù)中心的應(yīng)用程序
可以容忍副本中存在短期不一致情況的應(yīng)用程序
擁有動態(tài)字段的應(yīng)用程序
擁有潛在大量數(shù)據(jù)的應(yīng)用程序,大到幾百TB的數(shù)據(jù)
文檔(Document)數(shù)據(jù)庫
數(shù)據(jù)是不規(guī)則的,每一條記錄包含了所有的有關(guān)“SequoiaDB”的信息而沒有任何外部的引用,這條記錄就是“自包含”的。
這使得記錄很容易完全移動到其他服務(wù)器,因為這條記錄的所有信息都包含在里面了,不需要考慮還有信息在別的表沒有一起遷移走(無牽掛,遷徙容易)
同時,因為在移動過程中,只有被移動的那一條記錄(文檔)需要操作,而不像關(guān)系型中每個有關(guān)聯(lián)的表都需要鎖住來保證一致性,這樣一來ACID的保證就會變得更快速,讀寫的速度也會有很大的提升
圖形(Graph)數(shù)據(jù)庫
靈活性高,支持復(fù)雜的圖形算法,可用于構(gòu)建復(fù)雜的關(guān)系圖譜
復(fù)雜性高,只能支持一定的數(shù)據(jù)規(guī)模
專門用于處理具有高度相互關(guān)聯(lián)關(guān)系的數(shù)據(jù),
比較適合于社交網(wǎng)絡(luò)、推薦引擎、模式識別、依賴分析、推薦系統(tǒng)以及路徑尋找等問題
參-2
1.數(shù)據(jù)預(yù)處理是指對數(shù)據(jù)進行正式處理(計算)之前,根據(jù)后續(xù)數(shù)據(jù)計算的需求對原始數(shù)據(jù)集進行審計、清洗、變換、集成、脫敏、規(guī)約和標(biāo)注等一系列處理活動,提升數(shù)據(jù)質(zhì)量,并使數(shù)據(jù)形態(tài)更加符合某一算法要求,進而達到提升數(shù)據(jù)計算的效果和降低其復(fù)雜度的目的
2.消息鑒別碼/Hash函數(shù)/數(shù)字簽名
3.重復(fù)過濾:在識別數(shù)據(jù)中的重復(fù)數(shù)據(jù)的基礎(chǔ)上,從每個重復(fù)數(shù)據(jù)項中選擇一項記錄為代表保留。兩個關(guān)鍵活動:識別重復(fù)數(shù)據(jù)
判斷方法:根據(jù)來源數(shù)據(jù)的具體結(jié)構(gòu)本身來確定。如,關(guān)系表中,考慮屬性值的相似性來確定;圖論中,根據(jù)計算記錄之間的距離的方法確定。注意:判斷重復(fù)記錄,并不要求記錄的屬性值是完全相同的。
過濾重復(fù)數(shù)據(jù), 兩種方法
直接過濾:直接過濾,選擇代表性的數(shù)據(jù)留下。
間接過濾:對重復(fù)數(shù)據(jù)進行一定校驗、整合、合并操作之后,形成一條新紀(jì)錄. (因為重復(fù)記錄并一定是指相同的記錄)
條件過濾:指根據(jù)某種條件進行過濾,如過濾掉年齡小于15歲的學(xué)生記錄。
嚴(yán)格來講,重復(fù)過濾也是條件過濾的一種特殊表現(xiàn)形式。
4.指測量變量中的隨機錯誤或偏差
分箱(Binning):把數(shù)據(jù)集放入多個箱內(nèi),用箱子的均值替換該箱內(nèi)部的每個數(shù)據(jù)成員,從而達到降噪目的。
聚類(Clustering):通過聚類檢測離群點,將類似的值組織成群或簇。直觀地,落在簇集合之外的值視為離群點。
回歸(Regression):用一個函數(shù)(如回歸函數(shù))擬合數(shù)據(jù)來光滑數(shù)據(jù)。
5.數(shù)據(jù)脫敏操作不能停留在簡單的將敏感信息屏蔽掉或匿名處理。
數(shù)據(jù)脫敏的原則:
單向性:從原始數(shù)據(jù)可以容易得到脫敏數(shù)據(jù),但無法從脫敏數(shù)據(jù)推導(dǎo)出原始數(shù)據(jù)。
無殘留: 保證用戶無法通過其他途徑還原敏感信息。
易于實現(xiàn):數(shù)據(jù)脫敏涉及的數(shù)據(jù)量大,需要簡單的計算方法。如不能采用加密算法來進行脫敏,則計算太復(fù)雜。
6.數(shù)據(jù)預(yù)處理工作往往有一定代價的
導(dǎo)致數(shù)據(jù)損失,甚至可能對數(shù)據(jù)產(chǎn)生曲解。
因此,應(yīng)盡可能減少預(yù)處理對數(shù)據(jù)原始內(nèi)容的改變。
要減少數(shù)據(jù)預(yù)處理工作,必須提升計算方法(平臺)的魯棒性!
[魯棒是Robust的音譯,也就是健壯和強壯的意思。 它也是在異常和危險情況下系統(tǒng)生存的能力。
比如說,計算機軟件在輸入錯誤、磁盤故障、網(wǎng)絡(luò)過載或有意攻擊情況下,能否不死機、不崩潰,就是該軟件的魯棒性。
所謂"魯棒性",也是指控制系統(tǒng)在一定(結(jié)構(gòu),大小)的參數(shù)攝動下,維持其它某些性能的特性。]
從本質(zhì)上看,數(shù)據(jù)預(yù)處理的必要性的討論可以歸結(jié)為兩個問題:
一是我們是否接受“數(shù)據(jù)的復(fù)雜性”;(接受復(fù)雜性,則意味著對計算平臺對數(shù)據(jù)更有魯棒性)
二是我們的計算能力是否足以解決數(shù)據(jù)中的復(fù)雜性問題 (計算能力強,則可以省略一些簡單的預(yù)處理工作)(這就是為什么 大數(shù)據(jù)和云計算是一對的原因)
隨著大數(shù)據(jù)時代的到來,上層數(shù)據(jù)處理應(yīng)用系統(tǒng)的主要需求發(fā)生了新的變化。例如,
簡單查詢操作的響應(yīng)時間的高度重視
強調(diào)應(yīng)用系統(tǒng)對不斷變化的環(huán)境的自適應(yīng)能力等。
同時,上述新趨勢也對數(shù)據(jù)預(yù)處理活動提出了新的挑戰(zhàn)。
參-3
1.“樣本”推斷“總體”,利用“樣本的統(tǒng)計量”來估計“總體的參數(shù)”
舉例:已有樣本的均值去估計總體的均值
點估計&區(qū)間估計
2.假設(shè)檢驗(hypothesis test),就是根據(jù)已掌握的資料對一個總體參數(shù)是否等于某一個數(shù)值,某一隨機變量是否服從某種概率分布的假設(shè),然后根據(jù)所取得的樣本資料,利用一定的統(tǒng)計方法計算出有關(guān)檢驗的統(tǒng)計量,依據(jù)一定的概率原則,以較小的風(fēng)險來判斷估計數(shù)值與總體數(shù)值(或估計分布與實際分布)是否存在顯著差異,是否應(yīng)當(dāng)接受原假設(shè)的一種檢驗方法 。
以小概率原理為基礎(chǔ)。
3.最小二乘法
此處,最小二乘法就是使因變量的觀察值與估計值之間的離差平方和達到最小來求得 和 的方法,即
[高斯證明了最小二乘方法的一個最優(yōu)性質(zhì): 在所有無偏的線性估計類中,最小二乘方法是其中方差最小的!]
4.定律1:如果一個集合是頻繁項集,則它的所有子集都是頻繁項集
定律2:如果一個集合不是頻繁項集,則它的所有超集都不是頻繁項集
5.BCE
6.缺點:對數(shù)據(jù)庫的掃描次數(shù)過多;每次計算項集的支持度時,都對數(shù)據(jù)庫D中的全部記錄進行了一遍掃描比較,如果是一個大型的數(shù)據(jù)庫的話,這種掃描比較會大大增加計算機系統(tǒng)的I/O開銷。而這種代價是隨著數(shù)據(jù)庫的記錄的增加呈現(xiàn)出幾何級數(shù)的增加。
Apriori算法會產(chǎn)生大量的中間項集;
算法的適應(yīng)面窄
改進:優(yōu)化思路:
劃分方法:挖掘頻繁項集只需要兩次數(shù)據(jù)掃描 ,
D中的任何頻繁項集必須作為局部頻繁項集至少出現(xiàn)在一個部分中。
第一次掃描:將數(shù)據(jù)劃分為多個部分并找到局部頻繁項集。
第二次掃描:評估每個候選項集的實際支持度,以確定全局頻繁項集。 (這樣就可以采用MAP-REDUCE方法)
采用(在給定數(shù)據(jù)的一個子集挖掘) 方法:
基本思想:選擇原始數(shù)據(jù)的一個樣本,在這個樣本上用Apriori算法挖掘頻繁模式
通過犧牲精確度來減少算法開銷,為了提高效率,樣本大小應(yīng)該以可以放在內(nèi)存中為宜,可以適當(dāng)降低最小支持度來減少遺漏的頻繁模式
可以通過一次全局掃描來驗證從樣本中發(fā)現(xiàn)的模式
可以通過第二此全局掃描來找到遺漏的模式
數(shù)據(jù)挖掘
版權(quán)聲明:本文內(nèi)容由網(wǎng)絡(luò)用戶投稿,版權(quán)歸原作者所有,本站不擁有其著作權(quán),亦不承擔(dān)相應(yīng)法律責(zé)任。如果您發(fā)現(xiàn)本站中有涉嫌抄襲或描述失實的內(nèi)容,請聯(lián)系我們jiasou666@gmail.com 處理,核實后本網(wǎng)站將在24小時內(nèi)刪除侵權(quán)內(nèi)容。