【Python算法】常用降維方法--機器學習簡介
常用降維方法--機器學習簡介
1. 機器學習簡介
機器學習的萌芽誕生與19世紀60年代,20年前開始逐漸興起,他是一門跨學科的交融。這里面包含了概率論、統計學等等學科。隨著計算機硬件的提升,計算機運算速度的不斷提高,它真正開始計入我們的日常生活當中。而在不久的將來,我相信它會成為我們生活中必不可少的組成元素。我們說說日常生活中機器學習的應用。第一個提到的最具代表性的公司應該就是google,它們所研發的GOOGLE NOW,GOOGLE PHOTOS 都是基于機器學習的產物。同樣在百度,圖片識別也是應用到機器學習中的視覺處理系統。于此同時,各種各樣的企業都開始嘗試把自己的產品往機器學習上靠攏。比如金融公司的匯率預測,股票漲跌。房地產公司的房價預測等等。
2. 常見機器學習算法
如果在學習過程中,我們不斷的向計算機提供數據和這些數據對應的值,比如說給計算機看貓和狗的圖片,告訴計算機那些圖片里是貓,那些是狗,然后在讓它學習去分辨貓和狗。通過這種指引的方式,讓計算機學習我們是如何把這些圖片數據對應上圖片所代表的物體。也就是讓計算機學習這些標簽可以代表那些圖片。這種學習方式叫做“監督學習”。預測房屋的價格,股票的漲停同樣可以用監督學習來實現。大家所熟知的神經網絡同樣是一種監督學習的方式。
同樣在這種學習過程中,我只給計算機提供貓和狗的圖片,但是并沒有告訴它那些是貓那些是狗。取而代之的是,我讓它主機去判斷和分類。讓它自己總結出這兩種類型的圖片的不同之處。這就是一種“非監督學習”,在這種學習過程中,我們可以不用提供數據所對應的標簽信息,計算機通過觀察各種數據之間的特性,會發現這些特性背后的規律。這些規律也就是非監督方法所學到的東西。
還有一種方法,綜合了監督學習和非監督學習的特征,這種叫作“半監督學習”,它主要考慮如何利用少量有標簽的樣本和大量的沒有標簽樣本進行訓練和分類。在規劃機器人的行為準則方面,一種機器人學習方法叫作“強化學習”,也就是把計算機丟到一個對于它完全陌生的環境或者讓它完成一項從未接觸過的任務。它自己回去嘗試各種手段。最后讓自己成功使用這一個陌生的環境。或者學會完成這件任務的方法途徑。比如我想訓練機器人去投籃,我們只需要給它一個球。并告訴它你投進了我給你記一分,讓它自己去嘗試各種各樣的投籃方法。在開始階段,它的命中率可能會非常低。不過它回像人類一樣主機總結和學習投籃失敗或成功的經驗。最后達到很高的命中率。GOOGLE 開發的ALPHAGO 也就是應用了之一種學習方式。
還有一種和強化學習類似的學習方法,叫做遺傳算法。這種方法是模擬我們熟知的進化理論,淘汰弱者,適者生存。通過這樣的淘汰機制去選擇最優的設計或模型。比如開發者所開發的計算機學會超級瑪麗,最開始的馬里奧1代可能不久就犧牲了,不過系統會基于1代的馬里奧隨機生成2代。然后在保存這些代里面最厲害的馬里奧。淘汰掉比較弱的馬里奧代,然后再次基于強者“繁衍和變異”,生出更強的馬里奧,這也就是遺傳算法的基本思想。
3. 機器學習的歷史
1950年,計算機科學家 Alan Turing發明了所謂的圖靈測試,計算機必須通過文字對話一個人,讓人以為她在和另一個人說話。圖靈認為,只有通過這個測試,機器才能被認為是“智能的”。1952年,Arthur Samuel創建了第一個真正的機器學習程序——一個簡單的棋盤游戲,計算機能夠從以前的游戲中學習策略,并提高未來的性能。接著是Donald Michie 在1963年推出的強化學習的tic-tac-toe程序。在接下來的幾十年里,機器學習的進步遵循了同樣的模式--一項技術突破導致了更新的、更復雜的計算機,通常是通過與專業的人類玩家玩戰略游戲來測試的。
它在1997年達到巔峰,當時IBM國際象棋電腦深藍(Deep Blue)在一場國際象棋比賽中擊敗了世界冠軍加里·卡斯帕羅夫(Garry Kasparov)。最近,谷歌開發了專注于古代中國棋類游戲圍棋(Go)的AlphaGo,該游戲被普遍認為是世界上最難的游戲。盡管圍棋被認為過于復雜,以至于一臺電腦無法掌握,但在2016年,AlphaGo終于獲得了勝利,在一場五局比賽中擊敗了Lee Sedol。
機器學習最大的突破是2006年的深度學習。深度學習是一類機器學習,目的是模仿人腦的思維過程,經常用于圖像和語音識別。深度學習的出現導致了我們今天使用的(可能是理所當然的)許多技術。你有沒有把一張照片上傳到你的Facebook賬戶,只是為了暗示給照片中的人貼上標簽?Facebook正在使用神經網絡來識別照片中的面孔。或者Siri呢?當你問你的iPhone關于今天的棒球成績時,你的話語會用一種復雜的語音解析算法進行分析。如果沒有深度學習,這一切都是不可能的。
4. 機器學習的應用場景
基于海量公交數據記錄,希望挖掘市民在公共交通中的行為模式。以市民出行公交線路選乘預測為方向,期望通過分析廣東省部分公交線路的歷史公交卡交易數據,挖掘固定人群在公共交通中的行為模式,分析推測乘客的出行習慣和偏好,從而建立模型預測人們在未來一周內將會搭乘哪些公交線路,為廣大乘客提供信息對稱、安全舒適的出行環境,用數據引領未來城市智慧出行。2、基于運營商數據的個人征信評估運營商作為網絡服務供應商,積累了大量的用戶基本信息及行為特征數據,如終端數據、套餐消費數據、通信數據等等。實名制政策保證了運營商用戶數據能與用戶真實身份匹配,并真實客觀的反映用戶行為。廣泛覆蓋的網絡基礎設施提供了積累大量實時數據的條件,這些用戶數據實時反饋著用戶的各個維度的信息及特征。在我國,個人征信評估主要通過引用央行個人征信報告,但對于很多用戶沒有建立個人信用記錄的用戶,金融機構想要了解他們的信用記錄成本又較高,傳統征信評估手段難以滿足目前多種多樣的新興需求。金融業務不同于其他大數據業務,對數據的真實性、可信度和時效性要求較高,而這正是運營商數據的價值所在。期望利用運營商用戶數據,提供完善的個人征信評估。
京東含有數以百萬計的商品圖片,“拍照購”“找同款”等應用必須對用戶提供的商品圖片進行分類。同時,提取商品圖像特征,可以提供給推薦、廣告等系統,提高推薦/廣告的效果。希望通過對圖像數據進行學習,以達到對圖像進行分類劃分的目的。
用戶在上網瀏覽過程中,可能產生廣告曝光或點擊行為。對廣告點擊進行預測,可以指導廣告主進行定向廣告投放和優化,使廣告投入產生最大回報。希望基于100萬名隨機用戶在六個月的時間范圍內廣告曝光和點擊日志,包括廣告監測點數據,預測每個用戶在8天內是否會在各監測點上發生點擊行為。
垃圾短信已日益成為困擾運營商和手機用戶的難題,嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害著社會穩定。而不法分子運用科技手段不斷更新垃圾短信形式且傳播途徑非常廣泛,傳統的基于策略、關鍵詞等過濾的效果有限,很多垃圾短信“逃脫”過濾,繼續到達手機終端。希望基于短信文本內容,結合機器學習算法、大數據分析挖掘來智能地識別垃圾短信及其變種。
“物以類聚,人以群分”這句古語不僅揭示了物與人的自組織趨向,更隱含了“聚類”和“人群”之間的內在聯系。在現代數字廣告投放系統中,以物擬人,以物窺人,才是比任何大數據都要更大的前提。在現代廣告投放系統中,多層級成體系的用戶畫像構建算法是實現精準廣告投放的基礎技術之一。其中,基于人口屬性的廣告定向技術是普遍適用于品牌展示廣告和精準競價廣告的關鍵性技術。在搜索競價廣告系統中,用戶通過在搜索引擎輸入具體的查詢詞來獲取相關信息。因此,用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關系。希望基于用戶歷史一個月的查詢詞與用戶的人口屬性標簽(包括性別、年齡、學歷)做為訓練數據,通過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行判定。
隨著信息技術的快速發展,移動設備和移動互聯網已經普及到千家萬戶。在用戶使用移動網絡時,會自然的留下用戶的位置信息。隨著近年來GIS地理信息技術的不斷完善普及,結合用戶位置和GIS地理信息將帶來創新應用。如百度與萬達進行合作,通過定位用戶的位置,結合萬達的商戶信息,向用戶推送位置營銷服務,提升商戶效益。希望通過大量移動設備用戶的位置信息,為某連鎖餐飲機構提供新店選址。
地址是一個涵蓋豐富信息的變量,但長期以來由于中文處理的復雜性、國內中文地址命名的不規范性,使地址中蘊含的豐富信息不能被深度分析挖掘。通過對地址進行標準化的處理,使基于地址的多維度量化挖掘分析成為可能,為不同場景模式下的電子商務應用挖掘提供了更加豐富的方法和手段,因此具有重要的現實意義。3、非人惡意流量識別 2016年第一季度Facebook發文稱,其Atlas DSP平臺半年的流量質量測試結果顯示,由機器人模擬和黑IP等手段導致的非人惡意流量高達75% . 僅2016上半年,AdMaster反作弊解決方案認定平均每天能有高達 28% 的作弊流量。低質量虛假流量的問題一直存在,這也是過去十年間數字營銷行業一直在博弈的問題。基于AdMaster海量監測數據,50%以上的項目均存在作弊嫌疑;不同項目中,作弊流量占廣告投放5%到95%不等;其中垂直類和網盟類媒體的作弊流量占比最高;PC端作弊流量比例顯著高于移動端和智能電視平臺。廣告監測行為數據被越來越多地用于建模和做決策,例如繪制用戶畫像,跨設備識別對應用戶等。作弊行為,惡意曝光,網絡爬蟲,誤導點擊,甚至是在用戶完全無感知的情況下被控制訪問等產生的不由用戶主觀發出的行為給數據帶來了巨大的噪聲,給模型訓練造成了很大影響。
希望基于給定的數據,建立一個模型來識別和標記作弊流量,去除數據的噪聲,從而更好的使用數據,使得廣告主的利益最大化。
AI Python 機器學習
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。