大數據“復活”記
798
2025-04-01
導讀:
我們已經開始習慣在線搜索附近的美食、通過位置共享找到周邊的好友、打開導航獲取通往目的地的最優路線、或在地圖上瀏覽衛星影像、俯瞰城市全貌等。
所有這些服務都與我們今天的主題-地理數據相關。
本文將通過以下幾點來系統概述地理大數據,揭秘時空的奧秘:
1、什么是地理數據
2、地理大數據的來源
3、地理大數據的實踐
4、怎么做地理大數據分析
5、華為云數據湖探索服務(DLI)的地理大數據分析
更多優質內容請關注微信公眾號“智能數據湖”
責編 | 云湖湖
地理數據是直接或間接關聯著地球上某個空間位置的數據,表示著地理位置,分布特點的自然或社會現象。地理數據最常見的表示模型有兩種:柵格數據模型和矢量數據模型。
柵格數據就是將空間分割成有規律的網格,每一個網格稱為一個單元,并在各單元上賦予相應的屬性值來表示實體的一種數據形式。每一個單元(像素)的位置由它的行列號定義,所表示的實體位置隱含在柵格行列位置中。
例如一張遙感影像就是一種柵格數據的表示,每一個像素就是一個單元,像素的灰度值代表該單元區域地物對特定電磁波的光譜反射強度,不同地物(如植被、水、冰川等)對特定電磁波的反射強度不一樣,因此遙感影像的灰度值是對地表特定區域地物特征的真實反映。
矢量數據是通過記錄空間對象的坐標及空間關系表達空間對象的幾何位置,利用歐幾里得幾何學中的點、線、面及其組合體來表示地理實體空間分布的一種數據組織方式,這種數據表達方式能最好地逼近地理實體的空間分布特征。
例如店鋪可以表示為點,河流、公路可以表示為一條線,園區、湖泊表示為多邊形或者帶孔洞的多邊形,在三維空間中可以將山丘表達為體。
通常,一個點由x, y坐標構成,線由一系列的點串組成,面由首尾相連的點串構成。除了位置信息外,矢量數據通常還包括非空間屬性,描述地理實體的其他信息,如名稱、數量、顏色、面積等。在主流的空間數據庫中,矢量數據按照不同的實體類型組織成獨立的圖層,如杭州市的道路可以組織成路網線狀圖層,城市的地鐵站可以組織成一個點狀圖層。
圖1 反映全球二氧化碳濃度的遙感影像
圖2 衛星云圖遙感影像
圖3 浙江省杭州市路網線狀矢量數據
空天地立體觀測與移動互聯網技術的蓬勃發展使得地理數據的獲取周期越來越短,精度越來越高,手段越來越豐富。著名地理信息學家Goodchild曾說,世界上80%的信息與地理位置有關。地理大數據的來源主要包括兩個方面:
空天地立體觀測技術的飛速發展解放了空間數據生產力,促進了國土、測繪、林業、交通、海洋、水利、地理國情等傳統領域原始數據資料的積累。在國土領域,從2007年第二次土地大調查開始,平均每年生產出1.5億個地塊面狀對象;全國林地“一張圖”區劃了6,800多萬個林地落界圖斑,3億多組調查數據;全國第一次地理國情普查形成地理要素總量超過323.5GB,其中道路、水體、地理單元等矢量要素約2,500萬個,地表覆蓋多邊形超過2.6億個;中國氣象局所保存的地理影像資料在4~5PB左右,每年大概增加數百TB,包含地面觀測、衛星、雷達和數據預報產品等幾大類觀測數據以及地圖和地理位置數據;在遙感領域,我國已經發射了一系列的資源環境衛星,其中僅ZY-3衛星一天就可以獲取10TB的影像數據。
移動互聯網是以無線網絡為通信手段,利用智能移動終端獲取信息和服務的業務,據統計數據顯示,過去的2018年,中國移動互聯網用戶規模達到8.9億,空間定位與移動互聯網技術的結合將現實世界與數字空間世界緊密地連接在了一起。移動互聯網全球每天都在產生海量的空間數據。根據2018年eMarketer統計,中國有5.251億人使用移動支付,占總人口的45.2%;在1分鐘內,Facebook會產生35萬條推文,Google搜索需要處理200萬次查詢請求;百度地圖每天要處理300億次請求。這些數據大部分是全世界網民在移動終端產生的,均帶有位置標簽和能夠反映人類基本行為的寶貴信息。人們越來越習慣通過手機叫車、訂餐、交通導航、共享單車等。2015年紐約市黃包車載客記錄高達3億多條,其中包含大量旅客的上下車位置、距離、時間信息;在武漢,有超過11,000輛出租車安裝了GPS導航設備,出租車在間隔20-60秒內持續不斷地收集車輛的位置、速度與方向信息。在OpenStreetMap上有超過600,000名注冊的數據貢獻者,他們通過定位等形式在全球范圍內形成了幾十億的興趣點、旅游軌跡等。早在2017年3月底,摩拜共享單車累計騎行就突破5億人次。
圖4 27億全球興趣點頻率圖(數據來自OpenStreetMap)
目前,地理大數據已經廣泛應用在了各行各業,如出行服務、物聯網、傳統3S行業應用等。
出行服務涉及到運力的調度、拼車、供需預測、熱力圖等業務。以供需預測為例,基于對歷史軌跡數據的分析,并結合實時訂單數據,預測當前乘車密集區域的時空分布,提高接單概率并減少司機空駛時間,乘客等待時間等。
圖5 基于2015年出租車軌跡點數據計算紐約市工作日內各時間段出租車上車熱點分布變化,該數據可用于指導出租車每個時段的運力調度與供需預測
物聯網行業產生的地理數據兼具時序和空間特征。以車聯網為例,海量的車輛終端在不斷地產生軌跡數據,軌跡數據包含了時間和空間位置。基于這些地理數據實時監測車輛的行駛軌跡、是否偏航、是否進入某個限制區域等。除了實時監控外,還可以進行實時時空查詢,如查詢某段時間的軌跡,某段時間進入該區域的車輛等。結合大數據分析平臺還可以進行穿越分析、區域分布熱力圖、交通熱力圖等。
在環保、氣象、水利、航空監測等領域,需要通過各種傳感器獲取天、空、地、海不同地理現象、事件、要素的全生命周期多尺度監測指標。例如地理國情常態化檢測中需要統計統計耕地、林地、園地等各類地表覆蓋要素的面積、周長以獲取地類變化情況,氣象部門需要高時間分辨率的氣象影像資料預測臺風軌跡,農業部門基于人工智能方法利用高精度遙感影像對農作物地塊進行自動化精準提取可快速獲取各類地塊的種植類型產品,進而提供作物種植規劃決策依據;環保部門通過高分辨率衛星影像進行排污檢測、水質檢測、焚燒秸稈檢測等。
圖6 環保部門通過高分辨率衛星影像進行排污檢測
地理數據與傳統的一維結構化數據不同的是地理數據包含空間位置屬性,數據之間的關聯關系體現在空間位置上的關聯。空間關系通常包括相等(Equals)、脫離(Disjoint)、接觸(Touches)、重疊(Overlaps)等,針對地理對象可以進行緩沖區分析、空間裁切、空間合并、距離分析、面積計算等。地理大數據分析可以認為是各種空間操作的組合。例如統計各行政區耕地面積是將行政區面狀圖層與耕地面狀圖層進行空間裁切,然后將裁切的多邊形進行面積計算匯總。相比一維數據,地理數據的空間操作是對復雜的幾何對象做操作,是非常耗時的計算過程。例如在沒有空間索引的情況下對兩個大面狀圖層做疊加分析,需要對圖層的面狀對象做兩兩幾何相交判斷,其計算時長是無法容忍的。地理大數據具有數據體量大、計算復雜度高的特點,最直接的解決方案是利用大數據分析平臺(如Spark)進行并行空間計算。并行空間計算需要解決海量空間數據的存儲組織、并行任務劃分等問題。
在大數據領域,為了加快數據計算、檢索速度,數據通常是分區組織的,即將大規模的數據集按照分區鍵分成許多小的子集,分區規則通常有范圍分區和哈希分區等。當計算僅涉及到部分特定分區的數據時,只需加載特定分區進行計算,避免了全局數據掃描。地理數據的分區相對復雜,其目標是將空間上臨近的對象劃分至相同的分區(如以格網為單位劃分地理對象)。這需要將二維或三維的空間坐標進行降維編碼,并保證空間鄰近的對象的編碼也是臨近或相同的。最常見的降維編碼有Z曲線編碼、Hilbert編碼和GeoHash編碼等。
基于空間降維編碼分區后,相同分區(或格網)內的地理對象擁有相同的編碼,每個分區的地理對象可基于大數據執行引擎(如Spark)進行獨立的空間分析。
圖7 基于Z曲線的空間降維編碼,行列號相近的格網的Z編碼值也是臨近的(圖片引自網絡)
圖8 Geohash編碼,空間上臨近的地理對象擁有相同的Geohash前綴,公共前綴的長度越長,這兩個地理對象距離越近,編碼越長表示的地理位置越精細。Geohash 編碼就常常被用來作為地理對象唯一標識符用于地理大數據檢索
圖9 (a)未經空間分區地理數據并行計算,每個任務計算的地理對象分布在全局;(b)經過格網分區后的地理數據并行計算,每個任務計算的地理對象僅分布在所屬格網內
數據湖探索(Data Lake Insight,簡稱DLI)是華為云上基于Apache Spark生態,完全托管的大數據處理分析服務,同時具備標準SQL與批處理的并發執行能力。DLI能夠滿足矢量、柵格、時空流地理大數據的快速查詢分析與并行處理,為各行各業的各類地理大數據分析計算場景提供高效的支撐。其在地理大數據處理方面滿足如下技術特性:
DLI支持多種數據格式( CSV、JSON、Parquet、ORC、CarbonData等)數據讀取,數據無需搬遷,即可實現對云上多個數據源進行聯邦分析,用戶只需將地理對象以WKT或GeoJSON表示成上述格式中的字段即可完成地理對象的讀取、轉換分析。
DLI天然支持基于CloudTable(華為云基于Apache HBase提供的全托管NoSQL服務,集成時序、時空數據存儲特性)作為地理數據存儲源,地理數據(如點、線、面等地理對象)入庫即可基于Z曲線對地理對象進行Z2編碼(x,y),Z3編碼(x,y,時間)進行分區組織,優化地理數據存儲組織模型,方便快速進行時空數據并發檢索、計算。
DLI支持豐富的地理空間查詢函數,主要包括地理構造函數、訪問函數、轉換函數、分析函數、關系函數和處理函數等,為各類空間分析提供有力支撐。地理構造函數可以實現從WKT、WKB、GeoHash編碼等輸入中構造出地理對象;地理訪問函數用于獲取地理對象的內部結構,如邊界、維度、外包矩形框等;轉換函數將幾何對象轉換成具體的點、線、面等;地理關系函數包括空間包含、空間臨近、空間覆蓋、空間穿越等幾何關系判斷。
DLI始終保持與開源生態的主流時空大數據處理套件(如Geomesa、Geotrellis)保持兼容,方便用戶的地理計算模型線上線下搬遷,無需代碼修改,支持基于上述組件的地理數據模型構建,如大規模影像數據的ETL、Map Algebra、直方圖計算、時空序列分析等。
參考鏈接:
有關空間降維編碼的原理介紹請參考:https://halfrost.com/go_spatial_search
具體有關DLI支持的空間查詢函數請參考:https://support.huaweicloud.com/devg-dli/dli_09_0050.html
喜歡這篇文章嗎?請關注本博主唄~
大數據 DLI 城市智能運營中心
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。