大數據“復活”記
880
2025-04-02
數據準備
數據準備是非常重要的一個環節
數據準備在現實準備中,面臨著各種問題(數據采集難,數據質量差,數據冗余性大,標簽少,數據分析難,人工采集成本大等)數據準備不僅重要,且花費工作量非常大,往往在項目開發中,數據相關的工作量占據80%,算法模型準備占據20%
ModelArts在數據管理方面提供了一系列智能化數據服務,大大降低開發成本,提高開發效率
1,數據采集(數據采集是開發人工智能應用時面臨的首要問題)
數據采集涉及,圖像,視頻,音頻,結構化表格數據及環境信息等,對于實際應用和模型而言,數據越大越豐富,算法所達到的效果就越好(沒有好的數據集,再好的算法,也達不到預期的效果),對深度學習而言,數據量越大,模型表現越好。
數據采集的方法可分為幾種? 1,終端設備采集 (攝像頭,無人機,移動設備等)2,網絡數據采集(合法合規的情況下,自動捉取數據) 3,基于搜索的數據采集(從已有的數據庫中搜索出類似的圖像)
2,對于大企業大規模數據的體現 1,數據來源具有分散性 2,數據儲存具有多樣性3,數據具有多模態屬性 4,數據采集具有較強的業務相關性
數據接入 (批量接入,實時流接入)對于已經采集好的數據,要進行大規模的進行分析,建模,則需要將數據接入應用開發平臺上。
批量接入,華為CMD,云數據遷移(一鍵式將數據在不同的存儲之間做平滑遷移)
實時流接入,華為 DIS,數據接入服務(一鍵式將數據遷移到云上)DLI,數據湖探索(對接不同數據) DWS 數據倉庫服務 DDS文檔數據庫服務
OBS對象儲存服務(穩定、安全、高效、易用的云存儲服務,具備標準Restful API接口,可存儲任意數量和形式的非結構化數據)
OBS在ModelArts實戰開發環節中經常使用
OBS資源是服務中存在的對象。在OBS中,資源包括桶和對象,可以在創建自定義策略時,通過指定資源路徑來選擇特定資源
AI開發平臺ModelArts 對象存儲服務 OBS
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。