做一個快樂的程序員
827
2025-04-05
5????? 平衡的藝術
架構師是整個產品或者項目方向的把控者,必須要有全局的視野,不能只把精力放在某一個方面,這樣很容易忽略其他。從某種意義上講,架構工作有重要的一部分是平衡的藝術,或者說取舍,規劃與現狀的平衡,范圍與人員投入的平衡,緊迫程度與交付時間的平衡。
規劃太過超前,短期內就很難產品化,所以要盡可能的分步交付。所謂船小好調頭,前期交付發現的種種問題,對于后期技術有非常重要的參考價值,針對這些及時調整方向,才能穩步向前進。這就和開車是一個道理,車在行進過程中,司機總是在微調方向盤,不然車肯定會走偏。我認為小步快跑要比邁大步扯著dan要好一些。
那怎么取舍,我認為這個沒有一個特別明確或者說特別靠譜的標準,完全要靠架構師或者架構團隊的洞察力,絕對不是技術牛逼的點就搞。當前產品的TOP問題、客戶的潛在需求、業界的技術動態和發展方向、各種論文/專利,這些都可以成為取舍的參考點。
細心地讀者可能發現了,我上面的敘述把架構師和架構團隊分開了,架構師不就是架構團隊的成員么,為啥要特意分開呢。一些時候,真理往往掌握在少數人手中,這個的確是真理。所以,確信自己掌握真理的少數人一定要堅持!少數服從多數有時是致命的。當然我說的堅持真理,不能是盲目的,切忌“yiyin”!堅持真理并不代表“你以為你以為的就是你以為的”,原諒我皮了一下,哈哈。
我總結了我確定真理的一個大致準則:第一,在做或不做中掙扎的時候,不講要技術,不要講實現這個功能是困難還是容易,想象一下如果我是用戶,我能不能接受這個結果。第二、還是不要講技術,從邏輯上推斷,如果結論是正向的,那就堅持。下面我講個事情說明一下這兩個準則。
6????? “獨斷專行”
獨斷專行是個貶義詞,但有時候在所有人都迷茫,甚至反對你的時候,你要堅持。再強調一下,是要堅持真理。有時候,真的是孤獨的。。。
在服務器領域,如果一個PCI設備損壞,有很大的幾率引起整個服務器重啟。如果損壞或者故障,PCI鏈路可能會給系統發個fatal信號,CPU收到這個信號以后會重置服務器,也就是直接冷重啟。我之前交流過的幾乎所有硬件專家都表示,設備損壞,服務器下電或者重啟這很正常,這個應該算是硬件領域的一個標準處理流程了。但是,顯然我要說的是接受不了。
以GPU服務器為例,現在GPU服務器的密度都很高,一臺服務器上8個GPU甚至16個GPU已經成了標配。按照上面所說,如果一個GPU故障,整個服務器都要重啟。如果8個GPU上分別跑了8個渲染任務,即使是一個GPU壞了,最起碼其他7個渲染任務還是正常的。如果重啟服務器,那這8個渲染任務都會中斷。顯然保持其他7個業務能夠正常運行是非常有價值的。所以我認為無論從用戶,還是從邏輯上看,傳統的這種對硬件故障的處理非常不合理,必須改變。于是我定了一個目標:硬件故障盡可能不重啟物理服務器。
這個功能當然現在華為云的異構計算云服務器已經有了,并且其中的技術原理也用在另一個重點技術項目中。但是溝通的過程是痛苦的,我不是搞硬件的,但我要說服各種硬件專家,各種溝通、評審不下10次。。讓我欣慰的是,這個特性成為當時的可靠性重點工作。硬件、OS、調度等各領域的兄弟姐妹們一起把這個問題搞定了。
渲染 GPU加速云服務器
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。
版權聲明:本文內容由網絡用戶投稿,版權歸原作者所有,本站不擁有其著作權,亦不承擔相應法律責任。如果您發現本站中有涉嫌抄襲或描述失實的內容,請聯系我們jiasou666@gmail.com 處理,核實后本網站將在24小時內刪除侵權內容。