百萬(wàn)級(jí)訪問(wèn)網(wǎng)站前期的技術(shù)準(zhǔn)備小結(jié)
作為一個(gè)技術(shù)從業(yè)者十年,逛了十年發(fā)現(xiàn)有些知識(shí)東一榔頭西一棒槌的得滿世界 看個(gè)遍才整理出個(gè)頭緒,那咱就系統(tǒng)點(diǎn)的從頭一步一步的說(shuō),一個(gè)從日幾千訪問(wèn)的小小網(wǎng)站,到日訪問(wèn)一兩百萬(wàn)的小網(wǎng)站,怎么才能讓它平滑的度過(guò)這個(gè)階段,別在 技術(shù)上出現(xiàn)先天不足,寫給一些技術(shù)人員,也寫給不懂技術(shù)的創(chuàng)業(yè)者。
對(duì)互聯(lián)網(wǎng)有了解的人都有自己的想法,有人就把想法付諸實(shí)現(xiàn),做個(gè)網(wǎng)站然后開(kāi)始運(yùn)營(yíng)。其實(shí)從純網(wǎng)站技術(shù)上來(lái)說(shuō),因?yàn)殚_(kāi)源模式的發(fā)展,現(xiàn)在建一個(gè)小網(wǎng)站 已經(jīng)很簡(jiǎn)單也很便宜。當(dāng)訪問(wèn)量到達(dá)一定數(shù)量級(jí)的時(shí)候成本就開(kāi)始飆升了,問(wèn)題也開(kāi)始顯現(xiàn)了。因?yàn)閹挼脑黾?、硬件的擴(kuò)展、人員的擴(kuò)張所帶來(lái)的成本提高是顯而 易見(jiàn)的,而還有相當(dāng)大的一部分成本是因?yàn)榇a重構(gòu)、架構(gòu)重構(gòu),甚至底層開(kāi)發(fā)語(yǔ)言更換引起的,最慘的就是數(shù)據(jù)丟失,辛辛苦苦好幾年,一夜回到創(chuàng)業(yè)前。
減少成本就是增加利潤(rùn)。很多事情,我們?cè)谝婚_(kāi)始就可以避免,先打好基礎(chǔ),往后可以省很多精力,少操很多心。
假設(shè)你是一個(gè)參與創(chuàng)業(yè)的技術(shù)人員,當(dāng)前一窮二白,什么都要自己做,自己出錢,初期幾十萬(wàn)的資金,做一個(gè)應(yīng)用不是特別復(fù)雜的網(wǎng)站,那么就要注意以下幾點(diǎn):
一、開(kāi)發(fā)語(yǔ)言
一般來(lái)說(shuō),技術(shù)人員(程序員)創(chuàng)業(yè)都是根據(jù)自己技術(shù)背景選擇自己最熟悉的語(yǔ)言,不過(guò)考慮到不可能永遠(yuǎn)是您一個(gè)人寫程序,這點(diǎn)還得仔細(xì)想想。無(wú)論用什么語(yǔ)言,最終代碼質(zhì)量是看管理,所以我們還是從純語(yǔ)言層面來(lái)說(shuō)實(shí)際一點(diǎn)?,F(xiàn)在流行的java、php、.net、python、ruby都 有自己的優(yōu)劣,python和ruby,現(xiàn)在人員還是相對(duì)難招一些,性能優(yōu)化也會(huì)費(fèi)些力氣,.net平臺(tái)買不起windows server。java、php用的還是最多。對(duì)于初期,應(yīng)用幾乎都是靠前端支撐的網(wǎng)站來(lái)說(shuō),php的優(yōu)勢(shì)稍大一些,入門簡(jiǎn)單、設(shè)計(jì)模式簡(jiǎn)單、寫起來(lái)快、 性能足夠等,不過(guò)不注重設(shè)計(jì)模式也是它的劣勢(shì),容易變得松散,隱藏bug稍多、難以維護(hù)。java的優(yōu)勢(shì)在于整套管理流程已經(jīng)有很多成熟工具來(lái)輔助,強(qiáng)類 型也能避免一些弱智BUG,大多數(shù)JAVA程序員比較注重設(shè)計(jì)模式,別管實(shí)不實(shí)際,代碼格式看起來(lái)還是不錯(cuò)的。這也是個(gè)劣勢(shì),初學(xué)者可能太注重模式而很難 解決實(shí)際需求。
前端不只是html、css這類。整個(gè)負(fù)責(zé)跟用戶交互的部分都是前端,包括處理程序。這類程序還是建議用php,主要原因就是開(kāi)發(fā)迅速、從業(yè)人員廣泛。至于后端例如行為分析、銀行接口、異步消息處理等,隨便用什么程序,那個(gè)只能是根據(jù)不同業(yè)務(wù)需求來(lái)選擇不同語(yǔ)言了。
二、代碼版本管理
如果開(kāi)發(fā)人員之間的網(wǎng)絡(luò)速度差不多,就SVN;比較分散例如跨國(guó),就hg。大多數(shù)人還是svn的.
假設(shè)選了svn,那么有幾點(diǎn)考慮。一是采用什么樹結(jié)構(gòu)。初期可能只有一條主干,往后就需要建立分支,例如一條開(kāi)發(fā)分支,一條上線分支,再往后,可能 要每個(gè)小組一個(gè)分支。建議一開(kāi)始人少時(shí)選擇兩條分支,開(kāi)發(fā)和線上,每個(gè)功能本地測(cè)試無(wú)誤后提交到開(kāi)發(fā)分支,最后統(tǒng)一測(cè)試,可以上線時(shí)合并到上線分支。如果 喜歡把svn當(dāng)做移動(dòng)硬盤用,寫一點(diǎn)就commit一次也無(wú)所謂,就是合并的時(shí)候頭大一些,這些人可以自己建個(gè)分支甚至建立個(gè)本地代碼倉(cāng)庫(kù),隨便往自己的 分支提交,測(cè)試完畢后再提交到開(kāi)發(fā)分支上。
部署,可以手工部署也可以自動(dòng)部署。手工部署相對(duì)簡(jiǎn)單,一般是直接在服務(wù)器上svn update,或者找個(gè)新目錄svn checkout,再把web root給ln -s過(guò)去。應(yīng)用越復(fù)雜,部署越復(fù)雜,沒(méi)有什么統(tǒng)一標(biāo)準(zhǔn),只要?jiǎng)e再用ftp上傳那種形式就好,一是上傳時(shí)文件引用不一致錯(cuò)誤率增加,二是很容易出現(xiàn)開(kāi)發(fā)人員 的版本跟線上版本不一致,導(dǎo)致本來(lái)想改個(gè)錯(cuò)字結(jié)果變成回滾的杯具。如果有多臺(tái)服務(wù)器還是建議自動(dòng)部署,更換代碼的機(jī)器從當(dāng)前服務(wù)池中臨時(shí)撤出,更新完畢后 再重新加入。
不管項(xiàng)目多小,養(yǎng)成使用版本管理的好習(xí)慣,最起碼還可以當(dāng)做你的備份,我的 http://zhiyi.us 雖然就是一個(gè)wordpress,可還是svn了,只改動(dòng)一兩句css那也是勞動(dòng)成果。
三、服務(wù)器硬件
別羨慕大客戶和有錢人,看看機(jī)房散戶區(qū),一臺(tái)服務(wù)器孤獨(dú)的支撐的網(wǎng)站數(shù)不清。如果資金稍微充足,建議至少三臺(tái)的標(biāo)準(zhǔn)配置,分別用作web處理、數(shù)據(jù) 庫(kù)、備份。web服務(wù)器至少要8G內(nèi)存,雙sata raid1,如果經(jīng)濟(jì)稍微寬松,或靜態(tài)文件或圖片多,則15k sas raid1+0。數(shù)據(jù)庫(kù)至少16G內(nèi)存,15k sas raid 1+0。備份服務(wù)器最好跟數(shù)據(jù)庫(kù)服務(wù)器同等配置。硬件可以自己買品牌的底板,也就是機(jī)箱配主板和硬盤盒,CPU內(nèi)存硬盤都自己配,也可以上整套品牌,也可 以兼容機(jī)。三臺(tái)機(jī)器,市場(chǎng)行情6、7萬(wàn)也就配齊了。
web服務(wù)器可以既跑程序又當(dāng)內(nèi)存緩存,數(shù)據(jù)庫(kù)服務(wù)器則只跑主數(shù)據(jù)庫(kù)(假如是MySQL的話),備份服務(wù)器干的活就相對(duì)多一些,web配置、緩存配置、數(shù)據(jù)庫(kù)配置都要跟前兩臺(tái)一致,這樣WEB和數(shù)據(jù)庫(kù)任意一臺(tái)出問(wèn)題,把備份服務(wù)器換個(gè)ip就切換上去了。備份策略,可以drbd,可以rsync,或者其他的很多很多的開(kāi)源備份方案可選擇。rsync最簡(jiǎn)單,放cron里自己跑就行。備份和切換,建議多做測(cè)試,選最安全最適合業(yè)務(wù)的,并且盡可能異地備份。
四、機(jī)房
三種機(jī)房盡量不要選:聯(lián)通訪問(wèn)特別慢的電信機(jī)房、電信訪問(wèn)特別慢的聯(lián)通機(jī)房、電信聯(lián)通訪問(wèn)特別慢的移動(dòng)或鐵通機(jī)房。那網(wǎng)通機(jī)房呢?親,網(wǎng)通聯(lián)通N久 以前合并改叫聯(lián)通了。多多尋找,實(shí)地參觀,多多測(cè)試,多方打探,北京、上海、廣州等各個(gè)主節(jié)點(diǎn)城市,還是有很多優(yōu)質(zhì)機(jī)房的,找個(gè)網(wǎng)絡(luò)質(zhì)量好,管理嚴(yán)格的機(jī) 房,特別是管理要嚴(yán)格,千萬(wàn)別網(wǎng)站無(wú)法訪問(wèn)了,打個(gè)電話過(guò)去才知道別人維護(hù)時(shí)把你網(wǎng)線碰掉了,這比DOS都頭疼。自己扯了幾根光纖就稱為機(jī)房的,看您抗風(fēng) 險(xiǎn)程度和心理素質(zhì)了。機(jī)房可以說(shuō)是非常重要,直接關(guān)系到網(wǎng)站訪問(wèn)速度,網(wǎng)站訪問(wèn)速度直接關(guān)系到用戶體驗(yàn),我可以翻墻看風(fēng)景,但買個(gè)網(wǎng)游vpn才能打開(kāi)你這 個(gè)還不怎么知名的網(wǎng)站就有難度了。或許您網(wǎng)站的ajax很出色,可是document怎么也不ready,一些代碼永遠(yuǎn)絕緣于用戶。
五、架構(gòu)
初期架構(gòu)一般比較簡(jiǎn)單,web負(fù)載均衡+數(shù)據(jù)庫(kù)主從+緩存+分布式存儲(chǔ)+隊(duì)列。大方向上也確實(shí)就這幾樣?xùn)|西,細(xì)節(jié)上也無(wú)數(shù)文章都重復(fù)過(guò)了,按照將來(lái) 會(huì)有N多WEB,N多主從關(guān)系,N多緩存,N多xxx設(shè)計(jì)就行,基本方案都是現(xiàn)成的,只是您比其他人厲害之處就在于設(shè)計(jì)上考慮到緩存失效時(shí)的雪崩效應(yīng)、主 從同步的數(shù)據(jù)一致性和時(shí)間差、隊(duì)列的穩(wěn)定性和失敗后的重試策略、文件存儲(chǔ)的效率和備份方式等等意外情況。緩存總有一天會(huì)失效,數(shù)據(jù)庫(kù)復(fù)制總有一天會(huì)斷掉, 隊(duì)列總有一天會(huì)寫不進(jìn)去,電源總有一天會(huì)燒壞。根據(jù)墨菲定律,如果不考慮這些,網(wǎng)站早晚會(huì)成為茶幾。
六、服務(wù)器軟件
Linux、nginx、php、mysql,幾乎是標(biāo)配,我們除了看名字,還得選版本。Linux發(fā)行版眾多,只要沒(méi)特殊要求,就選個(gè)用的人最多的,社區(qū)最活躍的,配置最方便的,軟件包最全最新的,例如debian、ubuntu。 至于RHEL之類的嘛,你用只能在RHEL上才能運(yùn)行的軟件么?剩下的nginx、php、mysql、activemq、其他的等等,除非你改過(guò)這些軟 件或你的程序真的不兼容新版本,否則盡量版本越新越好,版本新,意味著新特性增多、BUG減少、性能增加??傆行┑缆?tīng)途說(shuō)的人跟你說(shuō)老的版本穩(wěn)定。所謂穩(wěn) 定,是相對(duì)于特殊業(yè)務(wù)來(lái)說(shuō)的,而就一個(gè)php寫的網(wǎng)站,大多數(shù)人都沒(méi)改過(guò)任何服務(wù)器軟件源代碼,絕大多數(shù)情況是能平穩(wěn)的升級(jí)到新版本的。類似于jdk5到 jdk6,python2到python3這類變動(dòng)比較大的升級(jí)還是比較少見(jiàn)的。看看ChangeLog,看看升級(jí)說(shuō)明,結(jié)合自己情況評(píng)估一下,越早升級(jí) 越好,別人家都用php6寫程序了這邊還php4的逛游呢。優(yōu)秀的開(kāi)源程序升級(jí)還是很負(fù)責(zé)任的,看好文檔,別怕。
以上這六點(diǎn)準(zhǔn)備完畢,現(xiàn)在我們有了運(yùn)行環(huán)境,有了基本架構(gòu)骨架,有了備份和切換方案,應(yīng)該開(kāi)始著手設(shè)計(jì)開(kāi)發(fā)方面的事情了。開(kāi)發(fā)方面的事情無(wú)數(shù),下一篇會(huì)先說(shuō)一些重點(diǎn)。
原文地址
七、數(shù)據(jù)庫(kù)
幾乎所有操作最后都要落到數(shù)據(jù)庫(kù)身上,它又最難擴(kuò)展(存儲(chǔ)也挺難)。對(duì)于mysql,什么樣的表用myisam,什么樣的表用innodb,在開(kāi)發(fā) 之前要確定。復(fù)制策略、分片策略,也要確定。表引擎方面,一般,更新不多、不需要事務(wù)的表可以用myisam,需要行鎖定、事務(wù)支持的,用innodb。 myisam的鎖表不一定是性能低下的根源,innodb也不一定全是行鎖,具體細(xì)節(jié)要多看相關(guān)的文檔,熟悉了引擎特性才能用的更好?,F(xiàn)代WEB應(yīng)用越來(lái) 越復(fù)雜了,我們?cè)O(shè)計(jì)表結(jié)構(gòu)時(shí)常常設(shè)計(jì)很多冗余,雖然不符合傳統(tǒng)范式,但為了速度考慮還是值得的,要求高的情況下甚至要杜絕聯(lián)合查詢。編程時(shí)得多注意數(shù)據(jù)一 致性。
復(fù)制策略方面,多主多從結(jié)構(gòu)也最好一開(kāi)始就設(shè)計(jì)好,代碼直接按照多主多從來(lái)編寫,用一些小技巧來(lái)避免復(fù)制延時(shí)問(wèn)題,并且還要解決多數(shù)據(jù)庫(kù)數(shù)據(jù)是否一致,可以自己寫或者找現(xiàn)成的運(yùn)維工具。
分片策略??倳?huì)有那么幾個(gè)表數(shù)據(jù)量超大,這時(shí)分片必不可免。分片有很多策略,從簡(jiǎn)單的分區(qū)到根據(jù)熱度自動(dòng)調(diào)整,依照具體業(yè)務(wù)選擇一個(gè)適合自己的。避免自增ID作為主鍵,不利于分片。
用存儲(chǔ)過(guò)程是比較難擴(kuò)展的,這種情形多發(fā)生于傳統(tǒng)C/S,特別是OA系統(tǒng)轉(zhuǎn)換過(guò)來(lái)的開(kāi)發(fā)人員。低成本網(wǎng)站不是一兩臺(tái)小型機(jī)跑一個(gè)數(shù)據(jù)庫(kù)處理所有業(yè)務(wù)的模式,是機(jī)海作戰(zhàn)。方便水平擴(kuò)展比那點(diǎn)預(yù)分析時(shí)間和網(wǎng)絡(luò)傳輸流量要重要的多的多。
NoSQL。這只是一個(gè)概念。實(shí)際應(yīng)用中,網(wǎng)站有著越來(lái)越多的密集寫操作、上億的簡(jiǎn)單關(guān)系數(shù)據(jù)讀取、熱備等,這都不是傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)所擅長(zhǎng)的,于是 就產(chǎn)生了很多非關(guān)系型數(shù)據(jù)庫(kù),比如Redis/TC&TT/MongoDB/Memcachedb等,在測(cè)試中,這些幾乎都達(dá)到了每秒至少一萬(wàn)次 的寫操作,內(nèi)存型的甚至5萬(wàn)以上。例如MongoDB,幾句配置就可以組建一個(gè)復(fù)制+自動(dòng)分片+failover的環(huán)境,文檔化的存儲(chǔ)也簡(jiǎn)化了傳統(tǒng)設(shè)計(jì)庫(kù) 結(jié)構(gòu)再開(kāi)發(fā)的模式。很多業(yè)務(wù)是可以用這類數(shù)據(jù)庫(kù)來(lái)替代mysql的。
八、緩存。
數(shù)據(jù)庫(kù)很脆弱,一定要有緩存在前面擋著,其實(shí)我們優(yōu)化速度,幾乎就是優(yōu)化緩存,能用緩存的地方,就不要再跑到后端數(shù)據(jù)庫(kù)那折騰。緩存有持久化緩存、 內(nèi)存緩存,生成靜態(tài)頁(yè)面是最容易理解的持久化緩存了,還有很多比如varnish的分塊緩存、前面提到的memcachedb等,內(nèi)存緩 存,memcached首當(dāng)其沖。緩存更新可用被動(dòng)更新和主動(dòng)更新。被動(dòng)更新的好處是設(shè)計(jì)簡(jiǎn)單,緩存空了就自動(dòng)去數(shù)據(jù)庫(kù)取數(shù)據(jù)再把緩存填上,但容易引發(fā)雪 崩效應(yīng),一旦緩存大面積失效,數(shù)據(jù)庫(kù)的壓力直線上升很可能掛掉。主動(dòng)緩存可避免這點(diǎn)但是可能引發(fā)程序取不到數(shù)據(jù)的問(wèn)題。這兩者之間如何配合,程序設(shè)計(jì)要多 動(dòng)腦筋。
九、隊(duì)列。
用戶一個(gè)操作很可能引發(fā)一系列資源和功能的調(diào)動(dòng),這些調(diào)動(dòng)如果同時(shí)發(fā)生,壓力無(wú)法控制,用戶體驗(yàn)也不好,可以把這樣一些操作放入隊(duì)列,由另幾個(gè)模塊 去異步執(zhí)行,例如發(fā)送郵件,發(fā)送手機(jī)短信。開(kāi)源隊(duì)列服務(wù)器很多,性能要求不高用數(shù)據(jù)庫(kù)當(dāng)做隊(duì)列也可以,只要保證程序讀寫隊(duì)列的接口不變,底層隊(duì)列服務(wù)可隨 時(shí)更換就可以,類似Zend Framework里的Zend_Queue類,java.util.Queue接口等。
十、文件存儲(chǔ)。
除了結(jié)構(gòu)化數(shù)據(jù),我們經(jīng)常要存放其他的數(shù)據(jù),像圖片之類的。這類數(shù)據(jù)數(shù)量繁多、訪問(wèn)量大。典型的就是圖片,從用戶頭像到用戶上傳的照片,還要生成不 同的縮略圖尺寸。存儲(chǔ)的分布幾乎跟數(shù)據(jù)庫(kù)擴(kuò)展一樣艱難。不使用專業(yè)存儲(chǔ)的情況下,基本都是靠自己的NAS。這就涉及到結(jié)構(gòu)。拿圖片存儲(chǔ)舉例,圖片是非常容 易產(chǎn)生熱點(diǎn)的,有些圖片上傳后就不再有人看,有些可能每天被訪問(wèn)數(shù)十萬(wàn)次,而且大量小文件的異步備份也很耗費(fèi)時(shí)間。
為了將來(lái)圖片走cdn做準(zhǔn)備,一開(kāi)始最好就將圖片的域名分開(kāi),且不用主域名。很多網(wǎng)站都將cookie設(shè)置到了.domain.ltd,如果圖片也在這個(gè)域名下,很可能因?yàn)閏ookie而造成緩存失效,并且占多余流量,還可能因?yàn)闉g覽器并發(fā)線程限制造成訪問(wèn)緩慢。
如果用普通的文件系統(tǒng)存儲(chǔ)圖片,有一個(gè)簡(jiǎn)單的方法。計(jì)算文件的hash值,比如md5,以結(jié)果第一位作為第一級(jí)目錄,這樣第一級(jí)有16個(gè)目錄。從0 到F,可以把這個(gè)字母作為域名,0.yourimg.com到f.yourimg.com(客戶端dns壓力會(huì)增大),還可以擴(kuò)展到最多16個(gè)NAS集群 上。第二級(jí)可用年月例如,201011,第三級(jí)用日,第四級(jí)可選,根據(jù)上傳量,比如am/pm,甚至小時(shí)。最終的目錄結(jié)構(gòu)可能會(huì)是 e/201008/25/am/e43ae391c839d82801920cf.jpg。rsync備份時(shí)可以用腳本只同步某年某日某時(shí)的文件,避免計(jì) 算大量文件帶來(lái)的開(kāi)銷。當(dāng)然最好是能用專門的分布式文件系統(tǒng)或更專業(yè)點(diǎn)的存儲(chǔ)解決方案。
下面,我們要談?wù)劥a了。
這一系列的最后一篇寫給普通編程人員,如果不感興趣可直接看本文最后幾段。開(kāi)始設(shè)計(jì)代碼結(jié)構(gòu)之前,先回顧一下之前準(zhǔn)備過(guò)的事情:我們有負(fù)載均衡的 WEB服務(wù)器,有主從DB服務(wù)器并可能分片,有緩存,有可擴(kuò)展的存儲(chǔ)。在組織代碼的各個(gè)方面,跟這些準(zhǔn)備息息相關(guān),我一二三的列出來(lái)分別說(shuō),并且每一條都以“前面講到”這個(gè)經(jīng)典句式開(kāi)頭,為了方便對(duì)照。
別著急看經(jīng)典句式,我思維跳躍了,插一段。實(shí)際開(kāi)發(fā)中,我們總會(huì)在性能和代碼優(yōu)雅性上作折中。對(duì)于當(dāng)今的計(jì)算機(jī)和語(yǔ)言解釋器,多幾層少幾層對(duì)象調(diào) 用、聲明變量為Map還是HashMap這種問(wèn)題是最后才需要考慮的問(wèn)題,永遠(yuǎn)要考慮系統(tǒng)最慢的部分,從最慢的部分解決。例如看看你用的ORM是不是做了 很多你用不到的事情,是不是有重復(fù)的數(shù)據(jù)調(diào)用。我們做的是web應(yīng)用開(kāi)發(fā),不是底層框架API,代碼易讀易懂是保證質(zhì)量很重要的一方面,你的程序是為了什 么而設(shè)計(jì),有不同的方法……算了,這個(gè)話題另起一篇文章來(lái)說(shuō),扯遠(yuǎn)了,想交流可關(guān)注我的微博 http://t.sina.com.cn/liuzhiyi,咱繼續(xù)……
前面講到,WEB 服務(wù)器是要做負(fù)載均衡的,圖片服務(wù)器是要分開(kāi)的。對(duì)于這點(diǎn),代碼在處理客戶端狀態(tài)時(shí),不要把狀態(tài)放到單機(jī)上,舉例,不要用文件session,嗯,常識(shí)。 如果有可能,最好在一開(kāi)始就做好用戶單點(diǎn)認(rèn)證的統(tǒng)一接口,包括跨域如何判斷狀態(tài)、靜態(tài)頁(yè)面如何判斷狀態(tài),需要登錄時(shí)的跳轉(zhuǎn)和返回參數(shù)定義,底層給好接口, 應(yīng)用層直接就用(可參考GAE的 user服務(wù))。登錄方面的設(shè)計(jì)要考慮移動(dòng)設(shè)備的特性,比如電腦可以用浮動(dòng)層窗口,但NOKIA自帶的瀏覽器或UCWEB就無(wú)法處理這種表現(xiàn)形式,程序一 定既能處理AJAX請(qǐng)求又能直接通過(guò)URL來(lái)處理請(qǐng)求。圖片服務(wù)器分開(kāi),資源文件最好也布局到圖片服務(wù)器,也就是WEB服務(wù)器只服務(wù)動(dòng)態(tài)程序。雖然開(kāi)發(fā)測(cè) 試時(shí)稍微復(fù)雜(因?yàn)樾枰^對(duì)URI才能訪問(wèn)),但將來(lái)頁(yè)面前端優(yōu)化上會(huì)輕松許多,并且你的WEB服務(wù)器IO優(yōu)化也輕松許多。程序引用資源文件時(shí),要有一個(gè) 統(tǒng)一的處理方法,在方法內(nèi)部可以自動(dòng)完成很多事情,例如將css/js根據(jù)組合,拼成一個(gè)文件,或者自動(dòng)在生成的URI后面加上QUERYSTRING, 如果將來(lái)前端用了緩存服務(wù),那生成QUERYSTRING是最簡(jiǎn)單的刷新服務(wù)端緩存和客戶端緩存的辦法。
前面講到, 數(shù)據(jù)庫(kù)會(huì)有復(fù)制,可能會(huì)多主多從,可能會(huì)分片。我們程序在處理數(shù)據(jù)的過(guò)程中,最好能抽象出來(lái)單獨(dú)放做一層。拿現(xiàn)在流行的MVC模式來(lái)說(shuō),就是在M層下方再 放一個(gè)數(shù)據(jù)層,這個(gè)數(shù)據(jù)層不是通常所說(shuō)的JDBC/PDO/ActiveRecord等,而是你自己的存取數(shù)據(jù)層,僅對(duì)外暴露方法,隱藏?cái)?shù)據(jù)存取細(xì)節(jié)。這 個(gè)數(shù)據(jù)層內(nèi)部不要怕寫的難看,但一定要提供所有的數(shù)據(jù)存儲(chǔ)功能,其他任何層次不要看到跟數(shù)據(jù)庫(kù)打交道的字眼。之所以這樣做,是因?yàn)樵趩侮P(guān)系數(shù)據(jù)庫(kù)的情況 下,可能會(huì)SELECT…JOIN…或直接INSERT…INTO…,可你可能會(huì)將一些表放到key-value數(shù)據(jù)庫(kù)里存儲(chǔ),或者分片,這么做之后原來(lái) 的語(yǔ)句和方式要全部改變,如果過(guò)于分散,則移植時(shí)會(huì)耗費(fèi)很大精力,或得到一個(gè)很大的Model。在數(shù)據(jù)層面的設(shè)計(jì)上,盡量避免JOIN查詢,我們可以多做 冗余,多做緩存,每種數(shù)據(jù)盡量只需要一次查詢,然后在你的程序里面進(jìn)行組合。對(duì)于比較復(fù)雜的數(shù)據(jù)組合,在實(shí)時(shí)性要求不高的情況下,可采用異步處理,用戶訪 問(wèn)時(shí)只取處理后的結(jié)果。在對(duì)于主鍵的處理上,避免使用自增ID,可以用一定規(guī)則生成的唯一值當(dāng)做主鍵,這種主鍵是最簡(jiǎn)單的分片分布策略。即使用自增ID, 也最好用一個(gè)自增ID發(fā)生器,否則從數(shù)據(jù)庫(kù)不小心被寫了一下,那主鍵很容易沖突。
前面講到,咱數(shù)據(jù)庫(kù)前面還有某些緩存擋著。別把 mysql的query cache當(dāng)緩存,應(yīng)用稍復(fù)雜的時(shí)候QUERY CACHE反而會(huì)成為累贅。緩存跟數(shù)據(jù)庫(kù)和業(yè)務(wù)結(jié)合的很緊密,正因?yàn)楦鷺I(yè)務(wù)關(guān)系緊密,所以這點(diǎn)沒(méi)有放之四海而皆準(zhǔn)的方法。但我們還是有一些規(guī)則可參照。規(guī) 則一:越接近前端,緩存的顆粒度越大。例如在WEB最前端緩存整個(gè)頁(yè)面,再往后一層緩存部分頁(yè)面區(qū)域,再往后緩存區(qū)域內(nèi)的單條記錄。因?yàn)樵娇拷蠖耍覀?的可操作性越靈活,并且變化最多的前端代碼也比較方便編寫。在實(shí)踐中,因?yàn)楫a(chǎn)品需求變化速度非???,迭代周期越來(lái)越短,有時(shí)很難將Controller和 Model分的那么清楚,Controller層面處理部分緩存必不可免,但要保證如果出現(xiàn)這種情況,Controller所操作的緩存一定不要影響其他 數(shù)據(jù)需求方,也就是要保證這個(gè)緩存數(shù)據(jù)只有這一個(gè)Controller在用。規(guī)則二:沒(méi)有緩存時(shí)程序不能出錯(cuò)。在不考慮緩存失效引發(fā)的雪崩效應(yīng)時(shí),你的程 序要有緩存跟沒(méi)緩存一個(gè)樣,不能像新浪微博一樣,緩存一失效,粉絲微博全空,整個(gè)應(yīng)用都亂套了。在緩存必不可少的情況下,給用戶出錯(cuò)信息都比給一個(gè)讓人誤 解的信息強(qiáng)。規(guī)則三,緩存更新要保證原子性或稱作線程安全,特別是采用被動(dòng)緩存的方式時(shí),很可能兩個(gè)用戶訪問(wèn)時(shí)導(dǎo)致同一個(gè)緩存被更新,通常情況這不是大問(wèn) 題,可緩存失效后重建時(shí)很可能是引發(fā)連鎖反應(yīng)的原因之一。規(guī)則四:緩存也是有成本的。不只是技術(shù)成本,還有人工時(shí)間成本。如果一個(gè)功能使用緩存和不使用, 在可預(yù)見(jiàn)的訪問(wèn)量情況下區(qū)別微小,但使用緩存會(huì)使復(fù)雜度增加,那就不用,我們可以加個(gè)TODO標(biāo)注,在下次迭代的時(shí)候加上緩存處理。
前面講到,文件存儲(chǔ)是獨(dú)立的,那么所有的文件操作就都是遠(yuǎn)程調(diào)用??梢栽谖募?wù)器上提供一個(gè)很簡(jiǎn)單的RESTful接口,也可以提供xmlrpc 或json serveice,WEB服務(wù)器端所生成和處理的文件,全部通過(guò)接口通知文件服務(wù)器去處理,WEB服務(wù)器本身不要提供任何文件存儲(chǔ)。你會(huì)發(fā)現(xiàn)很多大網(wǎng)站的 上傳圖片跟保存文章是分兩步完成的,就是基于這個(gè)原因。
以上幾條“前面講到”,其實(shí)無(wú)數(shù)人都講過(guò),我也只是結(jié)合前幾篇文章用自己的話重復(fù)了一遍,真正分析起來(lái)精髓很簡(jiǎn)單——除了良好的功能邏輯分層,我們 還要為數(shù)據(jù)庫(kù)存儲(chǔ)、緩存、隊(duì)列、文件服務(wù)等程序外層資源調(diào)用單獨(dú)設(shè)計(jì)接口,你可以把你的程序想象成是運(yùn)行在 Amazon EC2 上并用他的所有web service服務(wù),你的數(shù)據(jù)庫(kù)就是它的SimpleDB,你的隊(duì)列就是他的SQS,你的存儲(chǔ)就是他的S3,唯一不同是amazon的接口是遠(yuǎn)程調(diào)用,你的是內(nèi)部調(diào)用。
將支撐服務(wù)接口化,意味著將MySQL更換到PostgreSQL不需要更改業(yè)務(wù)處理程序,移植團(tuán)隊(duì)甚至不需要跟業(yè)務(wù)開(kāi)發(fā)團(tuán)隊(duì)過(guò)多溝通;意味著業(yè)務(wù)開(kāi)發(fā)團(tuán)隊(duì)是對(duì)接口編程而不是對(duì)數(shù)據(jù)庫(kù)編程;意味著不會(huì)因?yàn)槟硞€(gè)業(yè)務(wù)開(kāi)發(fā)人員的失誤而拖垮性能。
對(duì)程序掃盲不感興趣的直接看這里——
產(chǎn)品設(shè)計(jì)完了,程序框架搭完了,可能有矛盾在這個(gè)節(jié)骨眼兒產(chǎn)生了。不斷有產(chǎn)品設(shè)計(jì)抱怨說(shuō)他的創(chuàng)意沒(méi)實(shí)現(xiàn)到預(yù)期效果,有程序員抱怨說(shuō)產(chǎn)品設(shè)計(jì)不切實(shí) 際。這種抱怨多緣于產(chǎn)品人員不懂技術(shù),技術(shù)人員不理解產(chǎn)品。從廣義上來(lái)講,產(chǎn)品包含市場(chǎng)策略、營(yíng)銷手段、功能設(shè)計(jì),產(chǎn)品和技術(shù)在爭(zhēng)論時(shí)往往把焦點(diǎn)放在功能 上,而實(shí)際重點(diǎn)是,實(shí)現(xiàn)這個(gè)功能所消耗的成本跟能這個(gè)功能帶來(lái)的利益能否換算,能否取其輕重。若可以,爭(zhēng)議解決。若不能,則拋硬幣看運(yùn)氣。因?yàn)橐粋€(gè)功能的 加強(qiáng)而引發(fā)指標(biāo)井噴,或因項(xiàng)目拖延而導(dǎo)致貽誤戰(zhàn)機(jī)的例子比比皆是。激進(jìn)的決策者注重利益,保守的決策者注重?fù)p失,聰明的決策者會(huì)考慮這個(gè)問(wèn)題是否真的那么 嚴(yán)重。
關(guān)系到未來(lái)的事情誰(shuí)都說(shuō)不準(zhǔn),要不怎么說(shuō)創(chuàng)業(yè)一半靠運(yùn)氣呢。不過(guò)總有能說(shuō)的準(zhǔn)的事情,那就得靠數(shù)據(jù)說(shuō)話。
沒(méi)有100%也有99.9%的網(wǎng)站安裝了訪問(wèn)統(tǒng)計(jì)代碼,連我的 http://zhiyi.us 也不例外,新聞聯(lián)播也總說(shuō)科學(xué)決策科學(xué)發(fā)展的。有了統(tǒng)計(jì),能確定的事情就很多了。例如,可以根據(jù)來(lái)源-目標(biāo)轉(zhuǎn)化率來(lái)分析哪類渠道的人均獲取成本低,根據(jù)來(lái) 源-內(nèi)容訪問(wèn)猜測(cè)用戶跳出率原因,根據(jù)用戶點(diǎn)擊行為判斷鏈接位置是否合理等。將數(shù)據(jù)以不同方式組合起來(lái),找到內(nèi)在聯(lián)系,分析內(nèi)因外因,制定對(duì)應(yīng)策略,減少 拍腦門決策。靠數(shù)據(jù)支撐運(yùn)營(yíng)是個(gè)非常專業(yè)的事情,雖然不懂深?yuàn)W的數(shù)學(xué)模型不會(huì)復(fù)雜的公式計(jì)算,漸漸學(xué)會(huì)因?yàn)锳所以B,因?yàn)锳和B所以C還是相對(duì)簡(jiǎn)單的。
全系列完畢。老話,大半夜連抽煙帶碼字的挺傷身,轉(zhuǎn)載請(qǐng)注明出處
版權(quán)聲明:本站文章來(lái)源標(biāo)注為YINGSOO的內(nèi)容版權(quán)均為本站所有,歡迎引用、轉(zhuǎn)載,請(qǐng)保持原文完整并注明來(lái)源及原文鏈接。禁止復(fù)制或仿造本網(wǎng)站,禁止在非www.sddonglingsh.com所屬的服務(wù)器上建立鏡像,否則將依法追究法律責(zé)任。本站部分內(nèi)容來(lái)源于網(wǎng)友推薦、互聯(lián)網(wǎng)收集整理而來(lái),僅供學(xué)習(xí)參考,不代表本站立場(chǎng),如有內(nèi)容涉嫌侵權(quán),請(qǐng)聯(lián)系alex-e#qq.com處理。