亚洲最新永久观看在线,亚洲澳门在线高清无码,欧美suv日韩在线观看,国产一区二区精品久久

租用幫助

什么是生信分析服務器?如何配置?
2023-07-03 16:52:52
閱讀()
來源:互聯數據
摘要: ? ? 前兩天,復旦大學已向國外泄露了中國人類基因組計劃的部分數據,這些數據被認為是中國的國家機密。這一事件引起了人們對基因數據的保護與共享的關注。其實,中國的人類基因數據分析時間已經從1天提升到7分鐘。

什么是生信分析服務器?如何配置?前兩天,復旦大學已向國外泄露了中國人類基因組計劃的部分數據,這些數據被認為是中國的國家機密。這一事件引起了人們對基因數據的保護與共享的關注。其實,中國的人類基因數據分析時間已經從1天提升到7分鐘。隨著服務器的進步,以前不可能的事情,也越來越多的進入到平常人的生活當中。


經過這一次實踐,又看閑魚上那么多賣生信分析的服務,我想我也有了新的使命,可以提供/協助給對于會裝/會用rstudio的廣大醫學生/研究人員像自來水一樣的分析計算資源,并把這樣的經驗推廣并幫助到更多的朋友們。


海外服務器免費測試http://www.ukunilife.com/zt/2023-05-06/


一、什么是生信分析服務器?


最近碰上這樣的優質客戶,說要安裝r和rstudio分析10G的數據,并且要安裝百度網盤。問什么樣的設備可以做這樣的分析。進一步詢問,了解到其自身8G內存,3060顯卡戴爾G16電腦安裝后根本帶不動。網上搜索了一下rstudio的硬件配置,找到這樣一篇文章《單細胞轉錄組基礎分析一:分析環境搭建》,文章來源于生信會客廳 ,作者Kinesin。里邊有一段關于硬件要求的描述:


10X Genomics單細胞數據分析對電腦硬件配置要求比較高。上游分析軟件Cell Ranger最低配置要求8核CPU+64G內存,推薦配置為16核CPU+128G內存,這顯然不是個人電腦可以勝任的。下游分析使用R語言Seurat包時,10000個細胞的表達矩陣,8G內存的電腦就不能應付了。因此沒有服務器的同學不用考慮上游分析,僅做下游分析最低也要16G內存的電腦。


生信分析服務器配置

機器性能配置初步成型


發給客戶一聊,其立即表示認可,確實需要這么大的配置。再問是只做數據分析,不涉及圖像處理。那么配置就清晰下來,數據只要10G,分析后也只有5G左右,包系統20G左右。一般40G的系統盤基本也能滿足要求,跟客戶建議多配置20G做數據盤。后來了解分析后數據要下載大概5G,且只是某個時間需要下載,按照1M下載速率除8算,10*1024*1024/128/60/60=22.76小時,所以可以選擇按照流量計費,帶寬可以升級帶寬到100M,無下載流量不需要費用。


二、生信分析服務器初步建議客戶配置:(一般圍繞客戶使用場景也主要了解判斷如下三方面要求)


1、16核128G內存

2、60G硬盤(應該推薦超高IO類型的硬盤)

3、網絡按流量計費,帶寬開100M(初次建議5M,后來了解分析后還有5G數據要下載,建議是100M)


客戶下載r,rstudio,網盤和數據到服務器,準備就緒,導入數據到rstudio,結果反饋導了10幾分鐘還沒有導完。后來估計40多分鐘左右才導完。


所以貌似16核128G配置還是略顯有點不足,實際還可以升級配置到24vCPUs 192GiB內存或更高。速度上去了,實際總體使用成本應該不會差多少,但至少節約了時間。客戶反饋實際1-2天時間就可以完成數據分析,總體成本兩三百元或者更少。


后來了解到客戶實際運行一段時間,沒信心跑下去就把機器關掉刪掉了資源。再花了500元讓別人分析給結果數據了。


三、生信分析服務器方案配置成本:


客戶反饋這次數據有15G的基因數據,所以硬盤容量60G應該是夠。因為升級機器性能只會換CPU和內存,所以磁盤類型就需要從一開始就選型好。從rstudio分析基因數據的統計來看,涉及到讀和寫,讀入速度也是考慮的一方面,如本次15G數據讀入就花了1小時15分鐘左右,內存占用也到了190多G。


所以選擇盡可能高讀寫性能的磁盤類型,這里選擇了超高IO,60G一小時是0.08元。帶寬方面,客戶使用方式上就遠程桌面到云服務器下載網盤,下載R,rstudio和數據,然后配置和運行操作,不涉及到頻繁的大量的數據從服務器流出的情況。所以建議客戶配置帶寬為100M,計費方式為按量計費。


下載1G數據也才0.64元。CPU和內存方面,rstuido分析CPU占用率并不高,目前實際觀察8核也夠了,具體可能和算法及基因數據不同有差異,待進一步觀察;內存卻是占用大頭。這部分根據前人經驗有個初步對應供參考。這樣服務器配置和操作過程就非常清晰了。


四、生信分析服務器具體配置方案


按照上述步驟創建服務器和準備,導數據前打開RStudio,輸入memory.limit()檢查rstuido能分配的內存是否足夠大(這里單位為M),如和購買服務器內存不一致,可以用如memory.limit(256000)設為256G。


客戶導了不到一個小時又開始急了,說一直沒動靜像卡住了。安慰其打開任務管理器查看CPU和內存有無變化,rstudio的CPU實際占用率只有3.1上下跳動,內存卻隔幾秒鐘就出現G級的增長。觀察了一陣,導入命令運行完了,內存占用穩定在190G。從交流時間和如下賬單分析15G數據導入消耗了1小時15分鐘左右。


隨后客戶運行分析。從賬單和關機時間分析,應該分析時間在1個半小時左右。


如下為此次生信數據準備和分析過程的賬單詳情,成本在37.8元左右。


最后:想想正是有了云計算的便利,才使得生信分析服務器的硬件配置幾分鐘就可以獲得,即便要調整配置也就是幾分鐘的事情。而且即用即申請,不用可關機,用完即刻釋放,成本也相對極低。對于非大企業,研究機構的小公司,個人分析者,真實實實在在的方便,正如文章中所講沒有服務器的同學不用考慮上游分析,如今想要用就可以隨時可用而且用得起。


0

上一篇:2023年購買aws還是阿里云服務器?
下一篇:英國倫敦機房原生IP VPS測評結果如何?
HKT4為您的網站提供全球IDC資源
立即免費測試