一, 海量數(shù)據(jù)的運營壓力
無疑,無線互聯(lián)網(wǎng)終于迎來了屬于自己的春天:無線互聯(lián)網(wǎng)各種產(chǎn)品如雨后春筍般涌現(xiàn),以手機QQ為代表的無線互聯(lián)網(wǎng)產(chǎn)品迅猛發(fā)展;同時,無線網(wǎng)民數(shù)也出現(xiàn)激增,據(jù)粗略估計,國內無線網(wǎng)民數(shù)已達3.5億。隨之而來的,是服務于不同產(chǎn)品的運營分析壓力和運營數(shù)據(jù)的暴發(fā)式增長。目前,無線BU日處理運營數(shù)據(jù)達10T,且涉及不同產(chǎn)品多維度復雜指標的分析運算,已經(jīng)成為一頭當之無愧的大象。如何讓大象也能翩翩起舞,以最小的開發(fā)代價,實時準確地輸出多維度的運營數(shù)據(jù),是無線BU數(shù)據(jù)平臺組需要解決的重要課題。
于是,以一頁式快速配置開發(fā)為基礎特點的海量數(shù)據(jù)云計算平臺就應運而生了。該平臺可覆蓋80%以上的統(tǒng)計指標,充分結合靈活性和通用性,最大程度為數(shù)據(jù)分析人員提高開發(fā)效率的同時,完成海量數(shù)據(jù)的分鐘級輸出。
二, 云計算平臺的創(chuàng)新歷程
圖表 1
如表一所示為業(yè)界通用的統(tǒng)計分布式解決方案。統(tǒng)計處理機到各業(yè)務機拖取日志,單獨編寫統(tǒng)計代碼處理原始日志和數(shù)據(jù),將統(tǒng)計結果注入數(shù)據(jù)庫并展示。
優(yōu)點:有利于完成定制化開發(fā)
缺點:通過編寫特定代碼完成統(tǒng)計開發(fā)的方式造成統(tǒng)計開發(fā)效率的低下、代碼質量難以保證。
在無線數(shù)據(jù)暴發(fā)式增長的情況下,這樣的技術架構已經(jīng)難以支撐更高層次的運營分析。如何歸納提煉出通用性統(tǒng)計指標,復用代碼,做到一次開發(fā),多次利用,迅速快捷獲得統(tǒng)計指標呢?模板化可配置的分布式運算平臺成為必然之路。因此,云計算平臺應運而生。
圖表 2
如圖表2所示,云計算平臺采集用戶通過配置頁面填入的自定義信息,將其轉變?yōu)閤ml文件,結合mapReduce計算模板,采用hadoop分布式運算技術,完成海量數(shù)據(jù)的可配置輸出。其特點有:
√ 一頁式配置開發(fā),提升數(shù)據(jù)分析效率
圖表 3
如圖表3所示,經(jīng)過簡單的配置,即可自動在數(shù)據(jù)庫中生成相應計算結果。省去了煩瑣的腳本編寫過程。
以某產(chǎn)品的基礎統(tǒng)計為例,神馬采集、日志db配置,各種復雜計算邏輯、sql,原有代碼為6千多行,至少需要2周左右的時間才能編寫完畢,給開發(fā)和維護都帶來嚴重的負擔。而通過如圖表3的配置,可全程通過配置實現(xiàn)零編碼統(tǒng)計需求。開發(fā)人員實現(xiàn)登錄用戶數(shù)/登錄次數(shù)/累計用戶/新增用戶/留存用戶/活躍用戶/有效用戶,開發(fā)時間僅為30分鐘左右,極大減輕開發(fā)人員的負擔。
√ 統(tǒng)計指標覆蓋面廣、擴展性強
圖表 4
如圖表4所示,云計算平臺涵蓋從常規(guī)指標、歷史累計指標到用戶健康度、用戶分析類等不同層次的各種統(tǒng)計指標,已形成可不斷擴充的統(tǒng)計指標體系。同時,統(tǒng)計維度還支持普通維度、cube/custom/rollup等復雜維度組合形式。
云計算平臺的統(tǒng)計指標覆蓋率可達80%以上。
√ 可維護性高
有BUG!影響了指標輸出!趕緊查問題吧!”這是統(tǒng)計分析人員經(jīng)常碰到的場景。而現(xiàn)在有了云計算平臺,一切變得不一樣了!配置化的設計最大程度保證了代碼質量,降低了人為編寫代碼的出錯機率。有疑惑,檢查一下自己的配置,至少95%的錯誤就可得到解決!
√ 支持任意維度的組合計算
對任意維度(QQ號碼、IMEI、IP)等可任意組合計算,得到統(tǒng)計結果。以下統(tǒng)計指標,可以通過一次配置全部完成。(注:以下數(shù)值均為虛構)
圖表 5
√ 中間用戶級匯聚文件接口自動對接應用系統(tǒng)
做數(shù)據(jù)分析時,我們可能會碰到這樣的場景:計算出這個月的活躍用戶數(shù),并且將用戶文件輸出,以用作發(fā)tips推廣用。在云計算平臺,這一切都可通過以上的配置實現(xiàn),不需要多次開發(fā)。且所有中間文件直接通過TDW,對接TA等公司級應用系統(tǒng),可供下一步的分析處理用。
√ 分布式并行計算,支撐海量數(shù)據(jù)的高效處理,統(tǒng)計結果可達分鐘級輸出
由多臺處理機并行處理,可支持線性擴容,海量日志時的運行速度不再是瓶頸!
圖表 6
如圖表6所示,在云計算平臺強有力的支撐下,每天T級(300億條記錄)的海量日志也可做到分鐘級的輸出!(注:以上數(shù)值均為虛構)
小結:云計算平臺通過高度抽像歸納業(yè)務邏輯進行封裝,形成通用計算模板,讓開發(fā)人員釋放出來做更有意義的統(tǒng)計分析,同時通過計算資源透明與共享,提高系統(tǒng)運算能力和可靠性,成為居家旅行殺人放火之必備良器。
三, 云計算平臺與運營平臺的緊密結合
試想一下,我們做運營活動時,總希望能夠快速知道用戶對活動的反應情況,以便迅速調整運營方案,達到最佳的運營效果。
在某產(chǎn)品的運營活動中,產(chǎn)品人員想向用戶下發(fā)tips,以達到語音聊天的推廣目的。但在推廣過程中,產(chǎn)品人員有自己的困惑:在tips的接收人群中,有多少用戶受到了騷擾,有多少用戶有意愿使用語音聊天?我們的推廣策略是否需要進一步調整?不用擔心,有云計算平臺迅速為我們得到分析結果!
經(jīng)過簡單的配置(耗時約20分鐘),即可得到如下的分析數(shù)據(jù):
騷擾!嚴重的騷擾!于是產(chǎn)品人員立刻改變運營方式,改粗放式運營為精準運營,只針對特定版本的活躍用戶進行投放,被騷擾的用戶比例立刻下降至2%!運營活動獲得圓滿成功
每天近10T的數(shù)據(jù)被運營人員握在手心,隨時掌握第一手運營數(shù)據(jù),還有什么不可能呢?
誰說大象不能跳舞?
Copyright@ 2011-2016 版權所有:大連千億科技有限公司 遼ICP備11013762-3號 google網(wǎng)站地圖 百度網(wǎng)站地圖 網(wǎng)站地圖
公司地址:大連市沙河口區(qū)中山路692號辰熙星海國際2317 客服電話:0411-39943997 QQ:2088827823 37482752
法律聲明:未經(jīng)許可,任何模仿本站模板、轉載本站內容等行為者,本站保留追究其法律責任的權利! 隱私權政策聲明