????? 之前斷斷續(xù)續(xù)的在輕博客點點【 http://cphmvp.diandian.com/ 】 寫下些有關(guān)java,爬蟲,正則,?硬件服務(wù)器的一些工作中用到的,
比較喜歡點點的域名個性定制,今期想把15個月的爬蟲工作學(xué)習(xí)資料整理下,發(fā)現(xiàn)在點點上排版有些蹩腳,特別是代碼顯示上。尋思了
幾天,終于找著一個適合it程序猿記錄,分享技術(shù)的博客。
????? 有點遲,但希望還不晚。我是一名90后,在it這個一腳探下去不知道深淺的行業(yè)里,待了才剛一年半。在技術(shù)上,一直在做各種爬蟲,
很少用nutch、heritrix 這些牛氣的開源爬蟲,從開始接觸爬蟲的時候就開始定位的思想就是自己構(gòu)建的感覺可控性強些。做的過程中,
慢慢發(fā)現(xiàn)了解 nutch ,heritrix 的架構(gòu) 實現(xiàn)還是很有啟發(fā)的,比如現(xiàn)在我們團隊做的一個爬蟲產(chǎn)品,里融合的有nutch和heritrix的設(shè)計
思想 ,(閑下來會陸續(xù)好好拜讀下,詳細的源碼)。 自己寫爬蟲有個無可比擬的好處就是,針對性定向開發(fā),會很快,一些業(yè)務(wù)的邏輯
比較容易較好的在爬取過程中進行融合,對付一些較為特殊的 異步數(shù)據(jù)請求,動態(tài)頁面,登錄 ,使用起來就靈活的多。
每一個做coding 的程序猿都希望在某一個領(lǐng)域成為大牛,提起來像黑客 那樣的NB感覺, 個人覺得技術(shù)很重要,但絕對不是最重要的
(上家公司教會我的)。 但在這個行業(yè)里的初始兩年最好能埋下頭好好專研下技術(shù)還是很有必要的,有些東西(像轉(zhuǎn)管理),可以不那么急,
這樣的路線會更覺得穩(wěn)健。 我主攻的方向是網(wǎng)絡(luò)爬蟲 crawler,工作的過程中,數(shù)據(jù)庫接觸的oracle最多。在此基礎(chǔ)上個人對oracle數(shù)據(jù)庫的
系統(tǒng)架構(gòu),管理機制 ,有很強的興趣,也使得我今年初的時候,選報了一個培訓(xùn),在8、9月份的時候考取了一個ocp的認證。 所以在該博客
空間上,會逐漸學(xué)習(xí),把我理解的(不正確的歡迎指正交流)爬蟲方面,oracle維護方面,記錄下來,分享給大家。
???? coding ,很苦逼。無論怎樣的環(huán)境,怎樣的現(xiàn)在,盯緊心中的夢想,一步一步靠近就好。
?
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號聯(lián)系: 360901061
您的支持是博主寫作最大的動力,如果您喜歡我的文章,感覺我的文章對您有幫助,請用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點擊下面給點支持吧,站長非常感激您!手機微信長按不能支付解決辦法:請將微信支付二維碼保存到相冊,切換到微信,然后點擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對您有幫助就好】元
