Replication 線程
Mysql的 Replication 是一個(gè)異步的復(fù)制過程,從一個(gè) Mysql instace(我們稱之為 Master)復(fù)制到另一個(gè) Mysql instance(我們稱之 Slave)。在 Master 與 Slave 之間的實(shí)現(xiàn)整個(gè)復(fù)制過程主要由三個(gè)線程來完成,其中兩個(gè)線程(Sql線程和IO線程)在 Slave 端,另外一個(gè)線程(IO線程)在 Master 端。
要實(shí)現(xiàn) MySQL 的 Replication ,首先必須打開 Master 端的Binary Log(mysql-bin.xxxxxx)功能,否則無法實(shí)現(xiàn)。因?yàn)檎麄€(gè)復(fù)制過程實(shí)際上就是Slave從Master端獲取該日志然后再在自己身上完全 順序的執(zhí)行日志中所記錄的各種操作。打開 MySQL 的 Binary Log 可以通過在啟動(dòng) MySQL Server 的過程中使用 “—log-bin” 參數(shù)選項(xiàng),或者在 my.cnf 配置文件中的 mysqld 參數(shù)組([mysqld]標(biāo)識(shí)后的參數(shù)部分)增加 “l(fā)og-bin” 參數(shù)項(xiàng)。
MySQL 復(fù)制的基本過程如下:
1. Slave 上面的IO線程連接上 Master,并請(qǐng)求從指定日志文件的指定位置(或者從最開始的日志)之后的日志內(nèi)容;
2. Master 接收到來自 Slave 的 IO 線程的請(qǐng)求后,通過負(fù)責(zé)復(fù)制的 IO 線程根據(jù)請(qǐng)求信息讀取指定日志指定位置之后的日志信息,返回給 Slave 端的 IO 線程。返回信息中除了日志所包含的信息之外,還包括本次返回的信息在 Master 端的 Binary Log 文件的名稱以及在 Binary Log 中的位置;
3. Slave 的 IO 線程接收到信息后,將接收到的日志內(nèi)容依次寫入到 Slave 端的Relay Log文件(mysql-relay-bin.xxxxxx)的最末端,并將讀取到的Master端的bin-log的文件名和位置記錄到master- info文件中,以便在下一次讀取的時(shí)候能夠清楚的高速M(fèi)aster“我需要從某個(gè)bin-log的哪個(gè)位置開始往后的日志內(nèi)容,請(qǐng)發(fā)給我”
4. Slave 的 SQL 線程檢測(cè)到 Relay Log 中新增加了內(nèi)容后,會(huì)馬上解析該 Log 文件中的內(nèi)容成為在 Master 端真實(shí)執(zhí)行時(shí)候的那些可執(zhí)行的 Query 語句,并在自身執(zhí)行這些 Query。這樣,實(shí)際上就是在 Master 端和 Slave 端執(zhí)行了同樣的 Query,所以兩端的數(shù)據(jù)是完全一樣的。
實(shí)際上,在老版本中,MySQL 的復(fù)制實(shí)現(xiàn)在 Slave 端并不是由 SQL 線程和 IO 線程這兩個(gè)線程共同協(xié)作而完成的,而是由單獨(dú)的一個(gè)線程來完成所有的工作。但是 MySQL 的工程師們很快發(fā)現(xiàn),這樣做存在很大的風(fēng)險(xiǎn)和性能問題,主要如下:
首先,如果通過一個(gè)單一的線程來獨(dú)立實(shí)現(xiàn)這個(gè)工作的話,就使復(fù)制 Master 端的,Binary Log日志,以及解析這些日志,然后再在自身執(zhí)行的這個(gè)過程成為一個(gè)串行的過程,性能自然會(huì)受到較大的限制,這種架構(gòu)下的 Replication 的延遲自然就比較長(zhǎng)了。
其次,Slave 端的這個(gè)復(fù)制線程從 Master 端獲取 Binary Log 過來之后,需要接著解析這些內(nèi)容,還原成 Master 端所執(zhí)行的原始 Query,然后在自身執(zhí)行。在這個(gè)過程中,Master端很可能又已經(jīng)產(chǎn)生了大量的變化并生成了大量的 Binary Log 信息。如果在這個(gè)階段 Master 端的存儲(chǔ)系統(tǒng)出現(xiàn)了無法修復(fù)的故障,那么在這個(gè)階段所產(chǎn)生的所有變更都將永遠(yuǎn)的丟失,無法再找回來。這種潛在風(fēng)險(xiǎn)在Slave 端壓力比較大的時(shí)候尤其突出,因?yàn)槿绻?Slave 壓力比較大,解析日志以及應(yīng)用這些日志所花費(fèi)的時(shí)間自然就會(huì)更長(zhǎng)一些,可能丟失的數(shù)據(jù)也就會(huì)更多。
所以,在后期的改造中,新版本的 MySQL 為了盡量減小這個(gè)風(fēng)險(xiǎn),并提高復(fù)制的性能,將 Slave 端的復(fù)制改為兩個(gè)線程來完成,也就是前面所提到的 SQL 線程和 IO 線程。最早提出這個(gè)改進(jìn)方案的是Yahoo!的一位工程師“Jeremy Zawodny”。通過這樣的改造,這樣既在很大程度上解決了性能問題,縮短了異步的延時(shí)時(shí)間,同時(shí)也減少了潛在的數(shù)據(jù)丟失量。
當(dāng)然,即使是換成了現(xiàn)在這樣兩個(gè)線程來協(xié)作處理之后,同樣也還是存在 Slave 數(shù)據(jù)延時(shí)以及數(shù)據(jù)丟失的可能性的,畢竟這個(gè)復(fù)制是異步的。只要數(shù)據(jù)的更改不是在一個(gè)事務(wù)中,這些問題都是存在的。
如果要完全避免這些問題,就只能用 MySQL 的 Cluster 來解決了。不過 MySQL的 Cluster 知道筆者寫這部分內(nèi)容的時(shí)候,仍然還是一個(gè)內(nèi)存數(shù) 據(jù)庫的解決方案,也就是需要將所有數(shù)據(jù)包括索引全部都 Load 到內(nèi)存中,這樣就對(duì)內(nèi)存的要求就非常大的大,對(duì)于一般的大眾化應(yīng)用來說可實(shí)施性并不是太大。當(dāng)然,在之前與 MySQL 的 CTO David 交流的時(shí)候得知,MySQL 現(xiàn)在正在不斷改進(jìn)其 Cluster 的實(shí)現(xiàn),其中非常大的一個(gè)改動(dòng)就是允許數(shù)據(jù)不用全部 Load 到內(nèi)存中,而僅僅只是索引全部 Load 到內(nèi)存中,我想信在完成該項(xiàng)改造之后的 MySQL Cluster 將會(huì)更加受人歡迎,可實(shí)施性也會(huì)更大。
?
?
轉(zhuǎn)自:
http://machael.blog.51cto.com/829462/239112
更多文章、技術(shù)交流、商務(wù)合作、聯(lián)系博主
微信掃碼或搜索:z360901061

微信掃一掃加我為好友
QQ號(hào)聯(lián)系: 360901061
您的支持是博主寫作最大的動(dòng)力,如果您喜歡我的文章,感覺我的文章對(duì)您有幫助,請(qǐng)用微信掃描下面二維碼支持博主2元、5元、10元、20元等您想捐的金額吧,狠狠點(diǎn)擊下面給點(diǎn)支持吧,站長(zhǎng)非常感激您!手機(jī)微信長(zhǎng)按不能支付解決辦法:請(qǐng)將微信支付二維碼保存到相冊(cè),切換到微信,然后點(diǎn)擊微信右上角掃一掃功能,選擇支付二維碼完成支付。
【本文對(duì)您有幫助就好】元
