RDBMS提供了最好的事務(wù)完整性,但相對于其他存儲選擇,這種數據庫很難擴愚且擴展成本高,可用性低。為數據選擇正確的存儲工具。不要因為你習慣用數據庫訪(fǎng)問(wèn)數據,就總用關(guān)系數據庫存儲數據。

關(guān)系數據庫管理系統(RDBMS)(如Oracle i和 MYSQL)是以Edgar F.Codd于1970年發(fā)布的論文“大型共享數據庫數據的關(guān)系模型”(“A Relational Model of Data for Large Shared Data Banks”)中的關(guān)系模型為基礎的。大多數 RDBMS對于存儲數據有兩大好處。第一個(gè)好處是利用ACID屬性確保了事務(wù)完整性,關(guān)于A(yíng)CID的定義,請參閱表2-1。第二個(gè)好處在于表內和表間的關(guān)系型結構。為了最小化數據冗余,提高事務(wù)的處理能力,大多數聯(lián)機事務(wù)處理理(OLTP)系統中的表都被規范化為第三范式即表中的所有記錄都有相同的字段,所有非主關(guān)鍵字的字段都不能只依賴(lài)于組合關(guān)鍵字的一部分,所有非主關(guān)鍵字字段必須依賴(lài)于主關(guān)鍵字。
表中的每一列數據都要依賴(lài)于表中的其他列數據。表之間的關(guān)系通常以外鍵表示。雖然使用 RDBMS有這兩點(diǎn)好處,但它們也是限制了擴展性的原因。為了確保ACID屬性,擴展RDBMS比擴展其他數據存儲難得多。為了在具有多個(gè)節點(diǎn)的 RDBMS集群(如 MYSQL NDB)中確保數據致性,要采用同步復制的功能才能保證所有數據在提交時(shí)被寫(xiě)入多個(gè)節點(diǎn)。采用 Oracle RAC,會(huì )有一個(gè)中央數據庫,但是數據庫域的所有權卻是所有節點(diǎn)共享的。因此,對于寫(xiě)請求,要把數據所有權轉移到相應的節點(diǎn),而對于讀請求,則要依次從請求者發(fā)送到主節點(diǎn),再從主節點(diǎn)發(fā)送到擁有要讀的數據的節點(diǎn),再從它發(fā)回到請求者。最終,你會(huì )受到同步復制數據的節點(diǎn)數或它們的地理位置的限制。
RDBMS中表內和表間的關(guān)系結構使得很難對數據庫進(jìn)行分片或分區操作。關(guān)于把工作分發(fā)到多臺機器上的原則。在把表拆分到多個(gè)數據庫的應用中,原來(lái)在單一數據中連接兩個(gè)表的簡(jiǎn)單査詢(xún)就要被轉換成兩個(gè)查詢(xún)來(lái)連接數據。
總而言之,只有要求事務(wù)完整性或數據間有關(guān)系的數據,才需要使用 RDBMS。既不要求數據間的關(guān)系,也不要求事務(wù)完整性的數據,最好采用其他的存儲系統。我們來(lái)簡(jiǎn)單討論幾個(gè)可用的解決方案,以及如何用它們代替數據庫,以達到更好的、性?xún)r(jià)比更高的、擴展性更高的效果種常常被忽略的存儲系統是文件系統。也許這是一種簡(jiǎn)單的存儲方式,因為大多數程序員最初編程時(shí),訪(fǎng)問(wèn)的都是文件而不是數據庫中的數據。一旦我們學(xué)會(huì )了在數據庫中存儲或獲取數據,就再也不用文件。文件系統已經(jīng)發(fā)展很久了,而且許多文件系統是專(zhuān)門(mén)為處理非常大量的文件和數據而設計的。
這些文件系統包括 Google File System(GFS)、Mogilefs和Ceph等。如果你的系統是“一次寫(xiě),多次讀”的,那么文件系統是個(gè)很好的選擇。換句話(huà)說(shuō),如果不會(huì )發(fā)生讀寫(xiě)沖突,不需要維護大量的數據關(guān)系,并不真正需要用到數據庫事務(wù),那么采用文件系統才是最好的選擇。另一種存儲策略叫做 NOSQL。這一類(lèi)存儲技術(shù)通常被劃分為鍵一值存儲、可擴展記錄存儲和文檔存儲。關(guān)于這種技術(shù)分類(lèi),并沒(méi)有統一的標準,很多技術(shù)可以被分到多個(gè)種類(lèi)中。在下面的介紹中,我們加入了一些技術(shù)的示例,但不要把它們當做最終的解釋??紤]到這些項目發(fā)展的速度,那么將來(lái)這種分類(lèi)很可能更加模糊。
鍵一值存儲技術(shù)包括 Memcached、 Tokyo Tyrant和 Voldemort。這些產(chǎn)品中的數據都有一個(gè)鍵一值索引存儲在內存中。有些產(chǎn)品能夠把健值異步復制。通過(guò)簡(jiǎn)化的數據存儲模型和鍵一值對,這類(lèi)產(chǎn)品能夠提供很高 寫(xiě)人硬盤(pán)永久存儲。有些產(chǎn)品會(huì )在節點(diǎn)間進(jìn)行同步復制,而有的則進(jìn)行的可擴展性和性能,但在能存儲什么數據方面具有很大的限制。此外,依賴(lài)同步復制的鍵一值數據存儲仍然具有與 RDBMS集群一樣的限制,即在節點(diǎn)數量和地理位置方面的限制。
可擴展記錄存儲技術(shù)包括 Google公司專(zhuān)有的 Big Table和 Facebook公司的(現在已經(jīng)是開(kāi)源的) Cassandra。這些產(chǎn)品采用的是可以拆分到節點(diǎn)的行列數據模型??梢愿鶕麈I對行進(jìn)行拆分或分片,再對列進(jìn)行分組,存放到不同的節點(diǎn)上。這種擴展方法與展示的AKF擴展立方中的X軸和Y軸拆分方法相似,X軸拆分是讀取數據副本,Y軸是根據支持的服務(wù)來(lái)分割表。在這些產(chǎn)品中,行分片是自動(dòng)執行的,但是列拆分則需要用戶(hù)定義,與在 RDBMS中的操作類(lèi)似。這些產(chǎn)品使用的是異步復制,最終能達到一致性。這意味著(zhù),也許幾毫秒或幾小時(shí)后,最終所有節點(diǎn)上的數據將是一致的。
文檔存儲技術(shù)包括 COUCHDB、亞馬遜的 Simpledb和雅虎的 PNUTS。這種技術(shù)采用的數據模型雖然被稱(chēng)為“文檔”,但其實(shí)稱(chēng)為多索引對象模型更確切。這些多索引對象(或者說(shuō)“文檔”)可以聚集到多索引對象的集合(通常稱(chēng)為“城”)中,然后可以對這比值合成情由查詢(xún)。文檔存儲技術(shù)不支持ACID屬性,相反地,它們采用的是異步復制方法,最終能使數據達到一致。
NOSQL解決方案把對象和實(shí)體之間的關(guān)系限制到了最少。正是因為減少了關(guān)系,所以能夠把系統分發(fā)到多個(gè)節點(diǎn)上,在維持事務(wù)完整性和解決讀寫(xiě)沖突的同時(shí),實(shí)現了更大的可擴展性。
通常情況下,我們都需要對系統的可擴展性和靈活性進(jìn)行權衡,在讀過(guò)前面的介紹之后,也許你已經(jīng)有了決定。數據實(shí)體之間的關(guān)系是進(jìn)行衡量的關(guān)鍵,隨著(zhù)關(guān)系增多,靈活性會(huì )增加。靈活性增加,會(huì )使成本增加,可擴展性降低。從擴展系統的成本(和限制)與數據實(shí)體之間的關(guān)系程度這兩個(gè)方面對比了 RDBMS、 NOSQL和文件系統這三種解決方案。圖4-2則從靈活性和系統允許使用的關(guān)系程度兩方面進(jìn)行了對比。結果很顯然,關(guān)系帶來(lái)了靈活性,但降低了可擴展性。正因如此,我們不想濫用關(guān)系數據庫,而是要采用適合任何的工具,使系統得到更大的擴展性。
在這個(gè)原則中,我們要介紹的另一種數據存儲方法是Goge的Mapreduce方法リ。簡(jiǎn)而言之, Mapreduce方法具有兩個(gè)功能,即Map 和 Reduce。Map功能的輸入是一個(gè)鍵一值對,生成一個(gè)中間鍵一值對。輸入的鍵可能是一個(gè)文檔名或者指向文檔中的某一段的指針。值可能是文檔中的所有文字。Map功能的輸出將輸入到 Reduce功能,該功能使用個(gè)程序對文字和文字段分組,并且把值添加到一個(gè)列表中。這是個(gè)不算復雜的程序,根據鍵對數據進(jìn)行排序和分組。這種技術(shù)最大的好處是能夠把非常大的數據集的計算分發(fā)到許多服務(wù)器上。
Apache的 Hadoop則是采用兩種存儲方法的組合的一個(gè)實(shí)例。它采用了 Google的 Mapreduce技術(shù)和 Google File System,這兩種方法前面都介紹過(guò)。 Hadoop既是具有高可擴展性的文件系統,又能夠分布式地存儲和獲取數據。
許多替代數據庫的數據存儲方法,那么在決定選擇哪種方法時(shí),應該考慮數據的哪些特征呢?與存儲方法有很多選擇一樣,需要考慮的數據特征也有很多。最重要的幾個(gè)是數據元素間的關(guān)聯(lián)程度,解決方案的發(fā)展速度以及數據的讀寫(xiě)比例(可能還有數據是否更新)。最后,我們關(guān)心的是如何把數據變現(換句話(huà)說(shuō),是否有利可圖),因為我們不想讓自己的系統成本超出收益。
成本和開(kāi)發(fā)時(shí)間。例如,假設把一個(gè)涉及用戶(hù)、付款、采購等信息的事務(wù)存儲在一個(gè)鍵一值存儲中,然后在采購報告內體現其中的信息片段,想象一下有多么困難吧。雖然你可以采用文件系統或者 NOSQL存儲方法實(shí)現它,但向用戶(hù)交付結果需要的開(kāi)發(fā)投入和時(shí)間成本都很高。
預期的增長(cháng)速度非常重要,原因很多。最終,這個(gè)增長(cháng)速度會(huì )影響系統的成本和客戶(hù)響應時(shí)間。如果數據實(shí)體間需要高度的聯(lián)系,那么我們可能需要利用所有的硬件和處理能力來(lái)支持單一的整合數據庫,促使我們把數據庫拆分成多個(gè)實(shí)例。
讀寫(xiě)比例非常重要,因為它有助于我們理解需要什么樣的系統。只寫(xiě)一次而讀多次的數據可以采用文件系統外加某種應用、文件或對象緩存。圖像就是采用文件系統進(jìn)行存儲的典型例子。寫(xiě)過(guò)之后需要更新的數據,或者具有很高寫(xiě)讀比例的數據,最好采用 NOSQL存儲或 RDBMS。這些需要考慮的因素構成了另一個(gè)立方體,分別用X軸、Y軸和Z軸表示了這三個(gè)因素。隨著(zhù)這三個(gè)因素的值增加,最終解決方案的成本也會(huì )增加。如果我們要求系統間有高度的關(guān)聯(lián)、高速增長(cháng)、能夠解決讀寫(xiě)沖突,那么最好采用幾個(gè)較小的 RDBMS系統,這樣在開(kāi)發(fā)、系統維護甚至數據庫許可方面的成本可能相對較高。如果增長(cháng)速度較慢,規模較小,但是關(guān)系很多需要解決讀寫(xiě)沖突,那么可以使用單個(gè)的大型數據庫(具有高可用性的集群)。
如果數據間的關(guān)系不是非常多,那么在任何水平的讀寫(xiě)沖突和幾乎任何水平的增長(cháng)速度下,都可以使用 NOSQL存儲技術(shù)。這里,我們再次看到了關(guān)系對成本和復雜度的影響程度,我們將在第8章中探討這個(gè)主題。采用 NOSQL技術(shù)的成本較低。最后,如果數據關(guān)系不多,不關(guān)心讀寫(xiě)沖突,那么可以采用成本更低的文件系統。
我們必須理解網(wǎng)站制作數據的貨幣價(jià)值,因為許多公司在艱難起步時(shí)期都經(jīng)歷過(guò),用A級存儲免費存放TB級的用戶(hù)數據,很快就會(huì )把資金消耗完。較好的方法是分層存儲數據,根據訪(fǎng)問(wèn)日期,不停地把較老的數據下推到較便宜的訪(fǎng)問(wèn)較慢的存儲媒體上。這種情況叫做成本一數據價(jià)值的困境,即隨著(zhù)時(shí)間流逝,數據價(jià)值會(huì )降低,但是保存數據的成本會(huì )增加。
本文地址:http://havencoinwallet.com//article/3463.html