數據挖掘技術在生物信息學中的應用
簡介
本書特色
前言
章節列表
精彩閱讀
下載資源
相關圖書
主要采用一些數據挖掘的技術和方法在生物信息學領域做了如下幾個方面的工作:提出了一種基于可變精度粗糙集理論為新的生物序列進行功能注釋的方法;初步判斷四個種群,即尼日利亞Ibadan的Yoruba人、東京的日本人、北京的漢族、祖籍為歐洲西部和北部地區的美國居民在21號染色體上對疾病的易感程度的差距;提出了一種基于Y染色體SNP基因型頻率數據建立人類種群進化關系的新方法,提出的方法支持“走出非洲”假說,為人類種群進化研究提供了一個新思路;使用自組織特征映射模型(SOM)有效預測了蛋白質的亞細胞位置,從而推斷出蛋白質分子的功能。
隨著包括人類基因組計劃在內的生物基因組測序工程的里程碑式地進展,由此產生的包括生物體生老病死的生物數據以前所未有的速度遞增,目前已達到每14個月翻一番的速度。同時隨著互聯網的普及,數以百計的生物學數據庫如雨后春筍般地迅速出現和成長。毫無疑問,我們正從一個積累數據的時代向解釋數據的時代轉變,數據量的巨大積累往往蘊含著潛在突破性發現的可能。在此背景下出現了以計算機科學、信息技術和數學的理論及方法來研究生物信息的交叉學科,也就是生物信息學。該領域的核心內容是研究如何通過對DNA序列的統計計算分析更加深入地理解DNA序列、結構、演化及其與生物功能之間的關系,其研究課題涉及到分子生物學、分子演化、結構生物學,統計學和計算機科學等諸多領域。生物信息學是內涵豐富的學科,其核心是基因組信息學,包括基因組信息的獲取、處理、存儲、分配和解釋。基因組信息學的關鍵是“讀懂”基因組的核苷酸順序,即全部基因在染色體上的確切位置和各DNA片段的功能;同時在發現了新基因信息后進行蛋白質空間結構模擬和預測,然后依據特定蛋白質的功能進行藥物設計。了解基因表達的調控機理也是生物信息學的重要內容,根據生物分子在基因調控中的作用,描述人類疾病的診斷和治療的內在規律,其研究目標是揭示“基因組信息結構的復雜性及遺傳語言的根本規律”,解釋生命的遺傳語言。生物信息學已成為整個生命科學發展的重要組成部分并成為生命科學研究的前沿。
生物信息學在短短十幾年時間里已經形成了以下多個研究方向:序列比對、蛋白質結構比對和預測、基因識別非編碼區分析研究、分子進化和比較基因組學、序列重疊群裝配、遺傳密碼的起源、基于結構的藥物設計、生物圖像、基因表達譜分析,代謝網絡分析、基因芯片設計和蛋白質組學數據分析等,逐漸成為生物信息學中新興的重要研究領域;在學科方面,由生物信息學衍生的學科(包括結構基因組學、功能基因組學、比較基因組學、蛋白質學、藥物基因組學、中藥基因組學、腫瘤基因組學、分子流行病學和環境基因組學),成為系統生物學的重要研究方法。從如今的發展不難看出,基因工程已經進入了后基因組時代。
大規模的生物信息給數據挖掘提出了新課題和挑戰,需要新的思想加入。常規的計算機算法仍可以應用于生物數據分析中,但越來越不適用于序列分析問題。究其原因是由于生物系統本質上的模型復雜且缺乏在分子層上建立的完備的生命組織理論。數據挖掘使得利用計算機從海量的生物信息中提取有用知識、發現知識成為可能。機器學習方法在大樣本、多向量的數據分析工作中發揮著日益重要的作用,而目前大量的基因數據庫處理需要計算機能自動識別和標注,以避免既耗時又花費巨大的人工處理方法。因此,生物信息學與數據挖掘相結合也就成為了必然趨勢。機器學習加速了生物信息學的進展,也帶來了相應的問題。機器學習方法大多假定數據符合某種相對固定的模型,而一般數據結構通常是可變的,在生物信息學中尤為突出。因此,有必要建立一套不依賴于假定數據結構的一般性方法來尋找數據集的內在結構。
生物信息學的挑戰很多,例如從蛋白質的氨基酸序列預測蛋白質結構問題。這個難題已困擾理論生物學家達半個多世紀,如今找到問題的答案的要求正變得日益迫切。諾貝爾獎獲得者W•Gilbert在1991年曾經指出:“傳統生物學解決問題的方式是實驗的。現在,基于全部基因都將知曉并以電子可操作的方式駐留在數據庫中,新的生物學研究模式的出發點應該是理論的。一個科學家將從理論推測出發,然后再回到實驗中去追蹤或驗證這些理論假設”。
在上述背景下,有必要利用數據挖掘的方法在生物信息學領域中做一些有益的嘗試工作。本著作受到國家自然科學基金項目(項目編號:61163034)資助。鑒于作者水平有限,書中難免有錯誤之處,敬請專家和廣大讀者指正。
作者
2011年11月19日
第1章 緒論 1
1.1 數據挖掘技術簡介 1
1.1.1 數據挖掘的背景介紹 1
1.1.2 數據挖掘的研究現狀 2
1.1.3 數據挖掘的相關知識 4
1.1.4 數據挖掘的應用和研究方向 8
1.2 數據挖掘技術在生物信息學中的應用 9
1.2.1 生物信息學的定義和研究范圍 9
1.2.2 生物信息學中的數據挖掘過程 11
1.2.3 數據挖掘在生物信息學中的應用和展望 12
1.3 本書工作 13
第2章 基于可變精度粗糙集的基因功能預測方法 15
2.1 引言 15
2.2 GO術語屬性的離散化 17
2.2.1 定義和GO術語的屬性 17
2.2.2 GO術語屬性的離散化方法 18
2.3 GO術語的決策規則提取方法 20
2.3.1 可變精度粗糙集的相關定義 20
2.3.2 基于可變精度粗糙集的規則提取算法 22
2.4 規則提取實例 23
2.4.1 統計術語所在單元及所在單元的相關屬性 23
2.4.2 GO術語屬性的離散化 24
2.4.3 GO術語決策規則的提取 25
2.5 實驗結果與分析 26
2.5.1 實驗結果評價方法 26
2.5.2 實驗數據集 26
2.5.3 實驗結果和分析 27
2.6 本章小結 28
第3章 基于21號染色體四個種群的單體型差異比較研究 29
3.1 背景介紹 29
3.2 研究對象和數據來源 30
3.2.1 研究對象 30
3.2.2 數據來源 31
3.3 采用的研究方法 31
3.3.1 準備數據 31
3.3.2 獲取四個種群的標簽SNP文件 32
3.3.3 獲取四個種群的SNP單體型數據文件 33
3.4 四個種群單體型差距比較的數學模型 34
3.5 數據結果 35
3.6 結論 36
第4章 基于Y染色體SNP基因型頻率數據的種群進化研究 37
4.1 引言 37
4.1.1 背景介紹 37
4.1.2 相關工作 38
4.2 單核苷酸多態性理論和國際單體型圖計劃介紹 39
4.2.1 單核苷酸多態性基礎理論 39
4.2.2 國際人類基因組單體型圖計劃介紹 43
4.3 系統進化樹的構建理論 43
4.3.1 人類起源學說 43
4.3.2 系統進化樹 45
4.4 基于Y染色體SNP基因型頻率數據的種群進化樹 49
4.4.1 研究對象和數據來源 49
4.4.2 采用的研究方法 50
4.5 模擬實驗 55
4.6 本章小結 58
第5章 基于SOM算法的蛋白質亞細胞位置預測研究 59
5.1 自組織特征映射SOM模型 59
5.2 SOM算法的具體步驟 59
5.3 SOM算法實際應用中的幾個問題 60
5.3.1 數據歸一化 60
5.3.2 輸出節點的規模 61
5.3.3 鄰居節點范圍和距離函數的選擇 61
5.3.4 SOM加速算法Batch-Type SOM 62
5.4 實驗環境和實驗數據 63
5.5 實驗結果評價方法 63
5.6 實驗結果分析 64
5.6.1 算法有效性 64
5.6.2 不同實驗集合的準確率 64
5.6.3 Bacth-Type SOM的加速效果 65
5.7 結論 65
第6章 結論和展望 66
參考文獻 68
- 計算機應用基礎與實踐(Windows 7平臺與Office 2016應用) [主編 呂波 何敏]
- 計算機應用技術基礎案例教程 [主編 周麗娟 王璐]
- 計算機應用基礎(Windows 10+Office 2016) [主編 任洪亮 邢海燕]
- 計算機應用基礎 [周麗娟 紀淑芹 楊海波]
- 計算機應用基礎實踐教程 [主編 楊海波 李燁平 周麗娟]
- 計算機應用基礎教程(Windows 10+Office 2019) [主編 聶長浪 賀秋芳 李久仲]
- 計算機應用基礎實訓與習題指導(Windows 7+Office 2016) [周金容 唐天國]
- 計算機應用基礎(Windows 7+Office 2016) [主編 王洪平 楊華]
- 計算機應用基礎(Windows 10+Office 2016) [主編 陽曉霞 譚衛]
- 計算機應用基礎實訓教程(第三版) [主 編 王向慧 康秀蘭]
- 計算機應用基礎(第三版) [主 編 王向慧 康秀蘭]
- 計算機應用基礎 [主編 趙艷莉]
- 計算機應用基礎(上冊、下冊) [主編 穆紅濤 姜亞軍]
- 新編計算機應用基礎教程 [主編 戴毅 吳瑞芝 賈姍姍]
- 計算機應用基礎教程(Windows 10+Office 2019) [主編 石利平 副主編 田輝平 ]
- 計算機應用基礎實用教程(微課版) [主編 劉美麗 李軍]
- 計算機應用基礎 [主編 譚慧 楊志茹]
- 計算機應用基礎實訓教程 [主編 王蒙田 李衛星]
- 計算機應用基礎教程 [主 編 王蒙田 于康娟]
- 計算機應用基礎 [主編 劉芊 楊鳳霞]
- 計算機應用基礎(Windows 7+Office 2010)(第二版) [主 編 李建軍]
- 計算機應用技能教程——全國計算機等級考試一級MS Office 2010 [主編 石鐵峰 王祖偉 宋家慧]
- 計算機應用基礎教程(第三版)(Windows 7+Office 2010) [主編 聶長浪 賀秋芳 李久仲]
- 計算機應用基礎實踐教程 [主 編 楊海波 李燁平]
- 計算機應用基礎 [主 編 周麗娟 紀淑芹]
- 計算機應用基礎教程學習指導(Windows 7+Office 2010) [主編 劉俊華 吳燕]
- 計算機應用基礎教程(Windows 7+Office 2010) [主 編 潘 迪 代子靜]
- 計算機應用基礎上機實習指導(Windows 7+Office 2010版) [張婧]
- 計算機應用基礎(Windows 7+Office 2010版) [楊建存]
- 計算機應用基礎情景化教程(Windows 7+Office 2010)(第二版) [主編 王宏斌 張尼奇 王鋒]