|
读过这本书吗?
最近在读
读过
想读
还不熟悉
|
图书城书列:
加入到博客或社交网站:
|
|
我来评论这本书:
内容提要:
本书介绍了机器学习方法的主要内容及其在生物学数据处理中的应用。其中对机器学习技术的理论基础——贝叶斯概率体系进行了详细介绍,并在此基础上着重对神经网络、隐也氏模型以及概率图模型等方法在生物信息学中的应用作了详细分析。书中特别列出一章介绍了DNA微阵列和基因表达,以及相关数据的分析方法。本书主要针对两个读者群体。一是生物学和生物化学研究人员,他们想了解基于数据处理的算法;二是物理、数学、统计、计算机科学等领域的学者,他们想知道机器学习方法在分子生物学研究中的应用。
作者简介:
皮埃尔·巴尔迪是美国加州大学医学院信和计算机科学系教授、生物化学系教授,基因组学和生物信息学研究所所长。
索恩·布鲁纳克,是丹麦理工大学生物系教授,生物序列分析中心主任。
编辑推荐:
本书作者不仅给我们展示了当今生物信息学大厦的缩影和构筑大厦的工具,更重要的是作者带领我们经历了如何构筑这个大厦,如何搭建“脚手架”的过程,这无论对于修补这座厦还是构建一座新的大厦都是非常重要的。
目录:
第一章 概述
第二章 机器学习的基础:概率理论体系 第三章 概率建模和推断:应用举例 第四章 机器学习算法 第五章 神经网络:理论 第六章 神经网络:应用 第七章 隐马氏模型:理论 第八章 隐马氏模型:应用 第九章 生物信息学中的概率图模型 第十章 进化的概率模型:系统进化树 第十一章 随机文法和语言学 第十二章 微阵列和基因表达 第十三章 互联网资源和公共数据库 附录A 统计学 附录B 信息论、熵和相对熵 附录C 概率图模型 附录D HMM的相关技术:标定、周期构架、状态函数和Dirichlet混合模型 附录E 高斯过程、核方法及支持向量机 附录F 公式和缩写符号 参考文献 基本词汇英汉对照表 书摘:
为了让标识成为特异性的可靠描述,进入比对的数据必须不存在冗余,这是一个基本条件。如果多个序列都包含了某个特定位点,就会对概率分布产生影响。
简单的标识可视化技术以及与其相对应的权重矩阵方法,都是对矩阵中每个位置的独立分析。我们将会在第6章中阐述神经网络如何进一步拓展这种分析方法。通过计算“正”位点比对结果中单体的出现频率与参考分布中频率的比值,权重矩阵对每个位置赋予相应的权重值。给定一个序列,如果将每个位置上单体所对应的权重的对数值求和,可以得到一个分值。我们还可以调整选取一个阈值以实现对于真位点的最佳识别。所谓最佳的标准,是根据预测方法的敏感度或特异度加以考察的。 神经网络具有对序列数据进行非线性处理的能力,因此在计算时可以考虑不同位置之间的相互关联。“非线性”本质上意味着:在一个类别与两个特征中的一个相关,而不是与两者同时相关的情况下,网络有可能进行正确的预测。而线性方法则不能正确处理这种两个特征的情况。 对于更加复杂的情况,一个特定类型的位点可能要用许多特征加以表示,相互之间的关联也具有更加复杂的模式。通过特征定义正确处理这种情况的能力,使神经网络算法成为序列数据分析领域的重要工具。 糖基化位点就是这样一个例子,其中带有正电荷和负电荷的氨基酸都可能是糖基化位点并发挥功能,然而这两种类型的氨基酸不能同时出现。传统的单体权重矩阵不能处理这种普通情形。当然,对于某些预测问题,可以利用双肽或输入特征更加复杂的权重矩阵来避开这个困难。另外一种处理策略是将所有的正样本分成两类或更多类,每一类都用相应的权重矩阵代表。这样一种方法上的转变在某些情况下可以有效地将一个非线性问题转化为线性问题。 一般而言,线性方法的缺陷在于不能减少无用的证据。对于线性方法,甚至在生物机制每次只能接受两种证据中一种的情况下,也必须将两种类型的证据结合并相加而得到较高的分值。非线性方法则可以避免这种情况,只要在许多特征的组合证据超过某个标准时,简单地降低分值即可解决这个问题。 对于许多问题,将输入数据的表示方法进行某种良好的变换,实际上是序列空间拓扑结构转换工作的一部分。这种转换将序列空间转为联系更紧密的空间,从而使许多孤立的数据集可以根据它们所属的功能类别相互融合。由于序列中的相关性和特征经常在很大程度上是未知的(至少在我们开始预测分析时),因此神经网络的非线性处理能力使其在 …… |