公共数据库

成考报名发布时间：09-27 阅读：

公共数据库(一)
华东师范大学公共数据库入口：http://www.idc.ecnu.edu.cn/

下面中国招生考试网小编给各位考生整理:

华东师范大学公共数据库入口：http://www.idc.ecnu.edu.cn/

更多校园信息，请关注>>>校园快讯>>>

公共数据库(二)
基因表达谱公共数据库

基因表达谱公共数据库 (2010-04-17 11:17:21)转载▼

标签：教育分类：系统生物学

gene expression profiles:

NCBI: GEO

EBI ArrayExpress和 SMD

功能基因组相关信息分析

功能基因组学是后基因组研究的核心内容，它强调发展和应用整体的（基因组水平或系统水平）实验方法分析基因组序列信息阐明基因功能，特点是采用高通量的实验方法结合的大规模数据统计计算方法进行研究，基本策略是从研究单一基因或蛋白上升到从系统角度一次研究所有基因或蛋白。随着功能基因组实验研究的深入，大量的数据不断涌现，生物信息学将在功能基因组学研究中的扮演关键角色。

7.1 大规模基因表达谱分析

随着人类基因组测序逐渐接近完成，科学家发现即使获得了完整基因图谱，对了解生命活动还有很大距离。我们从基因图谱不知道基因表达的产物是否出现与何时出现；基因表达产物的浓度是多少；是否存在翻译后的修饰过程，若存在是如何修饰的，等一系列问题。这些问题的实质是不了解按照特定的时间、空间进行的基因表达谱。获得基因表达的信息是比DNA序列测定艰巨得多的任务，因为基因表达是依赖于许多因素的动态过程。

国际上在核酸和蛋白质两个层次上发展了分析基因表达谱的新技术，即核酸层次上的cDNA芯片（cDNA微阵列）技术和蛋白质层次上的二维凝胶电泳和测序质谱技术，即蛋白质组(proteome)技术。DNA芯片技术能够在基因组水平分析基因表达，检测许多基因的转录水平。对大规模基因表达谱的分析存在新的方法学问题，它们从数学角度看不是简单的NP问题、动力系统问题或不确定性问题，而是基因表达网络，因此需要发展新的方法和工具。同时，在芯片等的设计上，也需要从理论到软件的支持

下面主要围绕cDNA芯片相关的数据管理和分析问题进行讨论。

1．实验室信息管理系统

cDNA芯片实验的目的是要在一次实验中同时得到成千上万个基因的表达行为，这样的实验需要有管理实验前后大量数据的能力。设计构建检测基因表达的微阵列需要获得生物体基因的所有序列、注释和克隆。在杂交反应和扫描后，收集到的数据必须以某种方式保存，以便很容易进行图象处理和统计及生物学分析。因此需要建立与大规模高通量实验方法相匹配的实验材料和信息管理系统。

该系统除用来定位和跟踪材料来源（例如，克隆，微阵列，探针）外，还必须管理实验前后大量的数据。此外，还包括实验室设备软件系统，如斯坦福大学Brown实验室免费的控制自制机器点样设备软件（

芯片图象处理已有各种软件工具，基本的功能是将不同信号强度点的图像转换为每个点的强度数值。这方面没有一致的方法，许多研究小组仍在开发这类软件。图象分析软件的质量对精确解释玻片和膜上的信号非常关键。NHGRI的Yidong Chen开发了一种复杂的图象分析程序，deArray,可免费获取。

美国国立卫生研究院人类基因组研究所（NHGRI）开发的免费的cDNA芯片数据管理分析系统ArrayDB，涉及微阵列的设计、实验室信息管理、实验结果的处理和解释。下面加以简单介绍。

ArrayDB

ArrayDB是用来储存、查询和分析cDNA芯片实验信息的实验室管理系统。ArrayDB整合了cDNA芯片实验中的多个方面，包括数据管理、用户介面、机器自动点样、扫描和图象处理。

ArrayDB中保存的数据包括实验来源、实验参数和条件以及原始的和经处理的杂交结果。ArrayDB依托的关系数据库储存了芯片上每个克隆的相关信息，包括基因的简单描述、GenBank号、IMAGE克隆识别号、代谢途径号和实验室内部克隆号。ArrayDB还储存了与cDNA芯片制造和实验条件的信息。包括点样相关数据（点样机器的参数）、环境条件（温度、湿度、点样针冲洗条件）等数据。此外，还保存了杂交探针和实验条件，包括研究者的姓名，研究目的和实验条件、组织细胞类型的文本描述。有关杂交的结果的信息包括扫描图象（“原始”结果）、信号强度数据、信号强度比值和本底值。

ArrayDB的设计允许灵活地提取数据信息。设计策略允许不同来源的数据输入，大多数克隆信息来自Unigene数据库(包括序列的命名和获取号)。也允许新分离的还没有获取号及名称的克隆的输入。许多数据输入和处理过程是自动的。软件会自动扫描目录查找新输入数据库中的信号强度数据无须人工辅助，其它自动处理包括很方便地整合信号强度数据和克隆数据。 ArrayDB的Web界面能很方便地进行不同类型信息的查询，从克隆信息到信号强度值到分析结果。ArrayDB支持各种字段的数据查询，例如克隆ID、标题、实验编号、序列获取号、微量滴定板编号以及相关克隆的结果。每个克隆的更多信息通过超文本链接至其他数据库如dbEST、GenBank或Unigene，代谢途径信息也可通过链接至KEGG得到。

通过序列相似性搜索可以有效地寻找目的基因。ArrayDB支持对10K/15K数据（软件自带数据）进行BLASTN搜索以便确定目的基因是否已包含在芯片中。

ArrayDB能分析单个和多个实验产生的信号强度比值的类型和关系。ArrayViewer工具支持查询和分析单个实验；MultiExperiment viewer工具支持多个实验数据。在下述网站可得到更详细信息和相关软件。

DeArray和ArrayDB网址：

基因表达公共数据库

数据库用途

（1）基础研究将来自各种生物的表达数据与其它各种分子生物学数据资源，如经注释的基因组序列、启动子、代谢途径数据库等结合，有助于理解基因调控网络、代谢途径、细胞分化和组织发育。例如，比较未知基因与已知基因表达谱的相似性能帮助推测未知基因的功能。

（2）医学及药学研究例如，如果特定的一些基因的高表达与某种肿瘤密切相关，可以研究这些或其它有相似表达谱的基因的表达的影响条件，或研究能降低表达水平的化合物（潜在药物）。

（3）诊断研究通过对数据库数据进行基因表达谱的相似性比较对疾病早期诊断具有临床价值。

（4）毒理学研究例如，了解大鼠某种基因对特定毒剂的反应可帮助预测人的同源性基因的反应情况。

（5）实验质量控制和研究参考实验室样本与数据库中标准对照样本比较能找出方法和设备问题。此外，还能提供其他研究者的研究现状，避免重复实验，节约经费。

数据库的特点和难点

目前急需建立标准注释的公共数据库，但这是生物信息学迄今面临的最复杂且富有挑战性的工作之一。主要困难来自对实验条件细节的描述，不精确的表达水平相对定量方法以及不断增长的庞大数据量。

目前所有的基因表达水平定量都是相对的：哪些基因差异表达仅仅是与另外一个实验比较而言，或者与相同实验的另一个基因的相比而言。这种方法不能确定mRNA的拷贝数，转录水平是总的细胞群的平均水平。结果导致采用不同技术进行基因表达的检测，甚至不同实验

室采用相同技术，都有可能不能进行比较。对不同来源数据的进行比较有必要采取两个步骤：首先，原始数据应避免任何改动，比如采取数据标准化（data-normalization）的方法。其次，在实验中设计使用标准化的对照探针和样本以便给出参考点至少使来自同一实验平台的数据标准化。

另一难点是对实验条件的描述，解决方法是对实验方法用采用规范化词汇的文件描述：如基因名称，物种，发育阶段，组织或细胞系。还要考虑偶然的不受控制实验因素也可能影响表达：例如空气湿度，甚至实验室的噪音水平。目前建立一种结构能对将来实验设计的所有细节进行描述显然是不可能的。比较现实的解决办法是大部分采用自由文本描述实验，同时尽可能加上有实用价值的结构。DNA芯片实验的标准注释必须采用一致的术语，这有待时间去发展。但目前，就应采用尽可能合理的标准用于DNA芯片数据及其注释。

标准化的基因表达公共数据库要有五类必要的信息：

（1）联系信息：提交数据的实验室或研究人员的信息。

（2）杂交靶探针信息：对阵列上的每个“点”，应有相应的DNA序列在公共数据库中的编号。对cDNA阵列，克隆识别号（如IMAGE clone_id）应给出。

（3）杂交样本：细胞类型和组织来源用标准语言描述。常规诊断病理中使用的组织和组织病理词汇可被采用，还可采用胚胎发育和器官发生中的标准词汇。样本来源种属的分类学名称（如Saccharomyces cerevisiae,Homo sapiens），应当提供。对有些生物体如啮齿类动物和微生物，品系资料需要提供。关于实验中生物体状况的资料，如用药或未用药非常关键，也需提供。“肿瘤与正常”或不同发育阶段也该注明。细胞或生物体的遗传背景或基因型在特定例子中也应是重要的，如酵母基因缺失和转基因鼠。最后，由于组织处理的会引起差别，故应包括相关的详细处理方法。

（4）mRNA转录定量：这方面非常关键，很难通过一组“持家基因”做内参照进行标准化，有关的具体定量方法应提供。

（5）统计学意义：理想地，应经济合理地有足够的次数重复一个实验以便给出基因表达测定的变异情况，最好能提供合理的可信度值。

上述表达数据记录的前两个要求是简单的，第三个要求较困难需有标准术语协议，但这并不只是表达数据的要求，类似的要求已在公共序列数据库或专业化的数据库中得到成功解决。目前基因表达数据最富有挑战性的方面是最后两个方面。

现状和计划

几个大的芯片实验室如斯坦福大学和麻省理工学院Whitehead研究所等，在发展实验室内部数据库；大的商业化芯片公司如Affymetrix, Incyte,GeneLogic，正在开发基于Affymetrix芯片技术平台的商业化基因表达数据库。哈佛大学已经建立了一个的数据库，数据来自几个公共来源并统一格式。宾夕法尼亚大学计算生物学和信息学实验室正在整合描述样本的术语。目前至少有3个大的公共基因表达数据库项目：美国基因组资源国家中心的GeneX；美国国家生物技术信息中心（NCBI）的Gene Expression Omnibus;欧洲生物信息学研究所（EBI）的ArrayExpress.

欧美专家合作提出有关数据库的初步标准：实验描述和数据表示的标准；芯片数据XML 交换格式；样本描述的术语；标准化、质量控制和跨平台比较；数据查询语言和数据挖掘途径。（, 一种与目前推荐标准兼容的基因表达数据库。该数据库将利用来自合作方的的数据，可操作的数据库将于近期建立（

大规模基因表达谱数据分析方法

芯片分析能够检测不同条件下的基因转录变化，能够显示反映特征组织类型、发育阶段、环

境条件应答、遗传改变的基因谱。当芯片数据大量出现，产生了新的问题：如果将所有获得的数据集中起来，我们能否将未知功能的新基因归类到已知功能分类中？能否将基因表达与基因功能联系起来？能否发现新类型的共调控基因？能否从芯片表达数据中得出完整的基因调控网络？这些唯有通过计算的方法。

基因制图及测序所面临的问题与大规模基因表达分析的数学问题相比要小的多。这种新类型的表达数据使我们直接面对生物系统和基因组水平功能的复杂性，从生物系统单个成分的定性发展到完整生物系统行为的描述上来，这方面困难很多，目前只有很少的分析工具。聚类分析（clustering analysis）是大规模基因表达谱目前最广泛使用的统计技术，最近又发展了一种机器学习方法-支持向量机（support vector machines,SVMs）。这些分析方法均处在研究的初级阶段，随着大量数据及标准化数据库的出现，其它数据挖掘技术包括神经网络和遗传算法将在基因表达数据分析中得到应用。

聚类分析

聚类通过把目标数据放入少数相对同源的组或“类”（cluster）里。分析表达数据，（1）通过一系列的检测将待测的一组基因的变异标准化，然后成对比较线性协方差。（2）通过把用最紧密关联的谱来放基因进行样本聚类，例如用简单的层级聚类（hierarchical clustering）方法。这种聚类亦可扩展到每个实验样本，利用一组基因总的线性相关进行聚类。（3）多维等级分析（multidimensional scaling analysis,MDS）是一种在二维Euclidean “距离”中显示实验样本相关的大约程度。（4）K-means方法聚类，通过重复再分配类成员来使“类”内分散度最小化的方法。

聚类方法有两个显著的局限：首先，要聚类结果要明确就需分离度很好（well-separated）的数据。几乎所有现存的算法都是从互相区别的不重叠的类数据中产生同样的聚类。但是，如果类是扩散且互相渗透，那么每种算法的的结果将有点不同。结果，每种算法界定的边界不清，每种聚类算法得到各自的最适结果，每个数据部分将产生单一的信息。为解释因不同算法使同样数据产生不同结果，必须注意判断不同的方式。对遗传学家来说，正确解释来自任一算法的聚类内容的实际结果是困难的（特别是边界）。最终，将需要经验可信度通过序列比较来指导聚类解释。

第二个局限由线性相关产生。上述的所有聚类方法分析的仅是简单的一对一的关系。因为只是成对的线性比较，大大减少发现表达类型关系的计算量，但忽视了生物系统多因素和非线性的特点。

斯坦福大学的Michael Eisen开发的Windows平台免费芯片数据分析软件CLUSTER和TREEVIEW，采用配对平均连锁（pairwise average-linkage）聚类分析。这种方法中，每个不同的基因与其它的基因比较，鉴定最相关的基因对。这种基因对的数据用平均数替代，再重新计算关系矩阵，不断重复这个过程。TREEVIEW对CLUSTER计算结果进行图形输出，将芯片中的每个基因的表达比值用彩色方块表示。

尽管CLUSTER软件易于使用且直观，但其算法仍有缺陷之处：实际数据由每次重复的平均数据替代；相似性测定的选择（相关性/Eluclidean距离）；将等级模型用于非等级过程；成对比较矩阵的计算负担。因此，出现了其它方法，包括自组织图（self organizingmaps,SOMs），二进制决定-退火算法（binary deterministic-annealing algorithm）,k-means聚类等。Tamayo等提供Windows平台的SOMs软件包。

CLUSTER和TREEVIE下载网址：

基于知识挖掘的机器学习方法

最近发展了一种的有监督的机器学习方法-支持向量机（support vector machines,SVMs）来分析表达数据，它通过训练一种“分类器”来辨识与已知的共调控基因表达类型相似的的新基因。与经典的无监督聚类方法（unsupervised clustering）和自组织图（self-organizing maps）

不同，该方法建立在已有的知识上并有改进现有知识的潜力。

无监督的聚类方法，例如层级（hierarchical）和K-means聚类，假设每个基因仅属于一“类”（cluster）。这在生物学意义上当然不是真实的。而且，事实上同一类基因不是必然意味着有相似的表达类型。比如，k-means聚类方法事先指定产生的“类”的数量及并将每个基因放在其最优“类”，并不总是有意义。需要对类（cluster）进行质量评价，“类”的“严谨性”和外围基因的存在（如果存在，它们与下一类的接近度）以及一组核心特征基因应在质量上保证。最重要的是应考虑“类”是否有生物学意义。

与无监督的方法产生基因的“类”相比，有监督的学习方法是向已知的“类”学习。训练者必须提供SVMs以每个“类”正反两方面的例子。SVMs提供一种层级的方法来分析芯片数据。首先，对每个基因，应询问最近的邻居是否它与它们的关系是有生物学意义的。其次，对已知共调控基因，应该询问它们的表达类型是否相似，如果是这样，还有哪些其它的基因有相同类型。这些在监督阶段可通过SVMs或优化的SOMs来判断。第三，应该通过无监督的学习方法进行基因分类并询问是否聚类有生物学意义并且包括外围基因。最后，“类”可通过每个无监督的“类”的核心基因训练SVMs的方法来检测和优化。

可视化

大规模基因表达数据挖掘另一重要方面是发展有力的数据可视化方法和工具。已经发展了用简单图形显示提供聚类结果的途径，如上述的TREEVIEW软件。对大规模基因表达原始数据的进行不失真的可视化并链接的标注过的序列数据库，可为基因表达分析提供非常有价值的工具，有助于从新的视角看待基因组水平的转录调控并建立模型。

基因组水平蛋白质功能综合预测

蛋白质之间的功能联系

基因组测序计划在产生完全的组成多个亚单位装配和信号通路的蛋白质列表方面取得里程碑式的业绩。这些装配和通路现在必然被制图，Marcotte等和Enright等在此方面走了显著一步。这两个研究小组发展了不是通过氨基酸序列相似性比较的其他特性联系起蛋白质的计算方法。通过比较系统发育（进化）谱和表达类型，以及通过分析结构域融合（domain fusions）新方法识别在代谢通路、信号通路或结构复合体上功能相关的蛋白质。

酵母未定性蛋白大约一半总蛋白数约四分之一可用此方法进行功能注释。因为不依赖于直接的序列相似性，这种方法可预测与已知功能蛋白质缺乏同源性的蛋白质功能。将会发现它们在基因组学中的许多应用，与大规模蛋白质功能实验互为补充。

构建通路和专配有用模型的信息来自实验，最重要的通过蛋白质组学和结构基因组学。蛋白质组学的目标是对所有的蛋白质和蛋白相互作用进行鉴定和定性。它包括采用大规模实验方法如双杂交系统（two-hybrid system）、质谱法(mass spectrometry,MS)、二维凝胶电泳（2D PAGE）和DNA芯片杂交（DNA microarray hybridization）。任务大小和复杂性可由下面的假定理解：每个蛋白质有5-50个功能连锁，结果在一个酵母细胞中就有30,000-300,000个连锁。虽然实验已确定了约30%的酵母的功能，但是它们有时不是迅速廉价的，且不完全。因此需要用计算的方法来预测功能。

计算方法传统上预测功能是通过与性质明确蛋白质的序列相似性比较。这样标注的可行性是因为进化产生享有共同祖先的的同源性蛋白家族，因此有相似的序列、结构，经常还有功能。蛋白质比较允许对酵母另30%的蛋白质功能进行研究。但是，通过同源性进行功能预测受两方面的因素制约。首先，它只能用于与已知功能蛋白质有同源性的未知蛋白质的功能预测。其次，不是总清楚匹配的蛋白质何种功能特性为其共享，尤其对那些距离较远的匹配。 Marcotte等和Enright等并未受此限制，因为他们不依赖与未知蛋白质与已知功能蛋白质的序列相似性。而代替的是，将同样通路和装配的蛋白质分组，定义为“功能连锁”（functionally

公共数据库(三)
医院公共数据库结构

一、公共表

二、住院收费部分

第1页

第2页

三、住院药房部分

四、药库部分

第3页

第4页

五、门诊收费部分

第5页

公共数据库(四)
世界各国公共数据开放现状

世界各国公共数据开放现状

公共数据是国家的重要财产，用好公共数据有利于推动经济发展、提高企业经营效率和国民生活质量，目前世界各国公共数据向企业和市民开放的趋势正在日益加强。

美国在2009年设立“data.gov”门户网站，将政府和主要州、城市等持有的公共数据对外公开。英国和巴西等50多个国家联合建立开放政府伙伴关系，按计划有序公开重要的政府公共数据。欧盟从2003年开始着手公共数据公开，同年颁布的《欧盟指令》指出，成员国公共机构持有的数据需以有利于二次利用的形式对外公开，企业可将公共数据用于商业目的。2007年，欧盟规定各国需共享地图等空间信息，2011年欧盟设立公共数据网站，提出了《欧盟开放数据战略》。

英国2010年开设“data.gov.uk”网站，试水公共数据开放，政府规定各部委需公开重要公共数据，政府财政支出、犯罪高发区域、市政工程施工等与市民生活密切相关的信息需优先公开。法国在2010年成立专门组织“ETALAB”负责推进公共数据公开，并负责协调各个部委间与数据公开相关的事宜。巴西在2012年颁布《信息自由法令》，法令明确规定公共机构需公开数据，以提高政治的透明性和行政效率。

与其他发达国家相比，日本的公共数据开放进程较慢，近年来日本各部委和民间团体等都在加速推进公共数据开放。

日本2004年制定《行政信息电子公开基本方针》，日本各部委基于此方针将各自持有的部分公共数据在网站上公开，但是由于未涉及重要数据且形式不统一，公开的数据未在民间得到有效利用。2012年7月，日本的《电子行政开放数据战略》指出需以便于二次利用的数据形式公开数据，同时兼顾商业利用，消除公共数据在商业利用中的障碍。由内阁官房和经济产业省、总务省主导战略实施，内阁官房负责数据标准化方面的工作并提供使用公共数据所需的工具。日本经济产业省已先于其他部委实施公共数据对外公开，并提出“DATA METI”构想。在实验性地进行数据开放后，经济产业省还将与其他部委、地方政府共享数据开放的经验，开设网站公开各种统计信息、政策数据，并提供相应的工具和应用程序。总务省将构筑融合医疗、农业、行政等不同领域数据的信息合作平台，

以提供新的数据利用服务，外界可以利用应用程序获取各种数据，而且还将面向交通和灾害领域提供各种数据应用服务。

除政府部门外，民间团体和地方政府也在积极推进公共数据的灵活利用。2012年7月，51个企业、团体和6个地方政府共同组建开放数据流通促进联盟，旨在通过产学官合作推进公共数据的有效利用。联盟设置三个委员会，负责拟定公共数据利用所需技术、许可以及公共数据普及等事宜，对于已经公开的公共数据，需建立可二次利用的机制和许可体系，尽快建立可自由使用的公共数据环境。

2012年7月日本非盈利性机构open knowledge foundation（OKF）诞生，旨在促进公共数据的有效利用，其开发的开源软件CKAN对于构筑地方政府的公共数据门户网站起到重要支撑作用。

福井县鲭江市被称为“数据城市鲭江”，该市积极推进数据公开，人口、气温等统计信息以及市政设施等信息都以“XML”形式统一对外公开。神奈川县横滨市于2012年底专门成立公共数据应用委员会，与大学、科研机构和市民组织联合探讨如何利用公共数据为市民和企业提供新的公共服务。

公共数据库(五)
公共基础知识-数据库篇

答案：C 2012-9

8. 一个教师可讲授多门课程，一门课程可由多个教师讲授。则实体教师和课程间的联系是（）答案：D 2011-3

A. 1∶1联系 B. 1∶m联系 C. m∶1联系 D. m∶n联系

（8）一个工作人员可以使用多台计算机，而一台计算机可被多个人使用，则实体工作人员、与实体计算机之间的联系是______。答案：C 2010-9

A）一对一 B）一对多 C）多对多 D）多对一

（8）一间宿舍可住多个学生，则实体宿舍和学生之间的联系是（）。答案：B 2008-9

A）一对一 B）一对多 C）多对一 D）多对多【公共数据库】

（4）在数据库技术中，实体集之间的联系可以是一对一或一对多的，那么“学生”和“可选课程”的联系为。答案：多对多 2009-9。

答案：

A 2012-9

（6）连接

（10）有三个关系R、S和T如下：【公共数据库】

则由关系R和S得到关系T的操作是______。答案：A 2010-9

A）自然连接 B）交 C）投影

（6）有三个关系R、S和T如下：

则由关系R和S ）答案： D 2012-3

A）自然连接 B）并 C）交

9、有三个关系R、S和T如下 D）并 D）差【公共数据库】

则由关系R和S得到关系T的操作是（）。答案：B 2011-9

A)自然连接 B)差 C)交 D)并

（10）有两个关系R和T如下：

则由关系R得到关系T的操作是（）答案：A 2010-3

A）选择 B）投影 C）交 D）并

(9)有两个关系R,S如下：

由关系R通过运算得到关系S,则所使用的运算为（）答案：B 2009-3

A)选择 B)投影 C)插入 D)连接

（10）有三个关系R、S和T如下：

由关系R和S通过运算得到关系T，则所使用的运算为（）。答案：D 2008-9

A）笛卡尔积 B）交 C）并 D）自然连接

9、有三个关系R、S和T如下：

R S T

由关系Ｒ和S通过运算得到关系T，则所使用的运算为（）答案：D 2008-3

A）并 B）自然连接 C）笛卡尔积 D）交

10.有三个关系R,S,T 如下：

其中关系T由关系R和S通过某种操作得到，该操作称为（）。答案 D 2009-9 A.选择 B.投影 C. 交 D. 并

9. 有三个关系R、S和T如下：

则由关系R和S得到关系T的操作是（）答案：C 2011-3 A. 自然连接 B. 交 C. 除 D. 并

（9）数据库设计中反映用户对数据要求的模式是______。答案：C 2010-9

A）内模式 B）概念模式 C）外模式 D）设计模式

数据库系统的3级模式

①概念模式，也称逻辑模式，是对数据库系统中全局数据逻辑结构的描述，是全体用户（应用）公共数据视图。一个数据库只有一个概念模式；

②外模式，外模式也称子模式，它是数据库用户能够看见和使用的局部数据的逻辑结构和特征的描述，它是由概念模式推导而出来的，是数据库用户的数据视图，是与某一应用有关的数据的逻辑表示。一个概念模式可以有若干个外模式；

③内模式，内模式又称物理模式，它给出了数据库物理存储结构与物理存取方法。内模式处于最底层，它反映了数据在计算机物理结构中的实际存储形式，概念模式处于中间层，它反映了设计者的数据全局逻辑要求，而外模式处于最外层，它反映了用户对数据的要求。

（4）在下列模式中，能够给出数据库物理存储结构与物理存取方法的是（）答案：B 2012-3

A）外模式 B）内模式 C）概念模式 D）逻辑模式

8、数据库系统的三级模式不包括（）答案：D 2011-9

A)概念模式 B)内模式 C)外模式 D)数据模式

7. 负责数据库中查询操作的数据库语言是（）答案：C 2011-3

A. 数据定义语言 B. 数据管理语言 C. 数据操纵语言 D. 数据控制语言数据库管理系统一般提供下列几种数据语言（data language），分别是：

①数据定义语言（Data Definition Language，DDL）：负责数据的模式定义和数据的物理存取构建。

②数据操纵语言（Data Manipulation Language，DML）：负责数据的操纵，包括查询及增加、删除、修改等操作。

③数据控制语言（Data Control Language，DCL）：负责数据完整性、安全性的定义与检

查以及并发控制、故障恢复等功能，包括系统初始程序、文件读/写、存取路径管理程序、缓冲区管理程序、安全性控制程序、完整性检查程序、并发控制程序、事务管理程序、运行日志管理程序以及数据库恢复程序等。

④还有事务控制语言（TCL）。

（5）在数据库管理系统提供的数据定义语言、数据操纵语言和数据控制语言中，负责数据的模式定义与数据的物理存取构建。答案：数据定义语言 2008-3

（3）数据库管理系统提供的数据语言中，负责数据的增、删、改和查询的是。答案：数据操纵语言或 DML 2012-3

（7）层次型、网状型和关系型数据库划分原则是______。答案：D 2010-9

A）记录长度 B）文件的大小 C）联系的复杂程度 D）数据之间的联系方式

数据库管理系统所支持的数据模型分为3 种：层次模型、网状模型和关系模型。划分原则是实体和联系。

层次模型：用树形结构表示实体及其之间联系的模型称为层次模型，上级结点与下级结点之间为一对多的联系

网状模型：用网状结构表示实体及其之间联系的模型称为网状模型，网中的每一个结点代表一个实体类型，允许结点有多于一个的父结点，可以有一个以上的结点没有父结点

关系模型：用二维表结构来表示实体以及实体之间联系的模型称为关系模型，在关系模型中把数据看成是二维表中的元素，一张二维表就是一个关系

10. 定义无符号整数类为UInt，下面可以作为类UInt实例化值的是（）答案：B 2011-3

A. -369 B. 369 C. 0.369 D. 整数集合{1,2,3,4,5}

解析：A项为有符号型，C项为实型常量，D项为整数集合。

（9）数据库设计中，用E-R图来描述信息结构但不涉及信息在计算机中的表示，它属于数据库设计的（）答案：B 2010-3

A）需求分析阶段 B）逻辑设计阶段 C）概念设计阶段 D）物理设计阶段

（4）在将E-R图转换到关系模式时，实体和联系都可以表示成。答案：关系 2012-3 关系模式采用二维表来表示，一个关系对应一张二维表。可以这么说，一个关系就是一个二维表，但是一个二维表不一定是一个关系。

(10)将E-R图转换为关系模式时,实体和联系都可以表示为（）答案：C 2009-3

A)属性 B)键 C)关系 D)域

5. 在关系A（S，SN，D）和关系B（D，CN，NM）中，A的主关键字是S，B的主关键字是D，则称_______是关系A的外码。答案：D 2011-3

在二维表中惟一标识元组的最小属性值称为该表的键或码。二维表中可能有若干个健，它们称为表的侯选码或侯选健。从二维表的所有侯选键选取一个作为用户使用的键称为主键或主码。表 A 中的某属性集是某表 B 的键，则称该属性值为A的外键或外码。

8、在数据库设计中，将E—R图转换成关系数据模型的过程属于（）答案：C 2008-3

A）需求分析阶段 B）概念设计阶段 C）逻辑设计阶段 D）物理设计阶段

(5)在E-R图中，图形包括矩形框、菱形框、椭圆框。其中表示实体联系的是框。答案：菱形框 2009-3

9.在E-R图中，用来表示实体联系的图形是（）。答案：C 2009-9

A.椭圆形 B.矩形 C.菱形 D .三角形

E-R图中，用矩形表示实体，用椭圆表示属性，用菱形表示联系

----------------------------------------------------------------------------------------------------------------------

（5）在满足实体完整性约束的条件下（）答案：A 2012-3

A）一个关系中应该有一个或多个候选关键字 B）一个关系中只能有一个候选关键字

公共数据库(六)
数据库基础知识

一、数据库基础知识 ............................................................................... 1

二、Access 2003数据库对象 ................................................................... 5

三、数据表 ................................................................................................ 5

四、查询 .................................................................................................... 7

五、窗体 .................................................................................................... 8

六、报表 .................................................................................................. 10

七、数据访问页 ...................................................................................... 10

八、宏 ...................................................................................................... 11

九、模块和VBA（Visual Basic for Application）编程 ..................... 12

十、公共基础知识 .................................................................................. 15

一、数据库基础知识

1、数据是描述客观事物及其活动的并存储在某一种媒体上能够识别的物理符号。信息是以数据的形式表示的，数据是信息的载体。分为临时性数据和永久性数据。

2、数据处理的目的是为了从大量、原始的数据中抽取对人们有价值的信息。

3、数据库是以一定的组织方式将相关的数据组织在一起存放在计算机外存储器上（有序的仓库），并能为多个用户共享与应用程序彼此独立的一组相关数据的集合。

4、数据库管理系统（DBMS ,database management system，数据

库系统的核心）是软件系统。数据库管理系统提供以下的数据语言：数据定义语言（DDL），负责数据的模式定义与数据的物理存取构建；数据操纵语言（DML），负责数据的操纵，如查询、删除、增加、修改等；数据控制语言，负责数据完整性、安全性的定义与检查，以及并发控制、故障恢复等。

5、数据库系统（DBS）包括5部分：硬件系统、数据库集合（DB）、数据库管理系统(DBMS)及相关软件、数据库管理员（DBA ,database administrator）和用户（专业用户和最终用户）。需要操作系统的支持。

6、数据库管理技术的发展：人工管理、文件管理（数据冗余大、数据的不一致性、数据关联差）、数据库管理、分布式数据库管理、面向对象数据库管理。根本目标是解决数据共享的问题。

7、数据库系统的特点：数据结构化(是数据库系统与文件系统的根本区别)，共享性高、冗余度低、易于扩充，独立性强（物理独立性和逻辑独立性），数据由DBMS统一管理和控制。三级模式（概念模式、内模式和外模式）和二级映射（外模式/概念模式的映射、概念模式/内模式的映射）构成了数据库系统的内部的抽象结构体系。内模式又称物理模式，给出了数据库的物理存储结构与物理存取方法；概念模式是数据库系统中全局数据逻辑结构的描述，是全体用户的公共数据视图，主要描述数据的概念纪录类型以及它们之间的关系，还包括数据间的语义约束；外模式也称子模式或用户模式，它由概念模式推导而出的，在一般DBMS中提供相

关的外模式描述语言（DDL）

8、数据库设计一般以过程迭代和逐步求精为基本思想，是应用面向数据的方法和面向过程的方法进行的，在已有数据库管理系统的基础上建立数据库。设计步骤如下：需求分析—概念设计—逻辑设计（任务是将E-R图转换为关系模型，实体和联系都可以表示成关系）—物理设计（前四个为数据库生命周期的设计阶段）—编码—测试—运行—进一步修改（后四个为数据库生命周期的实现阶段）。

需求分析这一阶段常用结构化分析方法（自顶向下，逐层分解）和面向对象的方法，常用到的两种工具为数据流程图和数据字典。基本任务是问题识别（包括功能、性能、环境、用户界面的需求，确定软件系统功能）、分析与综合（导出软件的逻辑模型）、编写文档（需求规格说明书、初步用户手册、确认测试计划、修改完善软件开发计划）。

9、数据模型：数据相互依存的描述，组织结构满足某一数据特性。任何一个数据库管理系统都是基于某种数据模型，是数据库的核心。分类：E-R模型（表示用矩形图表示实体集、用椭圆形表示属性、用菱形表示联系）、层次数据模型（所属关系），网状数据模型（交叉渗透），关系数据模型（用二维表来表示实体与实体间联系，并列关系）。在关系模型中：关系、元组、属性（在同一个关系中，元组和属性不允许相同），域：属性的取值范围，主关键字（主键）：能唯一标识关系中每一个元组（无重复）的属性或属

性集，在任何关系中至少有一个，可以定义三种组关键字：单子段、多字段及自动编号，如学号；外部关键字（外键）：用于连接另一个关系，并且在另一个关系中为主键；候选关键字也能起到唯一标识一个元组的作用，在满足实体约束的条件下，一个关系中应该至少有一个或多个候选关键字。传统的集合运算包括并、差（从R中去掉S中也有的元组，由只属于R的元组组成）、交；专门的关系运算包括选择（找出满足给定条件的元组的操作，从行的角度）、投影（指定若干属性组成新的关系，从列的角度）{二者操作对象只是一个表}，联接（将两个关系模式拼接成一个更宽的关系模式，生成的新关系中包含满足联接条件的元组）、自然联接（去掉重复属性的等值连接，按照字段值对应相等为条件进行的联接为等值联接，最常用的连接运算）；两个关系的笛卡尔乘积是指一个扩展表。在日常生活中：二维表、行、列。在关系数据库中（Access）:数据表、纪录（数据，用于表示实体，数据表视图，每一个数据不可再分）、字段(重要，决定纪录，只能表示实体的某个属性，设计视图，原始数据和基本数据元素，如出生日期和年龄字段就不能同时出现)，一个关系的逻辑结构就是一个二维表。

10、属性指实体具有的某种特性。如学生实体，可用学号、姓名等来刻画。表之间的相关性（关联），通过同名同属性的字段建立的。

11、联系：一种是实体内部之间的联系，即字段间的联系；一种是实体与实体间的联系，即记录间的联系。经过抽象画后，可归结

为三类：一对一联系（可以合并），如学校和校长之间的关系；一对多联系（常用，且纪录不重复的为父表）：关联字段，确定地位，索引（目的是加快对表中纪录的查找或排序，太多索引会影响数据的更新操作，一般为不超过3个最多为5个），建立关系，如学校和教师之间的关系；多对多联系：如学生与所选课程之间的关系。

二、 Access 2003数据库对象

1、

2、

3、

4、所有的对象都存放在同一个数据库文件（扩展名为.mdb）中。表是数据库的核心与基础数据源。查询也是一种表，以表为数据来源的再生表，动态集合。窗体（图形界面）、报表（通过打印机数据输出的一种形式）、数据访问页。

5、宏：一个或多个操作命令的集合，其功能是使操作自动化；模块：是用将Visual Basic for Applications声明和过程作为一个单元进行保存的集合，是应用程序开发人员的工作环境。

三、数据表

1、数据类型:文本（字段大小默认是50个字符，最长为255个字符，一个汉字字符占2个字节，一个英文字符占1个字节）、备注（最长为65535个字符）、数字、日期/时间、货币（长度为8B）、自动编号(长度为4B)、是/否（长度为1B）、OLE对象（链接或嵌入如word文档、excel电子表格、图像、声音和其他二进制数据，最大可为1GB）、超链接、查阅向导。

●【往下看，下一篇更精彩】●

上一篇： 2016年小升初兴华成绩查询

下一篇： 2016小学2年级期末考试试卷

公共数据库

公共数据库(一)华东师范大学公共数据库入口：http://www.idc.ecnu.edu.cn/

公共数据库(二)基因表达谱公共数据库

公共数据库(三)医院公共数据库结构

公共数据库(四)世界各国公共数据开放现状

公共数据库(五)公共基础知识-数据库篇