出生缺陷是影响中国人口和社会可持续发展的重大公共卫生问题和社会问题。中国出生缺陷监测中心数据表明中国是出生缺陷高发国家,每年约有80-120万例出生缺陷发生,重大出生缺陷发生率高于世界平均水平,特别是在农村地区或西部贫困地区。据不完全统计中国每年因神经管缺陷造成的直接经济损失超过2亿元,唐氏综合征的经济损失超过70亿元,先天性心脏病的经济损失高达130亿元。
中国过去20年的出生缺陷监测数据表明,全国各地区在适宜干预技术的研究、应用和推广方面的发展极其不平衡,且出生缺陷的发生存在病种、地区、人群间的差异,对特异性和普适性出生缺陷干预技术的需求并存。因此,利用中国已建立的长达20年的连续监测数据库和完善的大型流行病学调查现场,更准确地摸清全国出生缺陷发生状况和变化规律,了解不同地区的出生缺陷干预措施实施情况,掌握影响干预效果的医学和社会学因素,评价干预效果,是开展出生缺陷干预并获取最大干预效果的必要前提。
数据仓库和数据挖掘是信息领域中近年来迅速发展起来的新技术。在充分利用已有数据资源的基础上,通过高效算法的设计从大规模数据库中提取知识、挖掘规律、辅助决策等,是涉及数据库技术、统计分析技术、人工智能、模式识别、高性能计算、神经网络和数据可视化等的前沿交叉学科,同时也是未来信息基础设施的核心技术。
对中国丰富而宝贵的出生缺陷监测信息资源建立数据仓库,进行再开发和深层挖掘是对中国出生缺陷研究资源的有效保护、利用和提升,更是中国出生缺陷研究领域中一项迫切需要开展的重要任务。
四川大学计算机学院数据库与知识工程研究所、华西医科大学出生缺陷监测中心联合承担国家“十一五”科技攻关项目“重大出生缺陷与遗传病防治研究”,旨在通过数据仓库的创建和“干预规则”的挖掘探索中国出生缺陷(尤其是重大出生缺陷)在时间、人群、地域、环境等维度组成的空间中分布特征和变化趋势;挖掘导致出生缺陷发生的高危因素,发现抑制出生缺陷发生的制约因素和干预措施,分析历史出生缺陷干预措施和干预效果的相关性,揭示其中蕴含的干预动力学规律;对特定的干预措施有效性和代价进行预测和评估,提出可行和有效的干预措施,明确现有缺陷干预体系暴露的“盲点”和“弱点”,确定出生缺陷干预的优先领域,为降低中国出生缺陷的发生率提出新思路和新途径,为新的全国范围出生缺陷防御体系构建提供决策参考。
数据的特殊性和特殊需求
项目数据 来自中国出生缺陷监测中心的历史数据包含两种类型,分别是医院报表和婴儿畸形数据表。原始采集数据以Excel标的形式提供。畸形表详细描述了每个畸形儿的基本信息、缺陷类型、致畸因素等内容,院报表描述,某地区一段时间范围内出生缺陷的汇总信息。
候补数据 随着项目的进展,尤其是出生缺陷干预的预实施和干预效果随访的开展,项目组将逐步得到出生缺陷干预数据、干预效果数据和干预成本效益等信息。届时,项目组将把这些数据纳入统一的数据仓库视图。
数据特点 出生缺陷监测数据具有待分析维度多、组织结构不规范、编码复杂等特点。
项目的特殊需求 本课题的目标是对中国出生缺陷监测数据进行有效组织和建模,基于数据仓库开发全国出生缺陷监测数据知识发现系统,研究出生缺陷在时间、人群、地域、环境等维度组成的空间中分布特征和变化趋势,挖掘导致出生缺陷发生的高危因素,发现抑制出生缺陷发生的制约因素和干预措施,分析历史出生缺陷干预措施和干预效果的相关性,揭示其中蕴含的干预动力学规律并对特定的干预措施有效性和代价进行预测和评估,提出可行和有效的干预措施。
总之,数据仓库是面向主题的、集成的、时变的和非易失的单一站点的一致数据存储。它能够将分布在不同的逻辑物理位置上的各种数据进行加工,形成多维的、面向分析的环境,以更好的为决策者提供各种有效的数据分析,起到决策支持的作用。
数据仓库的设计考虑
建模考虑 在清晰了解出生缺陷数据处理特殊需求之后,下一步要做的是数据仓库模型的设计。数据仓库建模事关后期在线分析处理(OLAP)和在线分析挖掘(OLAM)的实现,又和最终用户的使用细节密切相关,所以是整个项目生死攸关的重要问题。在这一步中,结合具体的项目环境,主要需要考虑如下四个方面的问题。
1、数据仓库模型是否支持全部应用模式;
2、数据仓库模式的设计是否统筹考虑出生缺陷数据处理效率和数据粒度的冲突问题;
3、数据模式的可扩充性;
4、数据仓库模式的设计应提供足够的冗余度实现历史数据组织和操作型数据的并行。
建模方法 “实体-联系”数据模型是联机事务处理(OLTP)通用数据模型。然而,数据仓库需要支持联机分析处理(OLAP),因而必须采用多维数据模型。该模型有三种形式:星形模型、雪花模型、或事实星座模型。这里只介绍最基本的星型模型。星形模型的数据仓库包括:一个大的、包含大批数据、不含冗余的中心表(事实表),一组小的附属表(维表),每维一个。在这种模式中,维表围绕中心表显示在射线上,形状很象星云爆发并由此得名。星形模型图如图1所示。
| 共3页: 1 [2] [3] 下一页 | ||
|