关系经济人类预测化学自然
中准网
自然科学
知识物理
化学生物
地理解释
预测理解
本质社会
人类现象
行为研究
经济政治
心理结构
关系指导
人文遗产

从数字化走向数据化

10月2日 望北海投稿
  【摘要】大数据背景下,我们应以档案著录工作为基础,从档案全文数据库的建设寻找切入点和突破口,从而实现全国全网络的档案大数据平台的构建。
  【关键词】档案大数据;数据化;档案管理工作
  一、世界性的大数据之战
  (一)大数据的爆发。图灵奖得主、关系数据库的鼻祖詹姆斯尼古拉格雷,曾在2007年留下了演讲稿《第四范式:数据密集型科学发现》。他科学地总结并预测了人类科学发展的四个范式,描绘了自己关于第四范式的愿景:数据量的急速增长,计算机将不仅能进行动态模拟,还能进行分析总结,得出理论,即数据密集型科学。如今以大数据为代表的数据密集型科学的发展受到了全世界的追捧,海量信息的汇集,动态性数据的汇总使人们全方位地掌握了所要研究领域的概况及发展趋势。各个行业也在争相涉足大数据的研究领域中,信息资源发生了爆炸性的膨胀。
  (二)档案胀库。随着电子文件的理念被逐步推广,人们也越来越重视档案的管理工作,但没有统一规范的制度,也没有构建全国性档案信息化数据,使得档案数据形成胀库现象。和传统的因档案库房容量所限而造成的档案库房的胀库现象相似,档案数据库胀库有着许多不同的表现形式,总体来说就是无法增加新的档案数据,或者无法进行有效的查询检索和统计分析。出现这种现象的原因可以概括为技术性因素。20世纪80、90年代的计算机记录采用二维数据表格的形式,例如每个汉字由两个字节的长度表示。在当时的技术环境下,不能预测及生产出符合更大数据记录内存的软件和硬件。这样的条件下,档案用户直接参与利用的信息数据库和档案工作人员后台管理的档案信息储存数据库都会产生档案胀库现象。
  (三)档案大数据。大数据顾名思义指不采用传统的随机抽样调查分析的方法抽取数据,而是将所有的数据聚集汇合。通常我们将大数据的特点归纳为4V:Volume(数据量巨大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value(价值密度低)。即数据量巨大,数据类型繁多,处理速度快,价值密度低。
  2012年在瑞士举行的达沃斯论坛发布了《大数据,大影响》的报告。这次的报告将数据归为一种新的经济资产类别,探讨了在新的数据生产方式下如何更好地利用庞大的数据产生良好的社会效益。2012年,奥巴马政府集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,公布了旨在提高和改进人们从海量信息获取有效信息能力的大数据的研究和发展计划。此次大数据计划特别提到了美国国家档案与文件署(NARA),将档案部门的大数据上升到战略层面。对比我国国家档案局,尚未提出相关的具体政策或规划,所以我们作为档案人,有义务在档案大数据的相关问题上做出思考。
  二、从数字化走向數据化
  (一)数字化和数据化。大数据的背景下,各地区各机构的档案馆(室)的档案数量将急剧增加。所以大数据的提出对档案信息化工作面临新的机遇与挑战,促使档案信息化建设面临着转型与创新。我们应注意的是,档案大数据不是我们以前强调的单纯意义上的档案数字化,我们应该把档案管理的思路从数字化向数据化转化。
  所谓的数字化指得是将信息转变为0和1所表示的二进制数据并予以储存。档案的数字化既包括档案目录的数字化和档案全文的数字化,它是直接区分于传统纸质形式记录的档案形式。事实上档案的大数据是以数据为基准的研究模式而不是简单地录入档案目录和扫描全文,这样的数字化只是死的档案信息,并不能作为大数据环境下的档案研究标准。
  我们必须将死的档案扫描全文和档案目录变为活的档案大数据,这就需要对档案进行数据化,进行档案全文的著录工作,对文本和图像中的数字内容进行识别、分类、著录和标引的数据化工作,从而便于人们利用检索词检索出合适的档案信息。
  (二)档案数据化的实现。具体有以下几个方面:
  1。档案著录。20世纪80年代,传统的著录形式逐渐向现代著录的方式转变,代表性的美国、英国以及加拿大等国率先采用了计算机著录的方式对档案信息进行著录。档案数据化的实现必须依靠档案著录,档案著录是基础性的至关重要的工作环节,档案著录质量的好坏将直接关系到档案信息的交换、互联互通、实现信息资源共享和社会利用,这样就为档案数据化的实现打好了基础。我国目前采用的档案著录规则是《DAT181999档案著录规则》,该标准距今已经有十几年的历史,虽然此后也发布了一些档案著录的相关细节规则,但是相比较国际档案理事会1999年公布的第二版国际档案著录标准ISAD(G)还是存在一些不足之处。我国档案著录规则在操作上容易出现错误,例如规则中规定,档案主题标引可用主题词也可以用关键词。其次,我国档案著录规则的适用范围较小,国际档案著录标准要求对档案的内容特征、背景、系统来源等一一进行著录。最后,我国的档案著录规则不包含全宗和类别为对象的著录,而ISAD(G)规定的较为理想的著录,应由全宗级、案卷组合级、案卷级、文件组合级、文件级和分析级六个层次构成。对比发现,我国要想实现档案数据化,必须参照有关国际的档案著录规则规范对我国的档案著录规则进行修改,才能有效开展档案著录工作。
  2。档案全文数据库。全文数据库指得是集检索与文献全文提供于一体的网络性数据资源集合体。建立全文数据库既避免了人工查阅文献书目的繁琐,又简便了阅读文献的方式,便于为读者提供直接在线全文阅读的服务。档案全文数据库需要从包括软件硬件在内的各个方面入手来建立,大体上可以分为三个方面。第一,档案数据库的建设。(下转第145页)(上接第171页)档案信息数据库最终要满足不同层次、不同方面的利用者的利用需求,所以这些档案数据库的数据内容、网罗覆盖范围是衡量能否满足利用者需求的决定性因素。其中数据库的数量和质量都要满足大的要求。数据库应包括政治、经济、军事、文化教育等各方面内容、各个时期的档案,同时这些档案也应保证真实完整、有条理有顺序。第二,档案检索系统的建设。档案检索系统是用户查找利用档案的关键。档案检索系统的界面设计应简洁且内容覆盖全面,检索应有关键词检索、目录检索、主题检索等多种入口,以满足不同利用者的需求。第三,档案服务功能建设。我国的大多数档案检索系统在这点上做得不够全面,也没有真正树立起网上服务的理念。这里的服务功能建设指得是包括引导利用和互动交流的服务功能建设,不仅要提供网站自动的介绍服务功能,还应该提供人工在线交流服务,引导和帮助利用者在线获取档案信息。
  3。档案大数据平台模型构建。档案大数据是档案部门对庞大的档案信息进行有效管理的一种解决方法,档案数据化最终的理想目标是对其进行档案大数据平台模型的构建。在大数据时代,个人、企业和机构都会面临大数据的问题。一般的大数据平台构建大致分为基础层、管理层、分析层和应用层,这里我们应用到档案管理工作中,必须要考虑到档案管理工作的收集、整理、鉴定等八项工作在实际档案大数据平台模型构建中的对接问题,建立适合档案部门的大数据平台。
  基础层为档案大数据平台的运行提供基础支撑的作用,提供包括存储服务器、计算服务器等高性能硬件资源,数据库、模型库等全方位的的数据资源,以及平台和服务资源等软件资源。传统的档案管理工作的八项环节应当嵌入档案大数据平台的构建中,形成管理层。在这个层面上的构建应该作为一个单独的管理设计嵌入档案大数据的平台上,所以这也要求今后的档案管理工作具有统一的档案收集、整理、鉴定的数据化的规则。分析层是掌握档案智能数据的中心以及档案数据的高速网络心脏层。它以互联网的服务体系为基础,在此基础上对数据进行存储、处理、挖掘等分析。应用层是针对档案利用者的层面,档案大数据平台的构建最终目的是为了档案利用者获取档案信息。设计时应涵盖档案馆藏的所有种类和内容的大规模的档案数据,不仅应设计简单检索和高级检索的档案全文检索服务,还应该设计档案咨询等实时在线交流服务。
  (三)档案大数据的应用。档案数据化的实现为我们档案部门发挥效应带来了巨大的便利。放眼国外,已经有许多国家的档案部门开展了档案大数据的应用工作。2003年4月,美国国家档案馆(NARA)的获取档案数据库(AccesstoArchivalDatabases,简称AAD)在ERA项目的开发下正式运行。该档案全文数据库可以在线获取原生电子文件,方便了广大居民实时在线获取档案信息,掌握档案证据。到2005年,利用者已经达到了大约130万人,并通过AAD进行了约160万次成功的查询。居民们可以通过关键词检索、主題检索、目录检索等多种检索形式获取所需档案,也可以通过AAD工具栏、帮助(help)功能等了解如何查找获取档案数据。美国AAD建设给我国档案馆在线档案全文数据库建设的一个重要启示便是在线档案全文数据库建设应始终贯彻‘以用户为中心的理念,只有在这一理念的指导下才能对档案信息进行有效的数据化开发。
  近年来,随着世界经济和文化交流日益频繁,大数据不仅在国际上更是在我国的许多领域都有了收获颇丰的应用实例。我国医疗界的3521工程就是一个典型例子。3521工程是医疗档案大数据工程,旨在建设国家级、省级和地市级三级卫生信息平台。该平台建设有健康档案和电子病历两个基础数据库和一个专用网络,融合了我国绝大部分三甲医院和二甲医院的数据库信息和影像文件的数字化信息。这一医疗档案大数据的应用可以通过对庞大医疗数据的统计分析,分析预测慢性病、流行病的发展趋势并自动报警,为我国医疗事业的发展提供了有力的数据支持。
  【参考文献】
  〔1〕王学平。浅议我国档案数字化建设实践与发展策略〔J〕。档案学通讯,2011(6):5457。
  〔2〕张健。档案数据库胀库问题研究〔J〕。档案学通讯,2012(4):4951。
  〔3〕徐俊敏。我国档案数字化中档案著录问题探析〔J〕。兰台世界,2014(5):1,4。
  〔4〕应海燕、乐淑芳。《档案著录规则》适用性初探〔J〕。兰台世界,2006(17):2021。
  〔5〕连志英。以用户为中心的在线档案全文数据库建设初探以美国国家档案馆AAD为例〔J〕。浙江档案,2012(4):1113。
投诉 评论 转载

我的朋友我的朋友名叫程宇翔,他长得非常白,像雪一样的皮肤。个子高高的,像一个巨人。他上身穿着蓝色T恤,下身穿绿色的短裤,看起来十分帅气。程宇翔学习非常认真。上课老师提出十个问题,……张感人至深的照片因为爱所以欺骗看到流浪汉,小男孩给他送了一个大大的馒头,小男孩的背影让这个寒冷的冬天瞬间变得温暖起来。为了生活,她们背上重重的货物,看着路边的东西都舍不得买来吃,只为了让孩子过得更好。……曝希姆斯加盟广东宏远!场均22分16篮板朱芳雨开始发力进入了窗口期之后,多支球队开始调整外援,其中有传闻广东宏远会裁掉大外援埃利斯,毕竟他的能力堪忧,无法给球队提供帮助。当然,广东宏远资金并不富裕,所以也是寻找物美价廉的外援,根据……现在什么专业好哪些专业就业前景好每年都会有很多高考生面临着选择大学专业的难题,一是自己不太了解这些专业,二是这些专业中,哪些是比较好的,有前途的,其实对于这个问题,每个人都有自己的见解,这里来挑选一些比较理性……后勤个人工作总结格式篇【说明】后勤个人工作总结共含11篇,由好范文网的会员投稿推荐,小编希望以下多篇范文对你的学习工作能带来参考借鉴作用。第1篇:后勤个人工作总结这篇后勤个人工作总结范文……从数字化走向数据化【摘要】大数据背景下,我们应以档案著录工作为基础,从档案全文数据库的建设寻找切入点和突破口,从而实现全国全网络的档案大数据平台的构建。【关键词】档案大数据;数据化;档案管……易拉罐葡萄酒会取代传统的玻璃瓶葡萄酒吗易拉罐葡萄酒风靡欧美也是近几年的形势,主要还是从西方年轻人中逐渐形成消费群体,精明的欧美酒商,通过精美设计、别具一格、亮丽包装的易拉罐灌装葡萄酒,研究其携带方便、开盖简易、饮用……峡谷晚报历史第一AD选手Bang退役FPX官宣第五人离队大家好!欢迎收看峡谷晚报第320期!【全明星投票:Bin飞机一骑绝尘】咳咳,上单提莫打飞机!【FPX官宣shenyi离队】今日英雄联盟FPX战队官宣,队……脑萎缩最佳治疗方法特效中医治疗脑萎缩偏方脑萎缩是指由各种原因导致脑组织本身发生器质性病变而产生萎缩的一种现象;该病症的症状一般表现为痴呆、智能减退、性格改变、记忆及行为障碍;那么脑萎缩最佳治疗方法是什么呢?下面给大家……中方造句用中方造句大全(91)她说,莫方愿就联合国改革问题与中方保持沟通。(92)我们相信欧洲有能力、有智慧克服当前困难,走出危机,也希望欧方确保中方对欧投资的安全。(93)智方愿同中方……老人头痛原因及检查方法老人头痛的原因头痛是很常见的疾病,很多老年人不会把头痛当一回事,认为睡会觉歇一歇就会好。其实造成头痛的原因有很多,对于老年人更应该注意,及早查明造成头痛的原因,以免延误治……全网爆火的鲨鱼裤丑死了!巨巨巨显腿粗!弱弱问一句:冬天买条合适又好看的裤子,真的很难吗?我们买衣服时确实要面对一个残酷的现实:很多流行单品就是挑身材挑气质的,裤子太有说服力了。被全网猛夸的神裤,买了退退……
内蒙古多地拍摄到珍稀野生动物活动影像羊了个羊爆火!简游科技申请注册羊了个羊商标,国际分类为广告销董卿老公,百亿富翁密春雷失联,曝出已被经侦部门带走?只此青绿醉山河!爱上日照的理由很多,我独爱这一个!严监管之下的科研破局新兴的化妆品CRO能为行业带来什么?歧路旅人2评测永远的旅人iPhone15稳了?TypeC接口确认,但外观有点一言难尽中超升班马总经理新赛季目标保级俱乐部得学会如何挣钱靠极致回弹体感走跳10年!细数2023AdidasULTRADNF嘉年华后第1个涨价装备,改造史诗又稳了?高技攻永不过时长安区实现瞪羚企业零的突破中国好女婿变过街老鼠揭露资本家逐利背后的两面三刀
防护面罩的佩戴方法防护面罩怎么佩戴俄罗斯针对乌克兰和泽连斯基,为何不用斩首行动?刘恺威的沉浮史输了事业,赢了爱情登天路,踏歌行,弹指遮天我为小说狂遮天百虎围村是真的假的?揭秘虎王是否真实存在新冰箱第一次怎么去味(十分钟冰箱除异味)吃杏仁忌什么呢如何让宝宝养成爱喝水的习惯?儿童智能水杯有啥功能?村民注意了,全国村官监督电话公布与安妮宝贝有关的经典语录余生很贵和舒服的人在一起自然教学工作总结

友情链接:中准网聚热点快百科快传网快生活快软网快好知文好找菏泽德阳山西湖州宝鸡上海茂名内江三亚信阳长春北海西安安徽黄石烟台沧州湛江肇庆鹤壁六安韶关成都钦州