400-123-4657
DJ帕蒂尔讲如何更佳地利用公共和私有的数据,以及怎样维护数据免受欺诈。对华盛顿特区而言,数据科学早已不是新鲜事儿了,而DJ帕蒂尔( DJ Patil)的名号也早已为政府所熟悉,近日,白宫任命他沦为了全美首席数据科学家。早于在六年前,总统巴拉克奥巴马就许可启动了国家数据(Data.gov)网站项目,目的拒绝所有政府机构对外公开发表最少三组低价值的数据信息。
现在,这项任务必须帕蒂尔来负责管理了,他既要敦促政府各部门及时公开发表数据,又要同时保证信息准确无误。图片来源: DJ Patil帕蒂尔是一名资深的数据专家,曾在数个科技公司以及知名的格雷洛克风险投资公司(Greylock Partners)兼任顾问。
他此次重回华盛顿,首要任务乃是白宫发售的精准医疗计划。今年一月份,奥巴马政府月明确提出了这项斥资2.15亿美元的公共医疗预算案,目的通过收集患者的背景信息创建一个数据库,然后基于每位病人的基因、环境与生活方式,因人而异对症下药,最后由医疗机构设计出有个性化的医疗方案 ,该法案未来将会于2016年生效。该项目另一个极大的优势,乃是它需要有力地增进了癌症新疗法的发展,使其不仅能归功于科研工作者的近期研究数据,还能充份地统合了癌症患者的个人病情信息。
帕蒂尔必须担任起管理员的角色,要使各方在受隐私侵害的前提下,想要办法让研究员、身体健康中心与疾病患者之间做数据共享,将数据库的创造力充分发挥到淋漓尽致。同时,帕蒂尔还被任命为白宫科技政策办公室的数据政策副首席技术官。早在20年前,帕蒂尔第一次回到华盛顿特区,还只是一名马里兰大学的助理研究员。尽管只是一名具备博士学位的教职工,但帕蒂尔利用美国海洋和大气管理局的公开发表数据,有效地改良了气象的数值预报。
之后,他又在国防部一段时间地参予了社会网络的分析工作,负责管理找寻危害美国国家利益的潜在新的威胁。《科学美国人》幸运地邀到帕蒂来谈谈他的新工作。
全美首席数据科学家应该肩负的任务是什么?我想要说道,奥巴马总统在他的任期内从始至终都推崇着数据科学的发展,可以说道,他才是确实的全美首席数据科学家。他也是第一位明确提出用于数据分析来实地考察信息技术项目的总统,在2013年,他签订了一项行政命令,拒绝政府信息必需公开发表、可查询。
国家数据网之后反映了总统的远见卓识,让联邦政府、州政府甚至地方团体都获得了有效地的管理与监督。除了奥巴马政府制订的数据科学计划,你的其他工作是什么样的,比如创建国家数据网是吗?的确,国家数据网是这个可观项目的一部分。目前有三项最急迫的任务放在眼前。
第一,就是精准医疗计划的制订与完备。现代科学早已原始破解了人类基因组,而我们要做到的是把这些成果和数据科学的力量融合一起。
后者现在享有机器学习等新技术,还有从每个病人的手机或其他的传感器终端那里取得的海量数据。我们面对的确实挑战是,把这些都统合一起,进保健与医疗未来发展的全新思路。第二项任务是什么呢?我的第二项最重要任务,就是敦促政府和社会的组织公开发表更好的数据信息,在这些数据的基础上创建一个氛围权利的科研生态环境,研发可供人们随身携带查询的手机软件并制作可视化的图表。
国家气象局就是一个经典的范例,他们首度尝试把最重要数据公之于众,尽管每天的数据改版量约21Tb,但只要利用了新的科技手段,之后可以轻轻松松地用手机读者了。对普通人来说,数据共享让决定日常活动、证实航班信息更为便利,所有这一切莫不深刻影响着我们的生活,世界正在日新月异地变化着。
那么,你的第三项任务又是关于什么的呢?我的第三项最重要的任务,就是借老大政府的各个机构强化数据处理的能力。无论是美国公共卫生研究院,亦或卫生部,我们都注意到有更加多的数据科学家和数据分析师参予入了工作。
美国商务部上周月宣告有史以来的第一位首席数据分析师就任,伊恩卡琳幸运地地获得此职位。所以,我们不会尽全力将数据科学的技术和信息统计资料的概念,充份而稳健地应用于到政府工作中去,借此拓展出更优质的新服务项目。这些新的服务仅有能为政府所用?否能惠及普通大众?都能用。这些服务对科学家和普通市民都很有价值,我们找到人们开始关心各类因素不会给他们的身体健康带给何种影响。
随着气候变化激化,人们更加关心气候数据对本地的影响,例如过敏和莱姆症(Lyme disease)的发病率。这也就告诉他我们,有所不同类型的信息人组在一起时,其汇聚而产生的效用不容极强。
我还想要特别强调的是,分享信息需要使我们更佳地抵挡灾害。荐个例子,每个地方政府一定都能详尽地绘制出有当地各类资源的方位,比如加油站等,而联邦应急管理局若是可以很好地统合这些集中的信息,那么在应付险恶天气、雨季洪水等自然灾害时,之后能更为主动,从容不迫了。近几年来,政府更加推崇数据的起到,那么你指出政府怎样做到才能在分享数据的同时做对公众隐私的维护呢?这个问题的核心在于如何来限定版个人在采访并获取信息时的权限。
这也意味著,我们在搜集与用于数据时必需遵从道德,切忌侵害他人隐私。例如,在近期发布的白宫大数据报告中,有一项最重要的法案明文规定了应该如何处置学生档案,防止学生的个人信息被用作商业用途。然而,另一项法案则谈到了去年的联邦贸易委员会报告,其特别强调了用于公共数据时负起涉及义务,并且拒绝企业做信息公开化、透明化,更为疏远消费者。
明确到我们的精准医疗计划,总统早已多次指出这不会是一项亲民的法案,无论是学术界、企业界或是政府,在成立法案时都享有公平的话语权。你能明确叙述一下用于公共数据时的义务吗?义务就是时刻要为自己的不道德担起责任,要寻找合适的透明化标准,好让人们确切地理解自己哪些信息不会被公开发表用于,而哪些信息被严苛报废着。拿精准医疗计划来说,我们创立的是一个志愿者体系。
参予入项目中的志愿者都会被事前告诉,某些医疗数据不会被数据库收录于而公开发表,当然,如果他们想要更好地维护自己的隐私,不公开发表也是没问题的,这几乎强迫。在数据科学领域,哪一项成就是你最引以为豪的?最令其我深感自豪的,应当要科我最近的一项科研工作和最近的一个政府项目。
其中,那项科研工作的核心问题是:我们能无法换一个角度来思维天气,也许它看起来杂乱无章实则有律难以确定呢?要回答哪一种数据能贯彻影响人们的日常生活,天气毫无疑问是最佳之中选,有些时候气象上的微小变化,需要产生难以置信的可怕后果。哪怕对气象预报的改良有一点点协助,都会影响到许多人,如今又是网络时代,只要宣传得宜,百万,千万,上亿的人不受影响已不是天方夜谭。在气象部门工作,无形中彰显了你影响千百万人生活方式的能力。
我上次在政府部门工作时,收到的一个任务叫作伊拉克虚拟世界科学图书馆(Iraqi Virtual Science library),该数据库后来沦为了伊拉克学术界的权威领地。研发已完成的四、五年后,该系统就转交了伊拉克政府。
需要亲身参予数据库创建的工作,我深感很幸运地,需要看著人们的生活贯彻地再次发生转变,更加便利,更加精美,在数据信息领域我指出构建了个人价值。现在,能新的捡起昔日的工作,我实在恍如隔世,却又倍感兴奋。在公共社会领域中,最重要也最急需解决问题的问题经常被人们所忽略,而利用我的专业技能解决问题他们是我仍然的心愿,没什么比这更加有一点我代价了。
本文来源:博鱼(boyu·中国)官方网站-www.asdchina.com