当前位置:首页 > 区块链新闻 > 正文

PlatON孙立林:隐私计算是为数据定价的基础设施和方法论

来源: 互联网时间:2019-01-15 15:20:52

2018年11月17日上午,“2018比原链全球开发者大会”正式在杭州国际博览中心(G20会馆)开幕,这是杭州第一次由开源组织举办的技术型峰会,也是杭州被誉为区块链之城以来规模最大的一场区块链开发者大赛,100+开发团队历经4个月激烈厮杀,16支团队将在本次大会上展开最终角逐。

当天,来自PlatON 项目的创始人孙立林发表了名为《Web3.0时代的Trustless Computing(“无需信任的计算”)实践与思考》的分享。

微信图片_20181117143034_副本

在孙立林看来,数据交易的需求将越来越多,但赤裸裸交易数据的方式最终让数据的价值无法定价,因为人们无法从数据的大小、多少和提供方等维度来判断它到底值多少钱。他认为数据需要通过计算产生价值,由计算来做合理定价。也就是说,计算被定价的前提是数据要么被交换,要么被共享。但随着AI的进步,纯粹的数据交换越来越难、成本越来越高,所以以MPC(安全多方计算)为代表的隐私计算,他认为会是下一代最核心的对数据定价和评级的基础设施和方法论。“隐私计算才是区块链应有的商业模式,大家都可以把数据留在本地,在不暴露原生数据隐私的前提下,仍然能够通过协同计算充分发挥数据价值。”他说,在Web3.0时代,人们面临的两大技术挑战恰恰是扩展性和隐私问题。

孙立林把他的PlatON项目定位在基础设施,它类似于一个数据服务交易市场和算力交易市场。PlatON主打的叫Trustless Computing(“无需信任的计算”),他们提出了MPC和VC架构去应对隐私性和扩展性两个挑战。

以下为孙立林演讲,经整理。

简单介绍下PlatON项目,从公链角度来说PlatON项目偏底层。它有几个特点。首先,我们把新的理念分成三层:共识、验证及计算。所有的计算放在链外处理,链外的计算完全是用电路类型做隐私计算。其次,我们把验证拆出来用VC可验证计算处理。这些都是PlatON在全球范围内比较独特的地方,目前全球范围内几乎看不到有类似做法。

为什么要这样做?为什么我们把它叫Web3.0?我最近在美国呆了两个月,发现北美基本上倾向于把它归结为Web3.0时代,而没有按照原生意义,将它看成是区块链的迭代版本,因为很难界定谁是3.0,谁是4.0,它变成一个口号了,是一个全新架构。

在这个领域,我们把全球所有问题归结为两大类:一个是Scalability(可扩展性),一个是Privacy(隐私性)。像当前的新项目或其它项目大多试图从共识角度提升Scalability。我们比较平衡。第一,我们在隐私上做的比较重,第二Scalability上我们采取了可验证计算的技术路线来做。在加强隐私保护的同时,提升可扩展性。

MPC(安全多方计算),它是由一个经典密码问题构造出来的一套方法。它的基本逻辑或基本业务方式跟区块链不一样,可以理解为它不是一个原生意义上的区块链。

MPC的基本做法不是数据交换,而是数据共享,在数据没有离开本地的情况下以电路的方式做交互。这会造成比较大的计算复杂度和通讯复杂度。但目前来说计算复杂度可以得到非常好的控制。通讯复杂度问题,则会随着整个网络带宽的进步逐步解决。

它的基本逻辑:大家可以通过部署不同的计算节点来参与整个计算过程,在数据留在本地、不暴露原生数据隐私前提下,获得共同想要的计算结果。

为什么要做这件事情?我始终认为这才是区块链的商业模式,像比原链做数字资产上链,数字资产的源头还是数据,怎么来给数据做评级、估值和定价?今天原生赤裸裸交易数据的方式是无法定价的,因为人们无法从数据的大小、多少和它的提供方等维度来判断它到底值多少钱。数据需要通过计算产生价值,由计算做合理定价。而计算被定价的前提是要么数据被交换,要么被共享。但今天,随着AI的进步,纯粹的数据交换越来越难、成本越来越高,所以以MPC为代表的隐私计算,我们认为是下一代最核心的给数据定价和评级的基础设施和方法论。

微信截图_20181117150808

111

上述两张图是基本工作流程和两方的MPC计算。

先看下基本工作流程,我们可以把原始数据做预处理,因为它不是万能的,大量非并行的数据要原生处理,然后打成布尔电路,交给编译器处理。在网络上交换的都是经过加密的混淆电路或者加密电路。这里有三个挑战:第一,预处理不容易。目前来说以定制的方案为主,基本上像AI或者AI芯片的定制算法,我们试图构造一个通用的编译器或者是虚拟机,目前已完成第一步,大概每秒钟处理400-500万门;如果是理论值,网络环境理想的情况下,峰值可以处理一千到两千万门。第二个挑战是编译器,因为它对电路的复杂度处理和优化需要时间和大规模团队投入;第三,对SDK的调用和对前端服务的支撑要看具体的场景。

微信截图_20181117150842

再说一说可验证计算VC。我们相信未来有数以亿万计的节点参与到全球的去中心化或者分布式计算。当需要派遣远端计算任务时,如何知道它完备、完好得执行了这次计算?原生模式是,给它一个输入,给它一个计算函数,它返回一个计算结果,这个计算结果要被不同的节点计算,所以整个公链效率很难比得上传统的系统。在可验证的计算条件下,除了返回一个值外,还会返回给你一个短证明P,你只要验证了短证明,当然理论上时间很短,验证P是对的,返回结果Y就是对的,整个过程所需验证时间非常短。这样的话,理论上可以极大提高整个网络的效率。目前全球大概有四种技术路线,由于商用对计算复杂度要求较高,我们除了在技术上优化,还会适当引入一定的激励机制,在治理架构层面做一些调整,使得算法能被完好执行,达到理论值。当然早期新生事物的出现,也需要一定时期的迭代和优化。

1112

在应用架构上,传统的方式是有做算力的矿工,也有做DAPP算法的提供方,但实际上我们会越来越多看AI的算法提供方,而不是传统的DAPP。PlatON比较特殊的一点是,有大量的数据提供方加入我们的网络,用数据及相关服务来变现。当然前提必须是经过隐私计算,即MPC合约,经过隐私合约处理才能交易。这样做是因为:第一符合以GDPR为代表的合规性,第二符合平台的整体定位。我们更倾向于跟比原链等合作伙伴有更深度的合作,由合作伙伴处理前端的数据资产,我们只是做好自己的基础设施工作。

这里提供几个该解决方案可以落地的领域:

案例1:医疗&保险。

保险本质上是一个靠风险定价来生存的行业,风险定价的前提是要掌握足够的数据。但今天随着大家对数据越来越重视,保险拿数据的成本越来越高。所以我们最近跟一些保险公司合作,基于MPC做数据共享。对医疗行业来说,它对影像的数据需求有几点:第一个是深度学习,即影像数据的处理;第二是语义分析;第三,进入到各个医院、医疗机构的数据共享,进入到处方环节时需要调隐私保护能力,这样才能形成一个可运营的网络,而不是单节点像局域网一样跑数据,那样样本量太小,无法支撑学习的需要。所以我们能够提供基础设施,帮助所有的医疗机构和保险机构获取相应的商业结果。

案例2:征信&广告。

逻辑很类似,征信是一个大概念,它包括征信模型,也包括信用分。无论哪种模型,在现实的行业里,都需要对用户做画像,但是它分散在不同的数据集合里,目前为止也只有隐私计算这一个架构可以有办法,从密码学意义上实现对数据的完整共享和协同计算。所以理论上来说,当对标签处理完了后,如何做到精准的推送和给出用户画像?那就要靠这套方式来处理。MPC或者隐私计算和区块链是一个共生共存的局面,如果只有区块链的话,大家是不会把数据上链,因为大家都不愿意透明。所以我们今天面临的问题是:第一,区块链性能太差;第二,智能合约不足;第三,隐私保护问题。PlatON主要致力于第一和第三个问题进行优化处理,第一提升它的效率特别是远端计算效率,第三是隐私保护问题。

案例3:联邦学习。

AI+隐私计算。我们有一个合作伙伴提出了联邦学习,就是大量的AI model缺数据样本,样本池分散在多个不同节点,目前为止只能靠以密码学为基准的计算架构(隐私计算)来获取完备的数据能力,能够支撑上一层的大规模的深度学习,否则它就不是深度学习,只能叫浅度学习,因为样本不够,根本没法训练。

案例4:物联网+车联网。


最简单的就是无人驾驶。今天导航数据控制在有测绘资质的厂商和有部分数据的车厂手里,而且相应的行为数据很分散,很难完备地被获取,那就需要靠MPC这套能力来实现。

免责声明:

1.本文内容综合整理自互联网,观点仅代表作者本人,不代表本站立场。

2.资讯内容不构成投资建议,投资者应独立决策并自行承担风险。

你可能感兴趣

    error