海量数据的烦恼
蚂蚁金服方面称,芝麻信用有着非常广泛的信用数据来源,日数据处理量在30PB以上,相当于5000个国家图书馆的数据总量,其中包含了用户网购、还款、转账以及个人信息等方方面面的数据。通过分析大量的电商交易及行为数据,芝麻信用可以对用户进行信用评估,判断用户的还款意愿及还款能力,继而为用户提供快速授信及现金分期服务。
作为蚂蚁金服的子品牌,芝麻信用体系将包括芝麻分、芝麻认证、风险名单库、芝麻信用报告、芝麻评级等一系列信用产品。
而腾讯的财付通团队早在两年前就开始推进征信业务的探索,帮助用户建立个人信用。据悉,腾讯征信将基于腾讯现有的QQ、微信活跃用户,以及在SNS、门户、娱乐等众多领域的群众基础,通过海量数据挖掘和分析技术来预测其风险表现和信用价值。
但是,数据量大并不一定是一件好事,因为数据的筛选和清洗是一个非常枯燥复杂的过程。况且,数据量越大,审核维度越多,由此带来的“数据噪音”也越多,模型越失真。
在P2P平台“点融网”共同创始人、联合CEO郭宇航看来,海量的网络数据意味着互联网征信机构一是得找到技术非常强的牛人,二是要不断地试错。“美国征信公司FICO针对个人采集了100多个数据维度,但真正纳入征信模型的只有十几个维度。这其中也是经历了大量的分析运算。”郭宇航称
数据的短板
值得一提的是,民营企业开展的个人征信业务能否顺利对接央行信用报告的核心数据(如工资收入、社保记录、信用卡记录、贷款记录等),还存在很多不确定性。此前,许多P2P平台就是由于无法对接央行信用数据,而不得不亲力亲为地做征信。眼下,腾讯等企业在一定程度上与银行有竞争关系,要将核心数据共享给竞争对手,对银行来说并不容易。
假使腾讯征信、芝麻信用等企业拿不到央行的核心数据,那么其信用报告便不太可能被主流的金融机构所引用。由于缺乏金融数据,腾讯等民营机构必须不断地试错,再用自己体系内的数据慢慢替代传统的金融数据。而这一过程,通常需要三五年之久。
以P2P为例,一个信贷周期通常需要1.5-3年,换言之,要摸清用户的还款情况,民营征信机构必须等上一年半以上。这一结果还需要反复验证。
况且,央行本身的数据也不完整。目前,我国提供个人征信服务的“正规军”只有央行征信中心及其下属的上海资信公司。截至2014年10月底,征信系统收录1963万户企业及其他组织和8.5亿自然人信用信息。值得一提的是,有征信记录的个人大多是与银行有业务往来的优质客户,而腾讯等公司的用户中,有相当多是在央行征信范围之外的,即“草根”用户。换言之,央行的征信系统也无法覆盖主流用户之外的个人的信用情况,腾讯等公司仍需要亲自摸索。
郭宇航指出,腾讯掌握的用户信息,在网络营销推广方面会比较有效,但这些数据对金融信用的验证则不那么有用。事实上,利用社交数据来验证金融信用,在美国也只是刚刚起步。郭宇航在与一些美国同行交流的时候,对方称社交数据对于验证欺诈有一定的作用,但在信用评级方面的作用还十分有限。
一个明显例子是,美国最大的P2P平台Lending Club,曾尝试通过用户在Facebook上的表现来确定其信用度,结果遭遇惨痛的滑铁卢。之后,Lending Club转而向美国征信局这一传统机构获得数据,平台上的坏账率随之下降了许多。
“阿里掌握大量的交易信息,对个人信用还有一定价值。而那些浏览行为、在线时长、活跃度等,一定是非主流的数据。”郭宇航称。正因为此,点融网目前的风控人员大多是传统银行业出身,用的也是传统的风险检验标准。
这种情况下,互联网企业出具的信用报告,很多时候对商业机构只能起到较小的辅助作用。拍拍贷CEO张俊此前向记者称,芝麻信用曾来洽谈征信方面的合作事宜,但拍拍贷在验证芝麻信用的模型后,发现其准确度并不高。
张俊解释说,数据里缺乏用户的违约数据,即没有用户真实的贷款记录,因此其模型的精准度大约只有拍拍贷的70%左右。在拍拍贷的风控模型里,用户的社交数据大约只占8%到9%的权重,消费数据的权重也不到10%。相比之下,用户的还款记录、还款行为占到50%到60%的权重。
抵押类P2P企业速贷邦总经理万剑钧告诉记者,作为信用报告的需求方,他最看重的信息是用户之前在民间借贷行为中的不良率和违约率。这一信息是央行征信报告中所不具备的。
“对我们来说,互联网企业出具的征信报告可以作为传统征信报告的一种补充,提供过去涉及不到的信息。”万剑钧称,“但互联网征信报告必须有自己独特的竞争力,有实打实的评估,而不是去粉饰一些内容。”
他指出,像蚂蚁金服试运行的消费信贷产品“花呗”,以及“京东白条”等产品可以捕捉到一些用户的违约情况,但前期用户不足,运行时间也较短。一段时间后,它们或许能提供有价值的个人信用信息。相比之下,那些和社交、娱乐相关的数据与金融就不大相关。“我以后会试着用一下互联网公司出具的报告,再决定是全用,还是部分用,还是增加哪部分数据的比重。”万剑钧表示。
|