{__STYLE__}
我的观点是,对于开展信贷业务的机构来讲,央行征信系统收录的个人信贷相关的数据,在判断一个人信用状况时有非常大的价值,能够获知借款客户的“还款意愿、还款能力、还款的稳定性”。而社交网络数据、电商交易等数据只能作为补充,辅助P2P机构的风控人员判定“客户是谁,即他是不是他所声称的那个人、他的工作生活是不是他声称的环境”,以此用来防止身份欺诈。 但是采用这些数据(社交网络数据、电商交易等数据)还不能直接预测和推断出他将来及时还款的可能性。要利用其进行信贷风险评估工作,还有很长的路要走。 而在中国特色征信环境下,对于P2P机构来说, P2P首要的是解决征信覆盖的问题,在实践过程中通过“test and learn”的核心理念,找到适合自己的风控方法。 数据多不一定是大数据 讨论大数据的第一个逻辑是,什么是大数据?简单来说,大数据指的应该是数据很多,但为什么不叫“多数据”而叫做“大数据”?因为这个名称来自英文翻译“Big Data”。 很多的数据是不是就是大数据的基础?全世界最大的银行是工商银行,全世界最大的移动运营商是中国移动,工商银行和中国移动积累的客户数和数据量在全世界无可比拟,它们自然有很多数据,但他们是不是大数据呢? 现在手机是联网的,但通过中国移动查询异地手机用户的费率是查不到的,他们互相之间是隔开的,无从知道这个客户的生活方式,如果它有这种技术手段的话,做出微信的就应该是中国移动而不是腾讯。 从根本上来说,简单地使很多数据堆积在一起不叫大数据。大数据主要表示一种技术手段,来使得数据的存取、分析可以非常高效进行。首先需要技术框架,其次是分析手段。 技术框架是指,这样的技术方式只能在现代环境下产生,比如说云计算、云存储等算法在以前是不可能实现的。分析手段是指,以前要么就是不具备分析工具,有数据却算不出来,要么就是分析占的时间太长,没有实施的可能性,要么就是算法没有实质解决问题的空间,这些随着现代计算机技术的发展,网络技术的发展都解决了。 除了技术框架和分析手段,更重要的是一种大数据理念。举个例子,如果我想获得一个房间内每个人的身份证号码,不同想法的人解决这个问题的思路是什么样的?