科学抽取
如/你/所/愿
数据子集抽取服务
对不能全量使用的数据,或数据全量分析利用耗费资源大、性价比不高,或特殊业务需要,根据科学可靠的抽取规则,从全量的数据中抽取部分数据形成子集进行利用,如样本抽样、配对抽样、队列模拟等。
利用科学抽样方法(随机抽样、整群抽样、分层抽样、系统抽样、非随机抽样等方法)从指定的1个数据集中抽取一定数量的样本数据。
数据结构说明
数据量说明
子集抽取服务说明
目标数据库
数据子集抽取程序
抽取的数据子集可以支持XLS、TXT、CSV、XML等常规数据格式文件导出。
基于流行病学方法,数据抽取规则科学合理,保证分析挖掘结果可靠性和可解释性。
抽取的数据子集均可追溯到原始数据来源,并可查验抽取过程进行优化。
提供界面配置的数据子集抽取软件,针对简单子集生成需求自助生成数据子集。
服务过程全程记录,可重复执行再现结果,验证并提升服务质量。
多源数据子集抽取
从多个异构数据源中抽取整合为数据子集。
1:N记录数据子集处理
按分层原则、就近原则、平均原则等提取同一对象的多条记录中的一条记录。