赶集网信息采集器基于开源的 PDI 平台。
PDI( 也称为Kettle ) 是一款开源的数据抽取、转换、加载 (ETL) 工具,支持各种常见数据源,如各类数据库,平面文件,XML文件、Excel 文件、Access文件等。
用户可以方便的以拖拽的方式,设计数据的流程,定义数据格式的转换。
除了数据转换外,Kettle 还以作业的方式支持很多常用操作,如发送、接收邮件、FTP 上传、下载、文件管理等。
将作业和流程配合使用,用户可以轻松的完成大部分的数据处理工作。
即使不是开发人员通过 Kettle 也能做一些简单的数据处理工作,如:
从 Excel 文件选择销售金额大于1000 元的商品放到 Access 文件中,类似这样的功能,不用写一行代码,直接通过图形界面配置就可以了。
对于开发人员来说更是一个强大的武器,通过本身功能和插件的扩展功能,可能做你想做的任何数据处理方面的工作。
赶集网信息采集器是 PDI 平台的一个插件,可以采集到赶集网信息的标题、电话号码、发布时间、URL、及用户自定义的采集项。