2009-10-22 15:18:39
链接:/document/a7ad9cd7-ca46-47e6-a1a0-1e4100def336.html
阅读(407)次
数据清洗系列
从数据中提取有用的信息,可以通过数据挖掘的方法来实现,但前提是数据必须具有正确性(Correctness)、一致性(Consistency)、完整性(Completeness)和可靠性(Reliability),而目前的现存数据库或数据仓库中的数据普遍存在很多的问题。主要表现为:错误、不规范、空值、重复、失效等。这样的数据被定义为脏的数据,这些脏数据可能带来如数据质量不高、决策制定失败甚至于错误等等。
因此,针对脏数据的有效处理是进行数据挖掘,尤其是辅助决策的必要步骤。
慧渔数据清洗工具可以针对数据库全字段进行有效的数据清洗,也可针对单一的手机、Email、地址等字段进行匹配和纠错,保证数据的质量。
一般分为结构级和实例级两种清洗类型,通过对脏数据的改造或清除,保证进入数据仓库的数据是有效的,一致的和清洁的。
结构级清洗规则:
- 统一的数据模式(包括数据类型)定义。
- 统一的完整性约束定义。
- 统一的安全性约束定义。
- 统一的函数依赖要求定义。
实例级清洗规则:可以通过在SSIS中设置数据有效值检验机制与重复值检查机制。
互动发送平台
- 分布式邮件服务器群,确保稳定与高效的同时规避拒收的风险。
- 系统规则周期性更新,以适应最新的邮箱技术和模式。
- 邮件分析系统,以最新的规则鉴别邮件标题和内容的安全性,避免进入垃圾箱。
- 灵活的数据库管理,CRM导入导出功能。
- 自动过滤非法和重复数据。
- 可自定义的数据分类方式。
- 个性化邮件内容发送方案。
- 邮件安全性检测。
- 收件箱感应功能。
- 邮件内容web浏览和退订页面。
- 定时发送设置。
- 周密的测试过程。
- 邮件状态跟踪与统计(发送、到达、打开、点击、回复、转发)。
- 发送报告模板。
数据采集系统
数据类型:
- 企业用户:企业的网站都有非常详细的联系方式;还有很多企业,会主动到一些B2B性质的网站上留下自己的公司信息,以便他人能主动与自己联系。
- 个人用户:在各种社区和论坛,个人用户为了标识自己或者期望与他人联系,也会主动留下自己的联系方式。
数据特点:
- 字段单一:特别是个人用户,留下的联系方式可能更为简单,以Email地址和IM为主;同时价格成本也相对较低;
- 分类性详实:根据数据得来的源可以非常详尽、准确的对人群进行分类(参见数据来源);
- 鲜活可靠:所有数据在网络活动的、真实的。
数据来源:
企业网站数据:通过开放目录,挑选相应分类,然后对分类下网站进行数据抓取。
例如:通过Business > Marketing and Advertising > Market Research分类,直接进入其下的500家网站进行抓取,这次抓取的数据结果,我们即在数据库定义为Market Research分类。
B2B网站数据:根据客户定位寻找适合的B2B网站,并根据B2B网站的分类方式进行数据抓取。
个人数据:个人数据的抓取更为简单、准确和鲜活。
以某化妆品牌客户为例,挑选多个与客户品牌相吻合女性网站和论坛,进行数据抓取的同时还可配合部分论坛推广,以达到更好效果。
类别:数据营销平台
标签:
为了更好的服务用户,更好的
美国次贷危机爆发以来,已逐
定期给固定的人发送直邮信是
我们在媒体上经常能看到鼓吹
一、名单的分类 慧渔营销名单