海王出海的去重设置核心在于三步:先标准化(手机号、邮箱、社媒ID统一格式),再定义匹配规则(实体类型、字段组合、精确或模糊匹配、阈值),最后制定合并与优先级策略并进行小批量验证与日志回溯,请按步骤操作并留存日志。

先把概念讲清楚 — 去重到底在做什么
用一个最简单的比喻:你把来自不同国家、不同社媒的名片都扔到一个抽屉,去重就是把相同人的名片识别出来并合并成一张“主名片”。如果不做这件事,会出现联系混乱、营销重复、统计数据被拉偏的问题。
关键要点(很关键,别跳过)
- 实体类型:联系人(Contact)、线索(Lead)、客户(Customer)等,去重规则通常按实体分开配置。
- 匹配字段:手机号、邮箱、社媒ID(如Facebook ID、WhatsApp号码)、姓名+公司、国家码+手机号等。
- 匹配方式:精确匹配(完全相等)或模糊匹配(相似度/规则化后匹配)。
- 优先级与合并策略:指定哪个来源为主记录(例如CRM优先于导入表),冲突字段如何合并(最新、非空优先、来源优先等)。
- 正规化与清洗:标准化手机号格式、去掉空格/特殊字符、统一小写邮箱、中文名繁简转换等是前置步骤。
按步骤设置去重规则(通用操作流程)
下面按“我自己在做”的思路,讲一套适用于大多数SCRM的实操流程,海王出海的界面术语可能略有差别,但步骤是一致的。
1. 确定目标与实体
- 先决定你要对谁去重:全部联系人?仅新导入数据?还是跨渠道实时同步时的去重?
- 建议先从“小范围”开始:对导入历史数据或某个渠道做试验。
2. 定义字段与正规化规则
核心在于把“同一信息”的不同表现形式统一成可比较的样子,示例:
- 手机号:删除空格、短横线,统一加国家码(+86、+1),保留数字。
- 邮箱:trim + 小写处理。
- 社媒ID:使用平台唯一ID(例如Facebook UID)而不是昵称。
- 姓名:去除多余标点、对国际名做“名-姓”拆分(必要时拼音/大小写统一)。
3. 设置匹配规则(最核心的一步)
常见的几类规则组合:
- 高优先精确匹配:社媒唯一ID、手机号(含国家码)、邮箱地址 —— 任何一项精确相等即可判断为同一人。
- 组合匹配(精确+模糊):姓名+公司(模糊匹配阈值高),手机号后7位+姓名首字母等。
- 模糊匹配:使用Levenshtein或相似度阈值(例如姓名相似度≥0.85且公司相似度≥0.9)。
4. 设定优先级与合并策略
当冲突发生(不同来源的同一字段值不同),常见策略:
- 来源优先:比如把系统内部CRM标记为“主来源”,导入表为“次来源”。
- 时间优先:最近更新时间覆盖旧值。
- 非空优先:优先保留非空字段。
- 字段级混合:比如保留主来源的手机号,保留最新的备注与标签。
5. 运行前的预览与小批量测试
- 先用1,000条或更小样本运行去重,查看合并后的样例,确认没有误合并。
- 检查日志:哪些记录被合并、为什么被判定为重复、冲突是如何解决的。
6. 全量执行、调度与增量去重
全量去重资源消耗高,建议:
- 离峰时间执行首轮全量合并。
- 开启实时/近实时的增量去重(入库时进行匹配),避免重复再次产生。
- 保留原始记录快照,支持回滚。
示例规则配置(建议表)
下面给一份实操可直接套用的建议权重与优先级表,适合大部分跨境场景:
| 字段组合 | 匹配类型 | 判定阈值/说明 | 优先级(高-低) |
| 社媒唯一ID(PlatformID) | 精确 | 完全相等即合并 | 高 |
| 手机号(含国家码) | 精确(正规化后) | +国家码+数字完全相等 | 高 |
| 邮箱 | 精确 | 小写后完全相等 | 高 |
| 姓名 + 公司 | 模糊组合 | 姓名相似度≥0.85 且 公司相似度≥0.9 | 中 |
| 手机号后7位 + 姓名首字母 | 组合模糊 | 用于缺国家码或格式不一致的场景 | 低 |
跨平台与渠道去重注意事项
- 社媒平台往往有平台ID(唯一且稳定),优先用平台ID做判定,昵称不要靠作唯一依据。
- 不同国家的电话格式差异大,务必先做国家码标准化。
- 有时同一个用户会用多个邮箱或手机号,设置“一对多”的关系保留历史联系方式。
常见问题和实操技巧(很实用)
- 误合并怎么办? 保留原始记录并支持回滚;审查合并日志,调整阈值或改为人工复核高风险匹配。
- 性能问题: 全量去重耗时大,分批执行或使用分片索引;实时去重用哈希索引加速手机号/邮箱查找。
- 多语种姓名:对中文、韩文、阿拉伯文等做专门规则,考虑音译和拼写差异。
- 合并历史行为与标签:合并时把来源标签、交互记录合并到主记录并保留时间线。
如何检查规则是否生效(监控与验收)
- 建立去重仪表盘:合并次数、误合并报警、每周期新增重复率。
- 定期抽检:随机抽样50~200条合并记录人工复核。
- 日志透明化:谁发起的合并、何时、依据哪条规则、涉及哪些原记录。
合规、备份与回滚
跨境场景下要注意隐私合规(例如GDPR、PDPA),去重操作应保留原始数据或脱敏快照以备审计。始终在执行前做完整备份,并在合并策略里声明数据保留期限。
示例:一步一步在系统里做(通用UI步骤)
- 进入“设置” → “数据管理” → “去重规则”。
- 新建规则:选择实体(联系人/线索)、填写规则名称与适用渠道。
- 添加匹配条件:选择字段、匹配类型(精确/模糊)、阈值。
- 配置合并策略:设置主来源、冲突字段优先级、保留历史标签选项。
- 预览并运行:先在测试集运行,确认无误后应用到生产或排期执行。
最后一点我常忘但建议你别忘
设置去重不是一次性的工程,数据环境会变化(新渠道、新国家、新标识),因此把去重规则当成活文档,定期复核和优化,比一次做得天衣无缝要靠谱多了。嗯,就像整理抽屉,总得定期翻一翻,才能一直好用。