当前位置:首页>科学研究>研究动态>正文
研究动态
消费品多源缺陷线索信息预处理方法研究
发布时间:2023-06-21    

  1.前言 

  随着社会经济和科学技术的快速发展,消费品的种类以及功能越来越丰富,但是也带来了一系列安全隐患。缺陷产品召回是产品质量安全监管的国际通行做法,是后市场监管的重要手段。我国消费品召回工作从2004年开始,随着《消费品召回管理暂行规定》于2020年发布实施,我国消费品召回管理制度已日趋完善。由于消费品具有种类多、故障模式复杂等特性,导致多源缺陷线索中产品信息不统一、故障描述不准确、缺陷线索信息重复等系列问题。为快速从消费品多源缺陷线索信息中提取有价值、有效的线索信息,采取高效技术措施做好数据预处理工作显得尤为重要。在缺陷线索数据挖掘与发现有潜在缺陷的过程中,消费品多源缺陷线索信息预处理是核心环节之一。

  2.消费品缺陷线索采集内容 

  消费品缺陷线索根据来源不同主要包括:消费者投诉、产品安全网络舆情、境外召回信息、电商平台评价信息、国内召回信息、其他信息等。

  3.消费品故障标签字典构建 

  产品故障现象识别是开展消费品缺陷线索综合分析,判定产品安全风险基础。多源缺陷线索中对于产品故障的描述不一、表述随意多样化、反映故障种类多,针对这些复杂的内容,只有通过数据标准化统一化处理,才可以有效提高数据分析效率。以现有信息为基础,首先对产品故障现象进行归类,整理出每一类产品故障问题关键词,然后根据实际需求,依据描述提炼提取出同义词,基于多个特征维度对近义词表进行过滤,形成同义描述集合,丰富故障描述特征,形成产品故障标签字典。

  4.消费品缺陷线索预处理 

  数据预处理在数据分析和挖掘过程中所占时间达70%以上,数据预处理的好坏对整个数据分析和挖掘结果有着至关重要的影响。在消费品缺陷线索信息分析前的数据预处理主要包含以下几方面。

  4.1缺陷线索数据筛选

  (1)有效性。产品信息的品牌、产品分类、类别信息完整,故障描述信息真实描述产品使用中出现的故障,排除消费纠纷、服务质量以及怀疑揣测等问题。如果有联系人信息,确认联系人手机号码有效。

  (2)唯一性。同一来源的信息避免重复。

  (3)字体和词性转化。多源信息同一数据字段的信息字体和词性保持一致。

  4.2数据清洗

  消费品缺陷线索信息分析的数据预处理,根据现有需求以及经验的积累,其中的数据清洗主要包括忽略部分数据项、基础数据核实、故障标签标注、智能与人工结合,通过这些处理各自解决不同的问题,以达到缺陷线索信息分析的预处理的数据优化效果。

  4.2.1忽略部分数据项

  消费品多源缺陷线索信息各自具有其特殊属性和信息内容,而这些信息内容在综合判定安全风险的缺陷线索案例过程中并非分析项,且影响分析判定结果的准确性。在信息预处理过程中,不影响消费品多源缺陷线索信息各自数据的条件下,采取忽略元组的方式将这些信息数据进行暂时忽略。

  4.2.2 基础数据核实

  产品品牌、产品分类、产品类别作为关联消费品多源缺陷线索信息的产品基础数据信息,统一性、标准化对于后续信息数据的分析挖掘尤为重要,消费品品牌繁多、种类复杂、产品多样,明确这些信息才能确定是哪个产品。消费品品牌信息的研究发现,目前没有相关标准可借鉴。一般通过对已有信息数据的分析概括、同时借鉴电商平台中经销商对于产品的描述、网络舆情中消费者对于产品的描述,最终再通过平衡学习总结的方法,形成品牌字典。产品分类和产品类别字典可直接应用国家标准《消费品分类与代码》(GB/T 36431-2018),同时借鉴电商平台中经销商对于产品的描述,进行数据的统一和规范。

  4.2.3故障标签标注

  根据已形成的产品故障标签字典,对采集和选择的消费品多源缺陷线索信息:消费品的消费者投诉信息、产品安全网络舆情、境外召回信息、电商平台评价信息、国内召回信息、其他信息中的故障描述、网络舆情故障描述、缺陷原因(危险描述)、评价内容、缺陷描述、主要不合格项目、问题描述的内容分别进行故障标签标注,最终将不规范的故障现象描述数据进行规范。

  在产品安全网络舆情信息和电商评价信息的爬取和选择时,将爬取信息的关键词汇设置为需要的品牌、产品分类和产品类别、产品故障标签字典的组合或是产品分类和产品类别、产品故障标签字典的组合,最大限度和精准地采集与消费品安全相关的信息线索。

  4.2.4产品故障标签字典修正

  在信息数据采集和选择过程中,不可避免的会产生不规范、错误、重复等问题,采用计算机和人工判断结合的方式制定方案,完善或剔除问题信息,最终保留有效信息。消费品的多样性和故障现象的复杂性,在构建品牌字典数据和故障标签字典数据时,必定会存在字典数据不完整的问题,结合消费品各类产品的相关标准以及行业经验,通过计算机和人工专业知识不断完善字典数据,更好地为精准产品、简化故障描述奠定基础。

  5.结语 

  随着消费品多源缺陷线索信息数量的不断增加,相信数据预处理一定会越来越重要,也能为数据分析挖掘提供更加干净、高质量的信息源。消费品多源缺陷线索信息分析预处理方式完善建议:与专业知识应用融合,且贯穿预处理各环节;严控预处理各环节质量,保证高效;应用计算机智能学习和语义识别技术,解放人工,提高效率和准确性。

  参考文献: 

  [1]林建军.浅谈我国消费品召回的特点及其重要意义[J].质量与市场,2020,(20):46-48.

  [2]姜肇财,宋黎,王雯.基于电商评论信息的产品故障标签体系构建研究[J].标准科学,2021,(12):128-131.

  [3]胡远樟,程小恩,何黎,严小英,温川飙.一种基于糖尿病的中医数据挖掘预处理方法[J].CJCM中医临床研究,2021,(30):75-77.

  [4]田桂丰,谌颃,尹帮治.信息熵和灰色关联分析在企业大数据分析中的应用[J].信息记录材料,2021,22(3):151-152.

  [5]唐成龙,谌颃,唐海春,吴泽锋.大数据背景下数据预处理方法研究运用[J].信息记录材料,2021,22(9):199-200.

  [6]郑杰昌,谢志利,王长林.消费品召回追溯体系研究[J].标准科学,2020,(5):32-52.

  [7]许辉.数据挖掘中的数据预处理[J].电脑知识与技术,2022,(2):27-31.

  [8]李颜平,吴刚.基于典型数据集的数据预处理方法对比分析[J].沈阳工业大学学报,2022,44(2):165-192.

  [9]杨忠诚.数据挖掘工具WEKA及其应用研究[J].企业科技与发展,2018,(9):38-39.

  [10]张治斌,刘威.浅析数据挖掘中的数据预处理技术[J].数字技术与应用,2017(10):216-217.

 

  文章作者:徐思红 张力丹 田晶晶 齐月 孙宁  中国标准化研究院产品安全研究所(总局缺陷产品管理中心)

  转载请注明出处

  • 3.22can.jpg产品伤害监测数据分析研究报...
  • 3.11can.jpg汽车产品安全与召回技术研究...
  • W020150114560415863310.jpg产品伤害监测数据分析研究报...
  • W020150114560555379024.jpg汽车产品安全与召回技术研究...
友情
链接
关于
我们

版权所有:国家市场监督管理总局缺陷产品召回技术中心

京ICP备2024053723号 备案号:京公海网安备110108001691号


关闭