当前位置:首页>科学研究>研究动态>正文
研究动态
电商评论信息在产品召回领域的应用研究
发布时间:2021-11-17    

  1.概要 

  目前我国处于贯彻新发展理念,推动高质量发展阶段,坚持质量第一效益优先,打造更多名优品牌,更好满足群众消费升级和国家发展的需要[1]。产品安全是产品质量的基础和底线,实施缺陷产品召回是后市场监管的手段,也是有效提升产品质量的重要措施。

  近年来,随着电子商务的快速发展促使商品流通及信息流通实现高效畅通,电子商务消费引发的纠纷亦随之增长,其中商品质量安全问题为焦点[2]。消费者在电商平台完成交易后可以对其购买商品的体验进行评论并发表,由此电商平台上产生了大量由用户发布的对诸如产品外观、性能、安全、物流、服务等有价值的评论信息。这些由消费者对产品最真实、最直接的信息无论对于潜在买家决策或是生产者自主改善产品设计以及市场监管部门主动挖掘产品缺陷线索都是十分重要的信息。

  2.电商评论中的产品特征提取分析 

  本文研究对象为电商平台消费者评论信息,首先是从大量的语料中抽取出消费者关注的产品特征信息,然后对语料中关于产品故障表现、伤害情形等重点词进行提取、统计、分析。

  2.1电商评论中的产品特征提取方法

  在电商评论的分析中,产品特征抽取的完整与否就直接影响品类产业质量状况评估的效果。现有特征抽取工作中,主要从字或词两个粒度对文本进行处理。本文利用字词融合的特征抽取方法,使用深度学习技术分别实现字、词粒度的特征抽取模型,并以规则的方式使用字粒度模型的抽取结果去修正词粒度模型的结果,以达到提高特征抽取效果的目的。

  2.2电商评论中的产品特征分类

  电商评论中的产品特征是描述产品的某一属性、功能或特点词汇。本文将产品特征分为两种类型:

  (1)静态产品特征

  静态产品特征是指所研究商品的普遍的属性、功能或特点。如电视机的静态产品特征有品牌、屏幕、电源、底座、材质等,童车的静态产品特征有车身、轮胎、手刹、车身等。静态产品特征是通过对产品的基础特征总结出来的,通常在用户评论中这些特征可能会有多种叫法,本文采用聚类和同义词扩展的方式建立一个静态产品特征库,在数据采集时会为静态产品特征预先填入对应的特征值。

  (2)动态产品特征

  动态产品特征是指是该产品的特有属性特征,包括消费者使用中出现的产品功能描述、体验情感、产品安全等描述。动态产品特征是通过分析大量的消费者评论数据而发现的特征,动态产品特征的抽取更有助于展示商品的特点、定位及口碑情况,开展动态特征分析一方面能为企业探寻消费偏好,制定市场营销策略及精准的广告投放;此外,本文研究可以挖掘产品可能存在的功能偏差、安全风险等缺陷线索,为产业质量提升及安全监管提供数据支撑。

  2.3产品特征的聚类分析

  在获取了产品特征词后,需要对消费者评论信息进行进一步的细化。通常产品特征和消费者情感评价是成对出现的。以往的业务实践中多以评论中直接出现的形容词或者形容词块来表示对指定产品特征的情感,即显性特征。此方法的不足是难以匹配多个产品特征和情感词,并且难以对隐式情感做出识别。例如:“这款电热水壶烧水快,就是得有人看着,不然容易烧干了。”此评论中烧水快是描述电热水壶直接表现,容易烧干了为后果或结果,而且容易烧干了更是本文主要关注的特征内容,分析可以得出此产品可能存在自动跳转功能失效或无自动跳转功能。对于产品问题造成的后果,需要进行分析及提取,目前自然语言处理技术还很难完成,需要人工对不同的产品特征进行聚类分析。

  3.产品特征的故障标签 

  3.1 电商评论信息预处理

  电商评论数据体量庞大,受消费者心理动因变量、技术动因变量、社会动因变量影响[3],不同动因的评论数据在产品特征提取时存在较大的干扰。因此,在开展产品特征聚类分析前,需要对电商评论信息进行数据预处理。预处理包括删除评论中的重复数据、与商品无关的无意义句子及评论中不包含任意一条有效维度信息的数据。

  3.2产品维度归一化处理

  由于电子商务数据经常由不同网站和不同用户输入,同一商品存在着多种描述[4]。在电商评论分析中,为更加准确全面的统计产品可能存在的缺陷信息,需要对产品各维度信息进行归一化处理,包括品类名称、产品品牌、中英文名称、故障特征等。

  3.3产品故障特征聚类

  文本聚类目的是为了更加清晰、全面地挖掘某品类产品可能存在的缺陷线索,并以标签的形式进行标注、汇总及统计,从而实现对该品类产品在性能、安全等方面的口碑评论分析。然而,网络上用户评论网络化、口语化严重,同一种产品特征会有多种表述方式,这会影响特征筛选效果。本文以产品静态特征与动态特征相结合的方式构建了涵盖故障所在总成(部件)和故障表现相对应的产业故障标签库用以匹配到有相应质量问题的评论信息,见表1所示。

  表1 移动电源产品特征词抽取示例

   

  3.4评论信息中的情感判断

  情感分析是指通过对带有情感色彩的用户评论文本进行分析、处理、归纳和推理,来获取用户对该产品所持有的态度。在电商评论挖掘中,抽取出电商评论中的情感判断元素,进行细粒化的情感分析,有助于准确识别产品特征和评论词。目前针对电商评论信息的主要情感分析方法是汇总辞典中的积极情感词、消极情感词、否定词和程度副词,形成情感词典并打分[6]。通过情感词典集合设置权重分析消费者的情感。

  本文提及的情感分析是判断每一条原始评论涉及的内容是已经确定发生的问题还是担心会出现而实际没有发生的潜在问题。见表2所示,以电热水壶产品的电商评论信息开展情感分析判断为例,四条评论信息全部符合目标敏感特征词抽取规则,并进行了分标签标注,通过情感分析判断可以得出序号(1)、(2)评论为已经发生的问题标注“practical-1-确定”标记,序号(3)评论为担心会出现而实际没有发生的潜在问题,标注“potential-2”的标记,序号(4)评论为产品具有潜在风险的保护及预防功能,标注“potential-2”的标记。此方法借鉴常用否定词表[7]内容,并结合电商评论语境特点进行情感分析。通过情感分析标注,能够有效地去除干扰信息,提高缺陷线索统计的精准性。

  表2 电热水壶产品标签情感分析示例

   

  4.产品故障特征统计与应用 

  特征提取是电商口碑研究的重要环节,常用的特征包括提取用户特征、时间特征及商家特征[8]等。本文研究主要集中于提取产品故障特征,提取和计算电商评论信息有助于分析产业整体安全状况、单品具体故障特征。同时,基于长周期数据统计可以直观地展现出产业质量安全动态,尤其是对于具有行业同质特征的产业,如移动电源、电热水壶、电吹风等产品。

  对于产品故障特征的数据统计本质上就是统计每个产品安全标签下标记了确定发生问题的原始评论数量,每个标签的数据统计方法因标签的层级不同而有所区别。本文将产品故障特征标签设计为三级,一级标签为笼统性描述,即产品安全故障、产品性能故障及其他;二级标签为由产品静态特征与动态特征的组合,即故障部位及故障表现汇总;三级标签为具体故障描述的集合。在统计三级标签时,只要原始评论真的涉及到该标签提到的问题就统计一条,二级标签也是一样的方式。例如一条电热水壶的原始评论是“一次非常不好的购物,东西质量差的要死,保温壶味道很大,根本不能用,烧水壶壶嘴漏水,盖子不好劣质,壶盖和壶身特别烫,烫到手了,壶底总是有锈蚀斑点,差评”,这条原始评论涉及到了电热水壶“有异味”“漏水”“壶盖质量差”“烫伤”“易腐蚀”五个三级标签,而且是已经确定发生的质量问题,在统计时这五个三级标签的评论数量各+1,但是由于“有异味”和“易腐蚀”都是电热水壶一级标签性能下面的二级标签,所以在统计一级标签性能时评论数量只能+1;同理,由于“漏水”和“烫伤”都是电热水壶一级标签安全下面的二级标签,所以在统计一级标签安全时评论数量只能+1。各品牌的标签数据统计是在确定完原始评论的品牌归属后进行的相同操作。

  对于产品故障特征的统计中输出包括的主要项目包括:总体数据情况、累计各个指标占比情况以及每个周期各品牌的不同指标占比情况。在计算累计的各标签的占比时,分子为确定发生了该质量问题的评论数量,分母为累积的总体评论量。对累计的各品牌来说,在计算各品牌不同指标的占比时,分母是各品牌累积的总体评论量。但是在计算每个周期的数据时,分子和分母都是当周期数据,如表3所示。

  表3 产品故障特征统计计算规则

   

  通过产品故障特征统计,能够从消费者对产品质量的感知及对安全的认可度中去获取单品各故障特征值a/Z、b/Z、c/Z统计,并依此统计单品各故障发生概率;产品故障特征A/Z值为对单品的整体评论倾向分析,如产品使用性能、产品安全或其他方面的口碑评论。同时,汇总当期各品牌产品的故障特征统计,能够形成该产业的故障特征分布,有助于从宏观层面了解产业整体动态。在计算出行业整体数值的基础上对高于行业平均值的品牌产品的安全故障现象进行分析,能明显的识别行业低质、高风险品牌产品,为缺陷分析提供线索。

  5.结语 

  随着下沉市场电子商务基础设施和服务的不断完善,网络购物已成为我国消费者最重要的消费场景之一,根据中国互联网络信息中心发布的第48次《中国互联网络发展状况统计报告》显示,截至2021年6月,我国网络购物用户规模达8.12亿,较2020年12月增长2965万,占网民整体的80.3% [9]。开展电商平台评论信息中的缺陷线索挖掘与分析研究是顺应数字经济时代消费者消费方式转变的一种全新探索,由从消费者渠道获取产品缺陷线索这种“事后调查”转向从电商平台公开的评论信息中挖掘缺陷线索这种“事前预警”的方式,为开展消费品缺陷产品线索研判工作提供了新的思路。

  为真实地掌握电商平台上某类商品的质量安全状况,特别是针对有威胁消费者人身安全这类质量安全问题的产品,为缺陷研判及产品召回提供线索。在计算各质量安全问题占总体的百分比和不同品牌的各质量问题占总体的百分比时,数量统计为全部是确定发生了该质量问题的评论数量,即用真实的已经发生质量安全问题的原始评论数量作为分子,而总体则是当前该产品在电商平台上所有的原始评论量。这样的统计方法能够比较真实的反映该产品在电商平台上的质量问题发生率,具有很好的代表性。但由于目前电商平台的品牌众多,而且由于知名品牌和小品牌在销售量上有比较大的差异,所以直接对比不同品牌在安全指标上的指标分值与主观认知有所偏差。后续需探索产品销量因素,减少因产品销量不均衡导致的偏差影响。

  参考文献: 

  [1]中国政府网.《李克强对云上2020年中国品牌日活动作出重要批示》(2020-5-10)

  [2]曾偲慧,陈原,郭舒敏.基于大数据分析的电商产品感知质量评价研究——以面膜产品为例.中国商论.2021年4月,44-49

  [3]张暄,台红玉.消费者在线追加评论动因分析.数字经济2021年第5期,185-187

  [4]安先喜,田英鑫,郭子阳,石胜飞.基于Web2.0的电子商务中基于商品名的实体识别.哈尔滨工程大学学报[J/OL].第40卷第七期.

  [5]姜肇财,孙宁,宋黎,张芳祯.基于电商评论信息的产品安全评价方法应用研究.标准科学.2021年第6期,76-80

  [6]罗胤达.大数据时代下电商自动处理评论文本的研究.物流与供应链.2020年第36期,166-167

  [7]章蓬伟,贾钰峰等.基于文本情感分析的电商产品评论数据研究.微处理机.2020年12月第6期

  [8]杨楚珺,胡哲.基于神经网络的口碑商家推荐,现代计算机.2019年04下,46-49

  [9]中国网信网.第48次《中国互联网络发展状况统计报告》(2021-9)

 

  文章作者:姜肇财 宋黎 王雯 费凡 中国标准化研究院产品安全研究所(总局缺陷产品管理中心)

  转载请注明出处

  • 3.22can.jpg产品伤害监测数据分析研究报...
  • 3.11can.jpg汽车产品安全与召回技术研究...
  • W020150114560415863310.jpg产品伤害监测数据分析研究报...
  • W020150114560555379024.jpg汽车产品安全与召回技术研究...
友情
链接
关于
我们

版权所有:国家市场监督管理总局缺陷产品召回技术中心

京ICP备2024053723号 备案号:京公海网安备110108001691号


关闭