简单对比spacy中的pkuseg模型和pkuseg自有模型的中文分词效果
在spacy中,默认的中文分词模型是pkuseg,在安装了spacy后,就可以通过 : python -m spacy download zh_core_web_sm 来安装模型,虽然spacy提供了sm、md、lg和trf四种类型的模型,但是对于分词来说,它们的效果都是一致的,F-score均为92.94(3.8.0版本)。因为平时使用spacy较多,一直以为spacy使用的分词模型是pkuseg自己的模型,后来才发现并不是想象中的这样,那么仅仅对于分词任务来说,是spacy的模型更好,还是pkuseg的模型更好呢,这里我简单做一下对比记录。 对比方式很简单,所以并没有多严谨,仅供大家参考,就是使用两个模型分别对同一段文本分词,最后查看各自的分词效果。 首先我准备了一段近期的新闻文本,来源为 https://cn.chinadaily.com.cn/a/202603/22/WS69bfc215a310942cc49a4569.html ,节选内容如下: 近日,有媒体报道称,一款名为“ALPS阿尔卑斯”的饮用天然矿泉水,其实际水源地却是国内江西萍乡、吉林辽源等地。 电商平台显示,该款矿泉水500ml、330ml两个规格外包装一致,瓶身正面印有雪山图案,“ALPS”右上角处有“R”标注,“阿尔卑斯”字样旁却未有商标标注。据商品详情页面介绍,上述几款产品产地为“中国”,水源地包括吉林长白山、江西武功山等附近。 中新网 注意到,在社交平台,不少消费者吐槽该款矿泉水“挂羊头卖狗肉”。 中新网 查询中国商标网发现,该款矿泉水真实注册商标为“ALPS”,由阿尔卑斯饮品有限公司的一家关联公司——阿尔卑斯品牌运营管理有限公司持有。 值得一提的是,该公司共有115项商标相关信息。其中,国际分类32类(包括啤酒、矿泉水和汽水等)中的“阿尔卑斯”中文商标目前状态为“撤销/无效宣告申请审查中”。商标详情信息显示,该商标于2013年发布初审公告,之后经历商标异议,2025年,该商标使用许可备案收到不予核准通知。 不过,中新网 致电阿尔卑斯饮品有限公司询问时,该公司接电行政人员表示,该公司确为“阿尔卑斯”“ALPS”的商标持有者。对于水源地等相关情况,对方称:“稍后会有市场部门相关人员回电。”截至发稿,中新网 未接到相关电话。 阿尔卑斯官网称,“阿尔卑斯”中文商标持有人为阿尔卑斯饮品有限公司,...