简单对比spacy中的pkuseg模型和pkuseg自有模型的中文分词效果
在spacy中,默认的中文分词模型是pkuseg,在安装了spacy后,就可以通过:
python -m spacy download zh_core_web_sm
来安装模型,虽然spacy提供了sm、md、lg和trf四种类型的模型,但是对于分词来说,它们的效果都是一致的,F-score均为92.94(3.8.0版本)。因为平时使用spacy较多,一直以为spacy使用的分词模型是pkuseg自己的模型,后来才发现并不是想象中的这样,那么仅仅对于分词任务来说,是spacy的模型更好,还是pkuseg的模型更好呢,这里我简单做一下对比记录。
对比方式很简单,所以并没有多严谨,仅供大家参考,就是使用两个模型分别对同一段文本分词,最后查看各自的分词效果。
首先我准备了一段近期的新闻文本,来源为https://cn.chinadaily.com.cn/a/202603/22/WS69bfc215a310942cc49a4569.html,节选内容如下:
近日,有媒体报道称,一款名为“ALPS阿尔卑斯”的饮用天然矿泉水,其实际水源地却是国内江西萍乡、吉林辽源等地。
电商平台显示,该款矿泉水500ml、330ml两个规格外包装一致,瓶身正面印有雪山图案,“ALPS”右上角处有“R”标注,“阿尔卑斯”字样旁却未有商标标注。据商品详情页面介绍,上述几款产品产地为“中国”,水源地包括吉林长白山、江西武功山等附近。
中新网 注意到,在社交平台,不少消费者吐槽该款矿泉水“挂羊头卖狗肉”。
中新网 查询中国商标网发现,该款矿泉水真实注册商标为“ALPS”,由阿尔卑斯饮品有限公司的一家关联公司——阿尔卑斯品牌运营管理有限公司持有。
值得一提的是,该公司共有115项商标相关信息。其中,国际分类32类(包括啤酒、矿泉水和汽水等)中的“阿尔卑斯”中文商标目前状态为“撤销/无效宣告申请审查中”。商标详情信息显示,该商标于2013年发布初审公告,之后经历商标异议,2025年,该商标使用许可备案收到不予核准通知。
不过,中新网 致电阿尔卑斯饮品有限公司询问时,该公司接电行政人员表示,该公司确为“阿尔卑斯”“ALPS”的商标持有者。对于水源地等相关情况,对方称:“稍后会有市场部门相关人员回电。”截至发稿,中新网 未接到相关电话。
阿尔卑斯官网称,“阿尔卑斯”中文商标持有人为阿尔卑斯饮品有限公司,由ALPS ITALIA S.R.L(意大利阿尔卑斯有限公司)授权许可在中国区域内生产并销售阿尔卑斯品牌饮品。
中新网 搜索发现,某电商平台“ALPS旗舰店”销售的7款产品中,只有一款“阿尔卑斯饮用天然水(适合婴幼儿)”产品的水源地来自国外,销量不过百件,其余产品水源地均为国内。在另一电商平台,该品牌多款国内产地的产品累计销售突破100万。
浙江泽大律师事务所高级合伙人、浙江省律师协会竞争法专业委员会副主任乔万里分析称,此前“阿尔卑斯”商标申请通过审核,如今一系列商标许可备案却显示不予核准,或是历史遗留问题所致。
他介绍称,“早些年对于公众知晓的中外地名没有那么严格的限制,经营者可以申请作为商标,所以有大量核准注册的案例,但近几年商标注册申请的审查标准,特别是对于申请行政区划名称、山川名称、景点名称、建筑物名称等公共资源的审查越来越严格。”
北京恒都律师事务所合伙人、律师高广童表示,对于经营者在商品包装上突出使用带有特定境外地域指向的商标、但商品实际产地为国内的情形,即便企业合法享有相关商标权,且已在包装边缘或商品详情页标注真实产地,该行为仍可能构成引人误解的商业宣传,进而误导消费者。
将这段文字保存到test.txt中, 并使用下面的程序来读取,这里我特地选择了2026最新的新闻,也可以顺便测试对于未登录词(OOV)的识别情况。
首先使用spacy分词,代码如下:
import zh_core_web_smnlp = zh_core_web_sm.load()with open("test.txt", "r", encoding="utf-8") as f:print(" ".join([w.text for w in doc]))
下面是分词结果:
近日 , 有 媒体 报道 称 , 一 款 名 为 “ ALPS 阿尔卑斯 ” 的 饮用 天然 矿泉水 , 其 实际 水源地 却 是 国内 江西 萍乡 、 吉林 辽源 等 地 。
电商 平台 显示 , 该 款 矿泉水 500 ml 、 330 ml 两 个 规格 外包装 一致 , 瓶身 正面 印 有 雪山 图案 , “ ALPS ” 右上 角处 有 “ R ” 标注 , “ 阿尔卑斯 ” 字样 旁 却 未 有 商标 标注 。 据 商品 详情 页面 介绍 , 上述 几款 产品 产地 为 “ 中国 ” , 水源地 包括 吉林长 白山 、 江西 武功山 等 附近 。
中新网 注意 到 , 在 社交 平台 , 不少 消费者 吐槽 该 款 矿泉水 “ 挂羊头卖狗肉 ” 。
中新网 查询 中国 商标网 发现 , 该 款 矿泉水 真实 注册 商标 为 “ ALPS ” , 由 阿尔卑斯 饮品 有限 公司 的 一家 关联 公司 —— 阿尔卑斯 品牌 运营 管理 有限 公司 持有 。
值得一提的是 , 该 公司 共有 115 项 商标 相关 信息 。 其中 , 国际 分类 32 类( 包括 啤酒 、 矿泉水 和 汽水 等 ) 中 的 “ 阿尔卑斯 ” 中文 商标 目前 状态 为 “ 撤销 / 无效 宣告 申请 审查 中 ” 。 商标 详情 信息 显示 , 该 商标 于 2013年 发布 初审 公告 , 之后 经历 商标 异议 , 2025年 , 该 商标 使用 许可 备案 收到 不予 核准 通知 。
不过 , 中新网 致电 阿尔卑斯 饮品 有限 公司 询问 时 , 该 公司 接电 行政 人员 表示 , 该 公司 确为 “ 阿尔卑斯 ” “ ALPS ” 的 商标 持有者 。 对于 水源地 等 相关 情况 , 对方 称 : “ 稍后 会 有 市场 部门 相关 人员 回电 。 ” 截至 发稿 , 中新网 未 接到 相关 电话 。
阿尔卑斯官 网称 , “ 阿尔卑斯 ” 中文 商标 持有人 为 阿尔卑斯 饮品 有限 公司 , 由 ALPS ITALIA S . R . L( 意大利 阿尔卑斯 有限 公司 )授权 许可 在 中国 区域 内 生产 并 销售 阿尔卑斯 品牌 饮品 。
中新网 搜索 发现 , 某 电商 平台 “ ALPS 旗舰店 ” 销售 的 7款 产品 中 , 只有 一 款 “ 阿尔卑斯 饮用 天然 水( 适合 婴 幼儿) ” 产品 的 水源地 来自 国外 , 销量 不过 百件 , 其余 产品 水源 地均 为 国内 。 在 另 一 电商 平台 , 该 品牌 多款 国内 产地 的 产品 累计 销售 突破 100万 。
浙江 泽大 律师 事务所 高级 合伙人 、 浙江省 律师 协会 竞争法 专业 委员会 副主任 乔万 里 分析 称 , 此前 “ 阿尔卑斯 ” 商标 申请 通过 审核 , 如今 一系列 商标 许可 备案 却 显示 不予 核准 , 或是 历史 遗留 问题 所致 。
他 介绍 称 , “ 早些年 对于 公众 知晓 的 中外 地名 没有 那么 严格 的 限制 , 经营者 可以 申请 作为 商标 , 所以 有 大量 核准 注册 的 案例 , 但 近 几 年 商标 注册 申请 的 审查 标准 , 特别是 对于 申请 行政区 划名 称 、 山川 名称 、 景点 名称 、 建筑物 名称 等 公共 资源 的 审查 越来越 严格 。 ”
北京恒 都 律师 事务所 合伙人 、 律师 高广童 表示 , 对于 经营者 在 商品 包装 上 突出 使用 带有 特定 境外 地域 指向 的 商标 、 但 商品 实际 产地 为 国内 的 情形 , 即便 企业 合法 享有 相关 商标权 , 且 已 在 包装 边缘 或 商品 详情 页 标注 真实 产地 , 该 行为 仍 可能 构成 引人 误解 的 商业 宣传 , 进而 误导 消费者 。
接下来我们看一下pkuseg的代码,由于pkuseg也带有多个模型,这里我们采用默认模型:
import pkuseg
seg = pkuseg.pkuseg()
with open("test.txt", "r", encoding="utf-8") as f:
text = seg.cut(f.read())
print(" ".join(text))下面是分词结果:
近日 , 有 媒体 报道 称 , 一 款 名为 “ ALPS 阿尔卑斯 ” 的 饮用 天然 矿泉水 , 其 实际 水源地 却 是 国内 江西 萍乡 、 吉林 辽源 等 地 。 电商 平台 显示 , 该 款 矿泉水 500 ml 、 330 ml 两 个 规格 外包装 一致 , 瓶身 正面 印 有 雪山 图案 , “ ALPS ” 右 上 角处 有 “ R ” 标注 , “ 阿尔卑斯 ” 字样 旁 却 未 有 商标 标注 。 据 商品 详情 页面 介绍 , 上述 几 款 产品 产地 为 “ 中国 ” , 水源地 包括 吉林 长白山 、 江西 武功山 等 附近 。 中新网 注意 到 , 在 社交 平台 , 不少 消费者 吐槽 该 款 矿泉水 “ 挂羊头卖狗肉 ” 。 中新网 查询 中国 商标网 发现 , 该 款 矿泉水 真实 注册 商标 为 “ ALPS ” , 由 阿尔卑斯 饮品 有限公司 的 一家 关联 公司 —— 阿尔卑斯 品牌 运营 管理 有限 公司 持有 。 值得一提的是 , 该 公司 共有 115 项 商标 相关 信息 。 其中 , 国际 分类 32 类 ( 包括 啤酒 、 矿泉水 和 汽水 等 ) 中 的 “ 阿尔卑斯 ” 中文 商标 目前 状态 为 “ 撤销 / 无效 宣告 申请 审查 中 ” 。 商标 详情 信息 显示 , 该 商标 于 2013年 发布 初审 公告 , 之后 经历 商标 异议 , 2025年 , 该 商标 使用 许可 备案 收到 不予 核准 通知 。 不过 , 中新网 致电 阿尔卑斯 饮品 有限公司 询问 时 , 该 公司 接电 行政 人员 表示 , 该 公司 确 为 “ 阿尔卑斯 ” “ ALPS ” 的 商标 持有者 。 对于 水源地 等 相关 情况 , 对方 称 : “ 稍后 会 有 市场 部门 相关 人员 回电 。 ” 截至 发稿 , 中新网 未 接到 相关 电话 。 阿尔卑斯 官网 称 , “ 阿尔卑斯 ” 中文 商标 持有人 为 阿尔卑斯 饮品 有限公司 , 由 ALPS ITALIA S.R.L ( 意大利 阿尔卑斯 有限公司 ) 授权 许可 在 中国 区域 内 生产 并 销售 阿尔卑斯 品牌 饮品 。 中新网 搜索 发现 , 某 电商 平台 “ ALPS 旗舰店 ” 销售 的 7 款 产品 中 , 只有 一 款 “ 阿尔卑斯 饮用 天然水 ( 适合 婴幼儿 ) ” 产品 的 水源地 来自 国外 , 销量 不过 百件 , 其余 产品 水源地 均 为 国内 。 在 另 一 电商 平台 , 该 品牌 多 款 国内 产地 的 产品 累计 销售 突破 100万 。 浙江 泽大 律师 事务所 高级 合伙人 、 浙江省 律师 协会 竞争法 专业 委员会 副主任 乔 万里 分析 称 , 此前 “ 阿尔卑斯 ” 商标 申请 通过 审核 , 如今 一系列 商标 许可 备案 却 显示 不予 核准 , 或是 历史 遗留 问题 所 致 。 他 介绍 称 , “ 早些年 对于 公众 知晓 的 中外 地名 没有 那么 严格 的 限制 , 经营者 可以 申请 作为 商标 , 所以 有 大量 核准 注册 的 案例 , 但 近 几 年 商标 注册 申请 的 审查 标准 , 特别是 对于 申请 行政区划 名称 、 山川 名称 、 景点 名称 、 建筑物 名称 等 公共 资源 的 审查 越来越 严格 。 ” 北京 恒 都 律师 事务所 合伙人 、 律师 高 广童 表示 , 对于 经营者 在 商品 包装 上 突出 使用 带有 特定 境外 地域 指向 的 商标 、 但 商品 实际 产地 为 国内 的 情形 , 即便 企业 合法 享有 相关 商标权 , 且 已 在 包装 边缘 或 商品 详情 页 标注 真实 产地 , 该 行为 仍 可能 构成 引 人 误解 的 商业 宣传 , 进而 误导 消费者 。
可以看到,一个主要的区别就是,pkuseg会默认去除掉换行符,而spacy不会,再从整体效果来看,pkuseg的默认模型要比spacy的模型好一些,尤其是长白山、水源地这一类词语上,但是从人名上来说,spacy有对有错,pkuseg则都将姓和名分开处理。
总体来说,我个人感觉pkuseg自带的默认模型更好一些,如果单纯是分词任务的话,可以直接采用pkuseg,就没必要使用spacy了。
评论
发表评论