新知榜官方账号
2023-09-25 02:26:22
买过与hanlp配套的书《自然语言处理入门》,自然而然想着就用喊hanlp来做自然语言处理。并且hanlp目前还提供了2.0版本api接口,使用了深度学习这个高大上的工具。呵呵,但效果还要比较了才知道。功能比较下图的hanlp官网的功能界面。功能全面,而且提供的教学视频把各种功能的应用场景也讲清楚了。我就使用了他家api。
分词结果比较-四字词语需要分词的文本如下:这是从晋江文学网下载的小说免费章节部分。使用hanlp的api每次传输大小有限制。把原文本分割后多进程调用api,我已经写成函数了。但是因为网络请求,分词非常慢。而且api调用使用次数限制的,超过后需要付费。
#hanlp中分词,使用api
sp_text=[]
for i in range(math.ceil(len(string)/850)):
sp_text.append(string[i*850:(i+1)*850])
num_process=10
with multiprocessing.Pool(processes=num_process) as pool:
results_seg=pool.map(get_seg_hanlp,sp_text)
pool.close()
而结巴分词不需要限制大小。分词的词典加载到cache之后调用非常快。加载词典也就1秒多点。
#结巴分词
seg=get_seg(string)
两者结果分词结果中大小为四字的词比较(hanlp分词使用的是crf.):可以看出crf分词后的结果较结巴分词更宽泛,把很多不是成语或常用组合也分在了一起(之所以是crf因为它家视频教程里面推荐的)。而使用hanlp的标准分词后,分词比结巴还要严格些:
结尾通过以上比较和使用情况,Jieba可以把分词任务处理得恰恰令我满意了,hanlp虽然花样多,但分词粗了,细了都逼人难受。hanlp还有其他分词接口,但我就是试用的几个都不舒服。另外,hanlp1.x的python版可以下载,但是它的一个依赖的版本已经不在pypi了,所以不能直接下载,而且2.x都出来了,还用1.x干嘛,可能都没维护了。
相关工具
相关文章
推荐
一站式搞定AI绘图+视频,AI短片效率飙升的秘密在这儿!
2025-08-08 09:26
打工人新神器!10款国产AI,让你告别996!
2025-08-08 09:24
豆包视觉推理深度体验,AI也能“边看边想”了!
2025-08-08 09:19
300美元的AI男友来了!马斯克的情感生意从女友做到男友
2025-08-01 17:56
Agent智能体:2025年企业新员工,月薪仅需一度电?
2025-07-30 17:49
国产GLM-4.5把AI价格打到地板价,实测强到离谱!
2025-07-30 09:08
用AI批量生成治愈系漫画,月入2000+
2025-07-29 09:59
千亿市场规模背后,AI短剧商业化迎来爆发期?
2025-07-17 09:19
15个作品涨粉26万!AI历史账号又出王炸案例!
2025-07-09 09:37
亲测真香!这6个AI工具让工作效率翻倍,同事追着问链接
2025-06-17 16:21