Spark中使用HanLP分词

1.将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：
root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口：
Spark中使用HanLP分词
3.设置IoAdapter，创建分词器：

然后，就可以在Spark的操作中使用segment进行分词了。

文章来源于云聪的博客

相关文章：

2021-08-01
2022-02-11
2021-11-10
2022-12-23
2021-06-21
2022-12-23

猜你喜欢

2021-11-02
2021-06-27
2021-10-16
2021-08-14
2021-10-07
2021-04-08
2022-12-23

相关资源

下载 2022-12-26
下载 2023-03-23
下载 2023-02-26
下载 2022-12-19

相似解决方案

热门标签

Java Python linux javascript Mysql C# Docker 算法前端 SpringBoot Redis Vue spring 设计模式 .net core .net kubernetes c++ 数据库数据结构大数据 js 机器学习微服务 Android Go 程序员面试 JVM ASP.net core 云原生人工智能后端 PHP git CSS golang k8s Nginx Django mybatis 深度学习多线程 React 架构 devops 爬虫云计算 Spring Boot LeetCode