cpca库使用简明教程
cpca是chinese_province_city_area_mapper的全称,在处理中文地址比较好用,这里记录下库的主要功能与使用方法。
安装
pip install cpca
cpca.transform
cpca.transform 是 cpca库的核心功能,其输入是任意可迭代对象,输出为pandas的DataFrame对象,参数及含义如下:
- location_strs :包含地址信息的字符串,是一个可迭代对象,可迭代对象的元素数量将等于输出结果中DataFrame的行数量
- umap:一个自定义的字典,用于处理“行政区”重名时,字符串中的重名区默认对应哪个的“行政省市”;另外省市行政区域名称不存在重名问题,仅考虑“行政区”重名问题即可
- index:指定自定义的DataFrame的index值
- cut:是否使用分词匹配模式,默认是True,会提高处理速度,若指定False,则会采用“全文匹配的模型”,该模型下的精度会高些,但处理速度会慢些
- lookahead:默认为8个字符,可以理解为窗口大小
- pos_sensitive:默认为False,改为True时,则在输出的DataFrame中将新增三列,分别表示抽取省、市、地区的起始位置,若值为-1,表示推断出来的
- open_warning: 是否显示警告信息,默认True,建议打开(当发现重名区并且不知道将其映射到哪一个市时,会将其加入警告信息并显示,打开次功能可以帮助解决数据集中的重名区问题)
- 函数输入输出如下所示,信息来自官方说明:
参考资料
https://github.com/DQinYuan/chinese_province_city_area_mapper