pinyin4j
首先下载pinyin4j-2.5.0包,http://pinyin4j.sourceforge.net/ Pinyin4j是一种流行的Java库,支持中国的文字和最流行的拼音系统之间的皈依。拼音输出格式可以定制。 Pinyin4j发表至今,已经下载了55000次,每星期仍couting200+!
参考网友文献:http://www.open-open.com/lib/view/open1392087364364.html
http://wister.iteye.com/blog/334562
http://blog.csdn.net/ssrc0604hx/article/details/41725355
http://blog.csdn.net/foamflower/article/details/6209552
HanLP
拼音声母韵母转换提取.png最近HanLP希望支持拼音与繁体功能,所以学习了几个开源的Java实现,优化后集成进来。
下载地址:hanlp-portable-1.1.5.jar
文档:http://hanlp.linrunsoft.com/doc/_build/html/util.html
开源项目地址:https://github.com/hankcs/HanLP
HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。
HanLP提供下列功能:
中文分词
最短路分词
N-最短路分词
CRF分词
索引分词
极速词典分词
用户自定义词典
词性标注
命名实体识别
中国人名识别
音译人名识别
日本人名识别
地名识别
实体机构名识别
关键词提取
TextRank关键词提取
自动摘要
TextRank自动摘要
短语提取
基于互信息和左右信息熵的短语提取
拼音转换
多音字
声母
韵母
声调
简繁转换
繁体中文分词
简繁分歧词
文本推荐
语义推荐
拼音推荐
字词推荐
依存句法分析
基于神经网络的高性能依存句法分析器
MaxEnt依存句法分析
CRF依存句法分析
语料库工具
分词语料预处理
词频词性词典制作
BiGram统计
词共现统计
CoNLL语料预处理
CoNLL UA/LA/DA评测工具
在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。
https://github.com/hankcs/HanLP