10
10
11
11
CppJieba是"结巴(Jieba)"中文分词的C++版本
12
12
13
- ## 特性
13
+ ### 主要特点
14
14
15
- + 源代码都写进头文件` include/cppjieba/*.hpp ` 里,` include ` 即可使用。
16
- + 支持` utf8 ` 编码。
17
- + 项目自带较为完善的单元测试,核心功能中文分词(utf8)的稳定性接受过线上环境检验。
18
- + 支持载自定义用户词典,多路径时支持分隔符'|'或者';'分隔。
19
- + 支持 ` Linux ` , ` Mac OSX ` , ` Windows ` 操作系统。
15
+ - 🚀 高性能:经过线上环境验证的稳定性和性能表现
16
+ - 📦 易集成:源代码以头文件形式提供 (` include/cppjieba/*.hpp ` ),包含即可使用
17
+ - 🔍 多种分词模式:支持精确模式、全模式、搜索引擎模式等
18
+ - 📚 自定义词典:支持用户自定义词典,支持多词典路径(使用'|'或';'分隔)
19
+ - 💻 跨平台:支持 Linux、macOS、Windows 操作系统
20
+ - 🌈 UTF-8编码:原生支持 UTF-8 编码的中文处理
20
21
21
- ## 用法
22
+ ## 快速开始
22
23
23
- ### 依赖软件
24
+ ### 环境要求
24
25
25
- * ` g++ (version >= 4.1 is recommended) or clang++ ` ;
26
- * ` cmake (version >= 2.6 is recommended) ` ;
26
+ - C++ 编译器:
27
+ - g++ (推荐 4.1 以上版本)
28
+ - 或 clang++
29
+ - cmake (推荐 2.6 以上版本)
27
30
28
- ### 下载和编译
31
+ ### 安装步骤
29
32
30
33
``` sh
31
34
git clone https://github.com/yanyiwu/cppjieba.git
@@ -36,15 +39,11 @@ mkdir build
36
39
cd build
37
40
cmake ..
38
41
make
39
- ```
40
-
41
- 有兴趣的可以跑跑测试(可选):
42
42
43
- ```
44
43
make test
45
44
```
46
45
47
- ## Demo
46
+ ## 使用示例
48
47
49
48
```
50
49
./demo
@@ -210,71 +209,37 @@ For more details, please see [demo](https://github.com/yanyiwu/cppjieba-demo).
210
209
211
210
+ [ dict.367W.utf8] iLife(562193561 at qq.com)
212
211
213
- ## 应用
214
-
215
- + [ GoJieba] go语言版本的结巴中文分词。
216
- + [ NodeJieba] Node.js 版本的结巴中文分词。
217
- + [ simhash] 中文文档的的相似度计算
218
- + [ exjieba] Erlang 版本的结巴中文分词。
219
- + [ jiebaR] R语言版本的结巴中文分词。
220
- + [ cjieba] C语言版本的结巴分词。
221
- + [ jieba_rb] Ruby 版本的结巴分词。
222
- + [ iosjieba] iOS 版本的结巴分词。
223
- + [ SqlJieba] MySQL 全文索引的结巴中文分词插件。
224
- + [ pg_jieba] PostgreSQL 数据库的分词插件。
225
- + [ simple] SQLite3 FTS5 数据库的分词插件。
226
- + [ gitbook-plugin-search-pro] 支持中文搜索的 gitbook 插件。
227
- + [ ngx_http_cppjieba_module] Nginx 分词插件。
228
- + [ cppjiebapy] 由 [ jannson] 开发的供 python 模块调用的项目 [ cppjiebapy] , 相关讨论 [ cppjiebapy_discussion] .
229
- + [ cppjieba-py] 由 [ bung87] 基于 pybind11 封装的 python 模块,使用体验上接近于原jieba。
230
- + [ KeywordServer] 50行搭建一个中文关键词抽取服务。
231
- + [ cppjieba-server] CppJieba HTTP 服务器。
232
- + [ phpjieba] php版本的结巴分词扩展。
233
- + [ perl5-jieba] Perl版本的结巴分词扩展。
234
- + [ jieba-dlang] D 语言的结巴分词 Deimos Bindings。
235
-
236
- ## 性能评测
237
-
238
- [ Jieba中文分词系列性能评测]
239
-
240
- ## Sponsorship
241
-
242
- [ ![ sponsorship] ( http://images.gitads.io/cppjieba )] ( https://tracking.gitads.io/?campaign=gitads&repo=cppjieba&redirect=gitads.io )
243
-
244
- ## Contributors
245
-
246
- ### Code Contributors
247
-
248
- This project exists thanks to all the people who contribute.
249
- <a href =" https://github.com/yanyiwu/cppjieba/graphs/contributors " ><img src =" https://opencollective.com/cppjieba/contributors.svg?width=890&button=false " /></a >
250
-
251
- [ GoJieba ] :https://github.com/yanyiwu/gojieba
252
- [ CppJieba ] :https://github.com/yanyiwu/cppjieba
253
- [ jannson ] :https://github.com/jannson
254
- [ cppjiebapy ] :https://github.com/jannson/cppjiebapy
255
- [ bung87 ] :https://github.com/bung87
256
- [ cppjieba-py ] :https://github.com/bung87/cppjieba-py
257
- [ cppjiebapy_discussion ] :https://github.com/yanyiwu/cppjieba/issues/1
258
- [ NodeJieba ] :https://github.com/yanyiwu/nodejieba
259
- [ jiebaR ] :https://github.com/qinwf/jiebaR
260
- [ simhash ] :https://github.com/yanyiwu/simhash
261
- [ 代码详解 ] :https://github.com/yanyiwu/cppjieba/wiki/CppJieba%E4%BB%A3%E7%A0%81%E8%AF%A6%E8%A7%A3
262
- [ issue25 ] :https://github.com/yanyiwu/cppjieba/issues/25
263
- [ exjieba ] :https://github.com/falood/exjieba
264
- [ KeywordServer ] :https://github.com/yanyiwu/keyword_server
265
- [ ngx_http_cppjieba_module ] :https://github.com/yanyiwu/ngx_http_cppjieba_module
266
- [ dict.367W.utf8 ] :https://github.com/qinwf/BigDict
267
- [ cjieba ] :http://github.com/yanyiwu/cjieba
268
- [ jieba_rb ] :https://github.com/altkatz/jieba_rb
269
- [ iosjieba ] :https://github.com/yanyiwu/iosjieba
270
- [ SqlJieba ] :https://github.com/yanyiwu/sqljieba
271
- [ Jieba中文分词系列性能评测 ] :http://yanyiwu.com/work/2015/06/14/jieba-series-performance-test.html
272
- [ pg_jieba ] :https://github.com/jaiminpan/pg_jieba
273
- [ gitbook-plugin-search-pro ] :https://plugins.gitbook.com/plugin/search-pro
274
- [ cppjieba-server ] :https://github.com/yanyiwu/cppjieba-server
275
- [ phpjieba ] :https://github.com/jonnywang/phpjieba
276
- [ perl5-jieba ] :https://metacpan.org/pod/distribution/Lingua-ZH-Jieba/lib/Lingua/ZH/Jieba.pod
277
- [ jieba-dlang ] :https://github.com/shove70/jieba
278
- [ simple ] :https://github.com/wangfenjin/simple
212
+ ## 生态系统
213
+
214
+ CppJieba 已经被广泛应用于各种编程语言的分词实现中:
215
+
216
+ - [ GoJieba] ( https://github.com/yanyiwu/gojieba ) - Go 语言版本
217
+ - [ NodeJieba] ( https://github.com/yanyiwu/nodejieba ) - Node.js 版本
218
+ - [ CJieba] ( https://github.com/yanyiwu/cjieba ) - C 语言版本
219
+ - [ jiebaR] ( https://github.com/qinwf/jiebaR ) - R 语言版本
220
+ - [ exjieba] ( https://github.com/falood/exjieba ) - Erlang 版本
221
+ - [ jieba_rb] ( https://github.com/altkatz/jieba_rb ) - Ruby 版本
222
+ - [ iosjieba] ( https://github.com/yanyiwu/iosjieba ) - iOS 版本
223
+ - [ phpjieba] ( https://github.com/jonnywang/phpjieba ) - PHP 版本
224
+ - [ perl5-jieba] ( https://metacpan.org/pod/distribution/Lingua-ZH-Jieba/lib/Lingua/ZH/Jieba.pod ) - Perl 版本
225
+
226
+ ### 应用项目
227
+
228
+ - [ simhash] ( https://github.com/yanyiwu/simhash ) - 中文文档相似度计算
229
+ - [ pg_jieba] ( https://github.com/jaiminpan/pg_jieba ) - PostgreSQL 分词插件
230
+ - [ gitbook-plugin-search-pro] ( https://plugins.gitbook.com/plugin/search-pro ) - Gitbook 中文搜索插件
231
+ - [ ngx_http_cppjieba_module] ( https://github.com/yanyiwu/ngx_http_cppjieba_module ) - Nginx 分词插件
232
+
233
+ ## 贡献指南
234
+
235
+ 我们欢迎各种形式的贡献,包括但不限于:
236
+
237
+ - 提交问题和建议
238
+ - 改进文档
239
+ - 提交代码修复
240
+ - 添加新功能
241
+
242
+
243
+ 如果您觉得 CppJieba 对您有帮助,欢迎 star ⭐️ 支持项目!
279
244
280
245
0 commit comments