python 测试开发项目实战 - 目录 https://china-testing.github.io/practices.html
python 工具书籍下载 - 持续更新 https://china-testing.github.io/python_books.html
什么是自然语言处理?
自然语言处理是指通过软件或机器理解并操作文本或语音. 人类互动, 了解彼此的观点, 并用适当的答案作出回应. 在 NLP 中, 这种交互, 理解, 响应是由计算机而不是人类完成的.
什么是 NLTK?
NLTK 代表 Natural Language Toolkit. 它包使计算机理解人类语言并使用适当的响应回复它. 本教程中将讨论标记, 粉刺, 词形还原, 标点, 字符计数, 字数统计等.
自然语言库介绍
NLTK 最有用, 且是是所有 NLP 库中的鼻祖.
spaCy 这是完全优化和高度准确的库, 广泛用于深度学习
Stanford CoreNLP Python 基于 C-S 的体系结构, 用 JAVA 编写的, 但它提供了在 Python API
TextBlob 处理文本数据, 主要以 API 的形式提供所有类型的操作.
Gensim 强大, 非常高效且可扩展.
Pattern 个轻量级 NLP 模块. 这通常用于 web 挖掘, 爬虫. p
Polyglot 轻松处理多语言应用程序, 基于身份和实体方式的特征提取.
PyNLPl 又名 Pineapple. 它为许多数据格式提供了解析器, 如 FoLiA/Giza/Moses/ARPA/Timbl/CQL.
Vocabulary 从给定文本中获取语义类型信息.
另外还有 jieba,SnowNLP,thulac 等系列中文库, 可以参考下: https://github.com/china-testing/python-api-tesing
NLTK 安装
pip3 install nltk
下载数据集
- import nltk
- nltk.download ()
image.PNG
验证数据集
- >>> from nltk.corpus import brown
- >>> brown.words()
- ['The', 'Fulton', 'County', 'Grand', 'Jury', 'said', ...]
参考资料
讨论 qq 群 144081101 591302926 567351477
本文最新版本地址
本文涉及的 python 测试开发库 https://github.com/china-testing/python-api-tesing 谢谢点赞!
本文相关海量书籍下载
分词快速入门
- >>> from nltk.tokenize import RegexpTokenizer
- >>> tokenizer = RegexpTokenizer(r'\w+')
- >>> filterdText=tokenizer.tokenize('Hello https://china-testing.github.io/, You have build a very good site and I love visiting your site.')
- >>> print(filterdText)
- ['Hello', 'https', 'china', 'testing', 'github', 'io', 'You', 'have', 'build', 'a', 'very', 'good', 'site', 'and', 'I', 'love', 'visiting', 'your', 'site']
RegexpTokenizer 删除所有表达式, 符号, 字符, 数字或任何你去掉的东西.
来源: http://www.jianshu.com/p/35dd45d2cb51