自然语言处理学习2：英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

自然语言处理学习2：英语分词1word_tokenize, WordPunctTokenizer, TreebankWordTokenizer , WhitespaceTokenizer等

阅读量：3645 次

发布时间：2019-05-21

本文共 338 字，大约阅读时间需要 1 分钟。

1. 分词word tokenize

(1) 使用nltk.word_tokenize(text), 其中"isn't"被分割为"is"和"n't"

（2）使用WordPunctTokenizer(），单词标点分割，其中"isn't"被分割为"isn"，"'" 和“t"

(3) 使用TreebankWordTokenizer （宾夕法尼亚州立大学 Treebank单词分割器）, 其中"isn't"被分割为"is"和"n't"

(4) 使用WhitespaceTokenizer(), 空格符号分割，就是split(' ') 最简单的一个分词器。"isn't"作为一个整体，没有被分割。

(5) PunktWordTokenizer()：导入失败，未找到原因，欢迎交流讨论。

你可能感兴趣的文章

vue-element-admin关闭代码校验eslint

cordova环境配置，将vue项目打包成apk的详细流程

vue实现登录功能，且刷新页面不丢失数据

vue中父组件通过props向子组件传异步值为空

JSON序列化与反序列化在vue中的应用

在element-ui的table组件与双大括号中使用时间处理函数

vue给对象新增属性，页面不更新解决方法——四种方案

vue中使用vue-visibility-change监听浏览器页面之间的切换

vue中同时监听多个参数

vue-cli3.0项目中使用ttf字体

ubuntu安装nginx

windows安装ssh服务

Axure之动态面板

Axure之中继器

Axure之中继器添加行列

Axure之中继器的上、下页按钮

html做表格（个人简历）

CSS样式相关小结

vim 配置 emmet

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-14 11:18:58 当前IP: 18.191.210.170 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我