NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~

2022-12-31,,,,

~~因为不太会使用opencv、matlab工具,所以在找一些比较简单的工具。

.

.

一、NLP标注工具BRAT

BRAT是一个基于web的文本标注工具,主要用于对文本的结构化标注,用BRAT生成的标注结果能够把无结构化的原始文本结构化,供计算机处理。利用该工具可以方便的获得各项NLP任务需要的标注语料。以下是利用该工具进行命名实体识别任务的标注例子。

WeTest舆情团队在使用:http://wetest.qq.com/bee/

使用案例:http://blog.csdn.net/owengbs/article/details/49780225

.

.


二、VS标注工具——LabelImg

1、PyQt

用 PyQt 写的, 很轻量, Linux/macOS/Windows 全平台均可运行.

工具github网址:https://github.com/tzutalin/labelImg

知乎介绍网址:有图像标注工具推荐或者分享吗?

2、Vatic

视频标注工具vatic,Vatic源自MIT的一个研究项目(Video Annotation Tool from Irvine, California)。输入一段视频,支持自动抽取成粒度合适的标注任务并在流程上支持接入亚马逊的众包平台Mechanical Turk。

网址:http://web.mit.edu/vondrick/vatic/

.

.


三、Amazon’s Mechanical Turk 离线工作框架

一个开源的Amazon’s Mechanical Turk 离线工作框架,基于Django搭建的

github网址:https://github.com/hltcoe/turkle

.

.


四、用已训练来进行图像标注

《使用深度学习和Fisher向量进行图片标注》(paper)

主讲人Lior Wolf,特拉维夫大学的教员在一次伦敦深度学习会议上的一次公开演讲:

为了实现图像标注和搜索,他们最开始用CNNs将图片转换成向量,用Word2Vec将词语转换成向量。大部分研究工作都集中于如何将词语向量结合到语句向量之中,由此产生了基于Fisher向量的模型。一旦他们得到了语句向量,他们使用典型相关分析(CCA)将图片表示和语句表示投射到同一空间里,使图像和句子可以匹配,找到最近邻的部分。

参考自博客:2015伦敦深度学习峰会笔记:来自DeepMind、Clarifai等大神的分享

.

.


五、国内一些众包的数据标注服务商

1、敲宝网——众包

里面确实有一些图像分类、图像标注的任务。但是也不是很多。

2、小鱼儿网

我的技能时间交易平台小鱼儿网成立最晚,但却走了最具互联网思维的盈利之路,增值服务盈利,平台在整个过程交易中不收取费用,提供大数据分析,筛选服务者等增值服务,主动权完全交给用户,互联网时代,流量为王,用户为王,小鱼儿网的盈利模式无疑向这个宗旨贴近的,长期来看,这种盈利模式或许最聪明。

挺大的,但是没有看到有图像的任务。

3、威客-创意,一品威客网

中国最专业威客网站一品威客网借鉴了猪八戒盈利模式的短板,对用户划分普通用户和vip用户,对普通用户实行免费,对VIP用户收取会员费,在互联网时代,有效的笼络住了大批用户的心,不失为一种好的盈利模式。

国内最大的众包了吧,但是图像标识项目很少,商家也几乎没有看到..

4、数据堂

确确实实有数据标注,而且有文本、语音、图片采集项目。

5、百度众包

里面有很多任务与案例,文本、语音、图片都有。

6、阿里众包

图像采集任务?

.

.


六、图像数据集

1、LSUN:用于场景理解和多任务辅助(房间布局估计,显着性预测等)。

地址:http://lsun.cs.princeton.edu/2016/

2、PASCAL VOC:一个通用的图像分割/分类数据集,对构建真实图像的注释用处不是特别大,但对于基线很有用。

地址:http://host.robots.ox.ac.uk/pascal/VOC/

NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~的相关教程结束。

《NLP+VS︱深度学习数据集标注工具、方法摘录,欢迎补充~~.doc》

下载本文的Word格式文档,以方便收藏与打印。