美国留学择校,LAC与University要分清
LAC与University
University 即综合性大学,与LAC最大的不同是通常提供本科和研究生教育。在学校面积、学生教授人数、专业科目、研究资源等各方面,University都比LAC规模大得多。University比较提倡多样化,录取人数较多。
由于文理学院规模都不大,所以在同一地区的文理学院们会组成一个校际联盟来共享学术项目,课外活动,和研究设施。今天,小编为大家介绍一下美国著名的校际联盟。
美国私立文理学院之俄亥俄五校联盟
1
one
欧柏林学院
Oberlin College
简称OC,始建于1833年,是俄亥俄五校联盟的领头者,与联盟中的其他四个学校在体育上、学术上、资源上、课外活动上都有频繁交流。大学由两部分组成:顶尖私立文理学院和享誉盛名的音乐学院。
2
two
凯尼恩学院
Kenyon College
建立于1824年,是俄亥俄州中部乡野一所古老的文理学院。凯尼恩学院比欧柏林学院更主流,比丹尼森大学更严格,比伍斯特学院更具筛选性。其英文文学专业尤其著名,在世界享有盛誉。
3
three
俄亥俄卫斯理大学
Ohio Wesleyan University
创立于1842年,是美国一所私立文科大学,采用小班教学,全体教师拥有博士或同领域更高学位,教学质量高。
4
four
丹尼森大学
Denison University
建立于1831年,是俄亥俄州第二古老的高等学府,曾被《普林斯顿评论》评名为“最佳中西部院校”,并跻身《美国新闻与世界报道》“2019全美文理学院”排名43名。该校所有学生都被要求住校。
5
five
伍斯特学院
College of Wooster
建立于1866年,是一所历史悠久的私立文理学院,提供四年制大学预科和本科类学位课程。学校以其独特的“自主学习”(Independent Study)计划项目而闻名。
美国私立文理学院之宾州三校联盟
1
one
哈弗福德学院
Haverford College
简称Fords,是一所继承了贵格会精神的小型私立文理学院,成立于1833年,仅开设有本科学位项目,是美国知名的文理学院,常年据USNEWS文理学院排名的前列。
2
two
斯沃斯莫尔学院
Swarthmore College
也被译为斯沃斯摩尔学院,成立于1864年,是美国最顶尖的私立文理学院之一,仅开设有本科学位项目。常年居USNEWS美国文理学院排名的前列,素有“小常春藤”之称。
3
three
布林摩尔学院
Bryn Mawr College
成立于1885年,是一所女子文理学院,是美国历史上著名的“七姐妹学校”的一员,以本科教学为主,但也提供有少量的硕士、博士课程(研究生项目招收男生)。
美国私立文理学院之麻省五校联盟
1
one
阿默斯特学院
Amherst College
成立于1821年,多年被评为美国最好的文理学院之一,与威廉姆斯学院Williams College及卫斯理大学Wesleyan University被并称为“小三杰”或“小常青藤”,与哈佛、耶鲁、普林斯顿“三巨头”相对应。
2
two
曼荷莲学院
Mount Holyoke College
创建于1837年,和史密斯学院一样是一所女校,是“七姐妹学院”中历史最悠久的“大姐”。
3
three
史密斯学院
Smith College
创建于1871年,是一所美国最大的文科女子私立院校,也是美国第一个也是唯一一个为自己的本科生颁发工程学学位的女子学院,学校的工程系和普林斯顿大学有交换项目,学生在大三春季的时候可以参与到此项目中。
4
four
罕布什尔学院
Hampshire College
创立于1965年,是一所极具创新意识的私立文理学院,学生可以自行设计课程,根据自己的兴趣及对知识的探索欲望,和教授一起来设计所要学习的课程,其灵活性非常适合艺术生。
5
five
马萨诸塞大学安姆斯特分校
UMass Amherst
简称UMass Amherst,始建于1863年,美国东北部著名的公立大学,是享誉世界的美国著名公立大学系统麻省大学中的一员,也是建校最早的校区。
NLP工具 中文词法分析之LAC
来源:AINLP
作者:52nlp
之前在调研中文分词和词性标注相关工具的时候就发现了百度的深度学习中文词法分析工具:baidu/lac(https://github.com/baidu/lac),但是通过这个项目github上的文档描述以及实际动手尝试源码编译安装发现非常繁琐,缺乏通常中文分词工具的易用性,所以第一次接触完百度lac之后就放弃了:
LAC是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。LAC既可以认为是Lexical Analysis of Chinese的首字母缩写,也可以认为是LAC Analyzes Chinese的递归缩写。
LAC基于一个堆叠的双向GRU结构,在长文本上准确复刻了百度AI开放平台上的词法分析算法。效果方面,分词、词性、专名识别的整体准确率95.5%;单独评估专名识别任务,F值87.1%(准确90.3,召回85.4%),总体略优于开放平台版本。在效果优化的基础上,LAC的模型简洁高效,内存开销不到100M,而速度则比百度AI开放平台提高了57%。
本项目依赖Paddle v0.14.0版本。如果您的Paddle安装版本低于此要求,请按照安装文档中的说明更新Paddle安装版本。如果您使用的Paddle是v1.1以后的版本,请使用该项目的分支for_paddle_v1.1。注意,LAC模块中的conf目录下的很多文件是采用git-lfs存储,使用git clone时,需要先安装git-lfs。
为了达到和机器运行环境的最佳匹配,我们建议基于源码编译安装Paddle,后文也将展开讨论一些编译安装的细节。当然,如果您发现符合机器环境的预编译版本在官网发布,也可以尝试直接选用。
最近发现百度将自己的一些自然语言处理工具整合在PaddleNLP下,文档写得相对清楚多了:
PaddleNLP是百度开源的工业级NLP工具与预训练模型集,能够适应全面丰富的NLP任务,方便开发者灵活插拔尝试多种网络结构,并且让应用最快速达到工业级效果。
PaddleNLP完全基于PaddlePaddle Fluid开发,并提供依托于百度百亿级大数据的预训练模型,能够极大地方便NLP研究者和工程师快速应用。使用者可以用PaddleNLP快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等NLP任务的组网、建模和部署,而且可以直接使用百度开源工业级预训练模型进行快速应用。用户在极大地减少研究和开发成本的同时,也可以获得更好的基于工业实践的应用效果。
这次直接通过PaddleNLP试用LAC词法分析工具,其他NLP工具感兴趣的同学可以测试,可以直接follow文档操作,比上次便捷很多,文档在这里:百度词法分析
Lexical Analysis of Chinese,简称 LAC,是一个联合的词法分析模型,能整体性地完成中文分词、词性标注、专名识别任务。我们在自建的数据集上对分词、词性标注、专名识别进行整体的评估效果,具体数值见下表;此外,我们在百度开放的ERNIE模型上 finetune,并对比基线模型、BERT finetuned 和 ERNIE finetuned 的效果,可以看出会有显著的提升。可通过AI开放平台-词法分析线上体验百度的词法分析服务。
我是在virvutuenv下通过pip 安装 百度飞桨(PaddlePaddle),有多个版本选择,可在PaddlePaddle主页这里进行选择:安装指南
以下在Ubuntu16.04, Python3.x, CPU环境下测试和部署:
首先安装PaddlePaddel,目前是1.4.1版本:
pip install paddlepaddle
克隆工具集代码库到本地
git clone https://github.com/PaddlePaddle/models.git
cd models/PaddleNLP/lexical_analysis
下载数据集文件,解压后会生成 ./data/ 文件夹
wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis-dataset-1.0.0.tar.gz
tar xvf lexical_analysis-dataset-1.0.0.tar.gz
下载模型文件,这里没有使用PaddleHub,wget直接下载:
# download baseline model
wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis-1.0.0.tar.gz
tar xvf lexical_analysis-1.0.0.tar.gz
# download ERNIE finetuned model
wget --no-check-certificate https://baidu-nlp.bj.bcebos.com/lexical_analysis_finetuned-1.0.0.tar.gz
tar xvf lexical_analysis_finetuned-1.0.0.tar.gz
注:下载 ERNIE 开放的模型请参考ERNIE,下载后可放在 ./pretrained/ 目录下。
然后就可以直接使用里面的脚本进行训练、评估和预测了,以下来自于官方文档:
模型评估
基于自建的数据集训练了一个词法分析的模型,可以直接用这个模型对测试集 ./data/test.tsv 进行验证
# baseline model
sh run.sh eval
# ERNIE finetuned model
sh run_ernie.sh eval
模型训练
基于示例的数据集,可以运行下面的命令,在训练集 ./data/train.tsv 上进行训练
# baseline model
sh run.sh train
# ERNIE finetuned model
sh run_ernie.sh train
模型预测
加载已有的模型,对未知的数据进行预测
# baseline model
sh run.sh infer
# ERNIE finetuned model
sh run_ernie.sh infer
调用脚本跑没有问题,GPU也比CPU快很多,但是都是需要基于特定数据格式的:
训练使用的数据可以由用户根据实际的应用场景,自己组织数据。除了第一行是 text_a\tlabel 固定的开头,后面的每行数据都是由两列组成,以制表符分隔,第一列是 utf-8 编码的中文文本,以 \002 分割,第二列是对应每个字的标注,以 \002分隔。我们采用 IOB2 标注体系,即以 X-B 作为类型为 X 的词的开始,以 X-I 作为类型为 X 的词的持续,以 O 表示不关注的字(实际上,在词性、专名联合标注中,不存在 O )。示例如下:
除\002了\002他\002续\002任\002十\002二\002届\002政\002协\002委\002员\002,\002马\002化\002腾\002,\002雷\002军\002,\002李\002彦\002宏\002也\002被\002推\002选\002为\002新\002一\002届\002全\002国\002人\002大\002代\002表\002或\002全\002国\002政\002协\002委\002员 p-B\002p-I\002r-B\002v-B\002v-I\002m-B\002m-I\002m-I\002ORG-B\002ORG-I\002n-B\002n-I\002w-B\002PER-B\002PER-I\002PER-I\002w-B\002PER-B\002PER-I\002w-B\002PER-B\002PER-I\002PER-I\002d-B\002p-B\002v-B\002v-I\002v-B\002a-B\002m-B\002m-I\002ORG-B\002ORG-I\002ORG-I\002ORG-I\002n-B\002n-I\002c-B\002n-B\002n-I\002ORG-B\002ORG-I\002n-B\002n-I
我比较关注inference,不过测试其他文本都需要做一些预处理和后处理,可能我更需要的是一个全流程的脚本,给定一段文本作为输出,然后得到中文分词、词性标注、命名实体识别的结果,不过在这个目录下貌似没有找到这样的脚本或者case。
这个时候轮到PaddleHub登场了(https://github.com/PaddlePaddle/PaddleHub)
PaddleHub是基于PaddlePaddle开发的预训练模型管理工具,可以借助预训练模型更便捷地开展迁移学习工作。
特性
通过PaddleHub,您可以:
通过命令行,无需编写代码,一键使用预训练模型进行预测;
通过hub download命令,快速地获取PaddlePaddle生态下的所有预训练模型;
借助PaddleHub Finetune API,使用少量代码完成迁移学习;
更多Demo可参考 ERNIE文本分类 图像分类迁移
完整教程可参考 文本分类迁移教程 图像分类迁移教程
确实非常方便,样例中已经给了快速安装方法和几个Demo的使用方法:
安装
环境依赖
Python==2.7 or Python>=3.5
PaddlePaddle>=1.4.0
pip安装方式如下:
$ pip install paddlehub
快速体验
安装成功后,执行下面的命令,可以快速体验PaddleHub无需代码、一键预测的命令行功能:
# 使用百度LAC词法分析工具进行分词
$ hub run lac --input_text "今天是个好日子"
# 使用百度Senta情感分析模型对句子进行预测
$ hub run senta_bilstm --input_text "今天是个好日子"
# 使用SSD检测模型对图片进行目标检测,检测结果如下图所示
$ wget --no-check-certificate https://paddlehub.bj.bcebos.com/resources/test_img_bird.jpg
$ hub run ssd_mobilenet_v1_pascal --input_path test_img_bird.jpg
不过我想在Python中使用百度Lac,所以在 PaddleHub/demo/lac 下找到了python demo脚本,模仿着测试了一下:
虽然最后一个中文分词的超难Case没有搞定(这方面可以参考:中文分词八级测试),但是发现百度LAC在命名实体识别貌似比较强悍,这可以从百度LAC的词性标注集上看出端倪:
词性和专名类别标签集合如下表,其中词性标签24个(小写字母),专名类别标签4个(大写字母)。这里需要说明的是,人名、地名、机名和时间四个类别,在上表中存在两套标签(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注为第二套标签的词,是模型判断为低置信度的人名、地名、机构名和时间词。开发者可以基于这两套标签,在四个类别的准确、召回之间做出自己的权衡。
The End
相关问答
快船为什么简称是 lac ?快船(LosAngelesClippers)是美国国家篮球协会(NBA)的一支篮球队,他们的简称"LAC"代表快船的全名的缩写。快船最初是于1970年在加州圣迭戈成立的,当时...
lac 和lal是什么意思?"lac"和"lal"都是缩写词,具体含义取决于上下文。以下是可能的含义:-"LAC"可以代表"LinkAggre...
LAC 是什么意思?1、LAC:locationareawxxxcode-style位置区码(移动通信系统中),是为寻呼而设置的一个区域,覆盖一片地理区域,初期一般按行政区域划分,现在很灵活了,按寻...
LAC 是何意思?1.LAC是指LiberalArtsCollege的缩写。2.这种类型的学院主要注重学生的全面发展,强调人文、社会科学和自然科学的综合教育,鼓励学生跨学科学习和思考,培养...
经济学里 LAC 是什么?经济学里LAC是长期平均成本,LAC代表:long-runaveragecost。长期平均成本,是长期内厂商平均每单位产量花费的总成本,用公式表示为:LAC等于LTC除以Q。长期平...
移动rxlv(dbm), LAC ,CI是些什么_作业帮[最佳回答]通信中可以这样理解,dbm指的是信号电平强度,LAC指位置区,CI指小区,上面对dbm和LAC说的很详细了,在通信系统中CI实际是CellID也就是小区标识的意思,...
lac 划分为哪两部分?答:APL,在生产要素资本不变劳动可变情况下的平均产量。MPL,在生产要素资本不变劳动可变情况下的边际产量。LMC,厂商的长期边际成本。LAC,厂商的长期...答...
lac 代表啥指标?LAC:locationareacode位置区编码(移动通信系统中),是为寻呼而设置的一个区域,覆盖一片地理区域,初期一般按行政区域划分(一个县或一个区),现在很灵活了,按...
lac 是什么单位?是计量单位。lac是印度的计量单位。1lac=100,000计量单位是指根据约定定义和采用的标量,任何其他同类量可与其比较使两个量之比用一个数表示。计量单位具...
lac 函数?Lac函数是一种自然语言处理技术,用于中文文本的分词和词性标注。它可以将一段中文文本切分成词语,并为每个词语标注其词性,如名词、动词等。通过使用Lac函数,...