• tlc.173.cn,tlc.173.cn【天天反水1.2%无上限】

  • 发布时间:2016-01-22 01:30 | 作者:yc | 来源:互联网 | 浏览:1200 次
  • tlc.173.cn,tlc.173.cn【天天反水1.2%无上限】

    nn 线性

    雷: uiuc有一个非分特别标致的nlp demo,把树与语意用图注解得非分特别明白,真是在显现高低了功夫

    cd 二

    我: 不逻辑,不国际,叠床架屋,向导规矩体系做没需要的构造层的笼统毕竟是欠好用每一条都能够写一长篇来论

    能够用上述的依存构造去看国际,比用 xbar 看国际杰出简练多了症结在于 non-terminal node,这是 psg 和 dg 的根基?底细不相同psg 理论上有笼统性 因为这个 nonterminal nodes因而 理论上能够更大略总结句型关于千变万化的语句,能够大略笼统出有限的句型来,确凿有其功dg 因为整个是 terminal nodes,总结句型比照难,只管反应逻辑和语义的联系愈加直接了当而 psg 中乔氏 xbar 更是其走向极点

    x-bar 理论流毒甚广,弗成思议地一味寻求构造的 generalization,搞出啥 ip 之类的节点来,叠床架屋,唯此为大年夜也欠美不雅,欠好读,欠好保护,一个构造搞得那么地深,一层套一层套那么多其间许多层根基?底细就没有内容,仅仅为了一个虚无缥缈的构造的generalization (或一味寻求所谓 universal grammar)而工资设置的

    我:我是一早就醒,夜里睡不着,白日打打盹

    毛: 都是用于nlp的parser?

    quote

    我: 汉语的逻辑动词作为词典给定的 pos 根基?底细上不需求在 pos 模块去篡改句法的词性,除非有非分特另外来由,这一点与西方言语做法不相同坑和类型都是细分类,细分类推粗分类管用,非分特别是汉语,这一点能够有同等粗分类正本的优点是,能够有兜底的大年夜规矩使用它,能够多快好省地做出 parser 来这一点在欧洲言语中体现得明显一些pos based rules 一上去,就能够干掉落一半的言语天气s --》 np vp; np ==》 dt (adj)* nn这些都是玩具相同的笼统规矩,可确凿能够归纳不少天气可是到了汉语,这种粗线条就不论用了汉语磨的是细活我论过这个 parser 开拓的差异:

    我: 你说说在 nlp 中,有啥是 psg tree 表达出来的好用的器械,是 dg tree 没有的?

    dt 这

    cd 一

    乔氏 x 杠杠理论 以及各式树形图表达法

    我:而 dg,稍加讲解,一样平常人都能看懂

    nn 平面

    vv 到

    我: 那却是

    雷: 是还有英国的,日本的

    dnp

    一句话,老了

    雷: 同ctb这个是口味疑问

    dg是直言不讳的

    力争更多意味呈

    我: 仅有的优点等于 乔氏给咱们画了一个国际大年夜同的饼,你顺着他的思路能够一贯走下去 空中楼阁相同感觉越走越近,有一种虚幻的满意感可是不接地气啊

    np

    ip-sbj

    我: 不过关于美,没的争哪里要顺着psg树去摸s和o呢?在dg tree,从 top 往下不就直接摸到了么?顺着任何一个老子,都能够摸到儿孙的枝枝蔓蔓,各类滋生,一望而知

    我: 短语构造的重要代价是在短语那个层面,越过短语去做语句的构造的时分,短语构造等于个添乱的器械即便在短语层面,短语内的联系仍旧是依存的联系好用,不过是说,根基?底细短语比起单个的短语基地词,在句法树的表达上构成了十分好的句法单位(句素)

    正本,传统言语学中的 subcat 就能够掩饰笼罩整个的argument 构造(最多是 svoc 四元),加上 modifier 和 adverbial 的构造,也就完整了

    我: 能够这么说吧,总归有许多内部折衷需求做,第三方的欠好使

    有两大年夜类树,都要倒过来画的,根朝上叶朝下,根据的是两种言语学理论,代表人物等于前面说到的仙人特氏和乔氏上面的树等于特氏的允从联系树(dependency tree),它直接把作为文法根基?底细单位的词与词串成树形还有一种等于乔氏短语构造树(phrase structure tree),特征是在根基?底细单位之间加了许多中介(non-terminal nodes),然后成形

    雷: 算法加词知识库加规矩库

    正本咱们措辞写文章都是一个词一个词往外蹦,这么出来的语句数学上叫线性一维可这线性的器械到了文法家眼里就变了,一维变两维,线性变平面,以是发生了树形构造上图的树等于咱们演习出来的文法机械人( parser) 主动天生的,只管并非白璧无瑕,倒也风韵绰约

    更多的xbar讨论在我的博文:《乔氏x 杠杠理论以及各式树形图表达法》:

    vp

    vp

    方才有个“浦东开拓和建造”的比方,从语义看,开拓和建造都带坑,浦东能够往里填句法,非分特别是pos在这个当地只会添乱

    雷: 等于为了美不雅,没有其他

    雷: 白西席归纳的好:向心的,和有坑的,两种根基?底细构造任它有万千,根基?底细节点就在这两种上演绎

    【立委科普:语法构造树之美(之二)】

    nn 线性

    我: 总归是,用 penntree 及其规范是多半人没的选,行业规范就定错了,你不自个开拓自个用的话,你只需顺从大略说,等于依存联系最简练好用

    白: 让语义去搞啊,句法弄这干啥,知道是“接受性的”向心构培育满意了约掉落、再约掉落

    我: 不需求完美的 parser 去做抽取,抽取层面能够补偿的因为抽取的时分,能够用词来驱动,能够把规矩写得有容纳性在词驱动的时分,因为节点是断定的,那么关于 parsing 的容错性就增强了事理很大略,任何前提的宽松都能够内部调剂来平衡node 严一点,relation (arc)就能够寛一点要是主语欠妥心做成宾语了,只需这种同伴是能够预见的,就能够容纳

    我: 乔老爷寻求言语共性(language universals)和相似数学公式的符号表达法入魔, 懂得他先有需要遭遇他的一系列 assumptions,然后水中望月相同地看到言语的国际大年夜同

    不明白/没用全都扔

    雷: psg tree:

    vv 发生

    白: 比方说红就知道是色彩的值,说辣就知道是滋味的值多一个少一个,都不影响全局在构造里,是一个指针指出去然后姥姥不疼舅舅不爱的弃儿

    vp

    天机弗成泄漏,泄漏者非神即仙前史上有两位功力特殊的文法仙人专门与天主刁难,各自为言语画树,一位叫 tesnière,另一位等于大年夜名鼎鼎的乔姆斯基

    nn 构造

    pu ,

    雷: 长得美不雅的树仍是psg的

    你把这个语句“这线性的器械到了文法家眼里就变了,一维变两维,线性变平面,以是发生了树形构造”拿去用你用的psg parser 来一下

    雷: 不流通的有些涉及到ug,可是xp留下的一些符号和构造,仍是被广泛运用的,即便在nlp范畴

    毛: 有没有开源的项目?

    我:不分名词动词反而做得十分好汉语名动提早差异确凿添乱,能够根基?底细不差异pos 不是显性要领,是一种工资标示(隐性要领),不是硬的句法标示名词,动词,与标示人,动物,标示动作,行动,实质上相同,仅仅对词的标示的颗粒度不相同

    我: quote:他那套短语构造句法树(phrase structure tree,见上图)既不精简也欠好用,离联系语义和逻辑更远,比起允从联系构造树(dependentcy tree,见下图)差远了不少天然言语专家用了他的要领化构造树往后,在运用前还不得不变换成允从联系树这是何必 意外的是,nlp 中最有影响的的人工标示的句法树库在宾大年夜,叫 penn tree bank,用的等于短语构造树作为实践上的业界规范,penn tree bank 迫使许多 parser 研讨者不得不与这个难缠的短语构造树打交道nlp 前史上尽出这些欠好用但又不得不必的本钱,另一个比方等于生理学家体例的关于nlp一点也不友好的 wordnet

    雷: 484848com这个也是的,trust me,不是很难解得,可是要有好的视图器械,能够把节点封闭

    @毛 http://www.ltp-cloud.com/ 这个是哈工大年夜的开源nlp

    雷: 都是核算学派的,我找到看护你

    我: 核算派无法与规矩派比parser,因为他们没的可玩最多一个 penntree 这么的, labeled data 不是天然的方针,句法树是隐含的器械,你只能找言语学门生去手艺标示,哪里成得了筹划没稀有据,如何玩出质量来这是其一其二是 penntree 这些行业规范实践上叠床架屋,定规范的时分就有很大年夜的缺陷只不过做 nlp 的多半人都不是学言语的,无法去挑它的缺陷算了加上只此一家别无分店,看到缺陷也只好用它了甭说那乔姆斯基短语构做作为根底的树形注解有很大年夜的缺陷,penntree 连句法树的根底 pos 都有许多缺陷、筹划上的缺陷比方,介词与主从连词不差异,都标示为 in,要有多鸠拙才会把这两个如斯不相同的器械混在一同(仅仅因为有几个小词既做介词又做主从连词)?其他,还有许多小词的分类彻底没需要,徒增担任,污蔑研讨重心小词是可罗列的类,都是词典强行给的分类,过甚细分没有优点正本pos症结的等于名形动副大年夜类,其他几十个小词的分类污蔑了 benchmarking 的留意力,然后误导了 pos 的研制

    from http://blog.sciencenet.cn/blog--.html

    ad 就

    philip: 是个算法型的软件模块?

    deg 的

    雷: @白 上面说到xbar能够有效地表征递归构造

    毛: 知道在哪下载吗?

    我: 症结是,一个 real life robust parser 大概不能把整个语句 parse 对,可是每个齐全句法树基地能够分化为n个binary的依存联系,然后能足数一数这n个联系中有若干的查准率和差全率因为实践上在运用的历程中,很少真地用到全树matching,用的都是子树matching (subtree matching),不论是svo查找仍是svo支持的图谱抽取,都是如斯在子树matching的时分,为了 robustness,一样平常也都是打散成 binary 去分头做matching的在打散的历程中,一样平常会有一个 backoff 机制(从文法联系 backoff 到 proximity),来应对句法树的断链环节正因为此,一个注定不能完美的 parser 才能够有用其他,parser 并不立马抵达懂得,而是为懂得发现一个构造化的、能够有pattern来包孕的前提事实上,parser 一样平常仅仅做句法的构造化而不是语义的深度懂得,为的是 pattern 能够显现出来,为后去的 svo search 或许 svo 抽取效劳一样平常的懂得发生在抽取或其他靠拢范畴或运用的层面,因为在那个层面,懂得的方针起头了了,感化也能够测量

    as 了

    雷: xbar 缺陷,给一个比照极点的比方

    雷: 症结仍是在词法和语意上,@wei 你睡不睡觉?犹如你没有多久就出来了

    雷:乔氏的追随者是言语学家nlp的事情职员十分实践,有用的留下,欠好用的不理睬

    lc 里

    雷: @wei 是不是能够直言不讳直取svo,过后批改?

    我: 美不雅确凿是口味疑问可是大略懂得不是你拿这个树给人看,要是没学过言语学的,她是看天书

    我: 哈哈,这玩意儿你不写个法度榜样转成 dg,谁看得清啥意思啊?

    白: 有没有坑,啥类型,更症结

    雷: 有,英文的

    雷: 先dg,再颠末变换,天生这个

    ad 以是

    我: 已然是等价,也就没的好争短长了,萝卜青菜

    雷: 乔氏总是想躲着语意走,不得已不必语意dg为了核算,等于要把语意带进来这个是两种人:言语学家,言语工程学家

    【科普小品:文法里的父子准则】

    np-obj

    我: 那就没事理了,先dg就dg不就得了

    我: 我还跟我女儿讲解过这点

    tlc.173.cn,tlc.173.cn【天天反水1.2%无上限】

    雷: xp的言语学版本是比照不流通的,但大年夜致的意思+一些符号,用来标示是能够的

    我: 不流通要是有优点 也就算了,不论如何看不到优点啊做了一辈子了nlp,也没看出它的优点来不论是在句法的讲堂上谈理论,仍是在 nlp 的现场,都没有看到优点

    雷: 在我看来,两者是能够互相变换的,没有实质的差异dg比照直接,大略懂得,是词性语法可是词性语法是不斟酌到全局的

    quote

    none *pro*

    我说 parsing 的技能现已老练,并不是说它是完美的,而是说核算上能够抵达90%,抵挡大年夜数据满意好了100 个 binary 的构造联系的话,不论precision 仍是 recall,如今都能够抵达90%摆布而且 robust,根基?底细不论啥 input,包孕社会媒体这么 monster

    vv 变

    我: 你要啥样的笼统和归纳?理论上的,仍是实践管用的?理论上的规范太虚,没的好争,理论家为此吵翻天的多了去了,写了许多文章,说我的剖析法(或模型)比你的剖析法高超,因为愈加 general blah blah犹如有个啥三准则,来断定一个理论体系的短长那些都是扯皮,在我看

    np

    黄: 握个手,我也极点不喜xbar

    我: 正好相反,标示dg比psg大略多了,非分特别大略老妪能解(的确)任何人都能够懂得 svo,不等于 who did what 么?可是懂得xp是很难的你根基?底细无法跟一个懂言语不明白言语学的人疏解白啥叫 ip以是 penntree 这么的器械有需要请言语学硕士博士去弄,当然言语学学出来横竖也找不到事情,请他们出来做苦力也是能够的

    允从联系树善于提醒句法的或许逻辑的联系语义(subject,object,complement,modifier,adverbial 等等),简明易懂,但缺陷是在扫除了基地层的 x 杠 non-terminal 节点 (xp or xg) 往后,句型掉去了节点的笼统度

    这两篇博文根基?底细上回答了你的哀求动词杠杠与名词杠杠就同构了,以是离国际大年夜同近了一步那种所谓构造的 universals 没有实践意义,由以是在有限的 category 中正本等于3个categories,名形动寻求所谓构造的同等性,为此不得不虚设一些器械

    白:我的哀求特大略,等于给我意合的动作指一个联系偏向就满意了向左,仍是向右把整个非遣散符做个矩阵就齐活了残剩的语义来管

    我: 第三方的根基?底细不能商品化 没有见到成功的事例,没有做商品的从内部调控、速率优化、robust 的考量等等,parser 是一个该当自个内部开拓才好商品化的器械,这个时候省不了

    我: 话说这言语学里边有一门学识叫文法学文法大略来说等于学画树种种各样形态万千的树,表达了言语的多姿多彩,却万变不离其宗美妙啊昔时天主怕人类同语齐心去造通天之塔,乱了六合纲常,遂下旨扰乱了人类言语印欧汉藏,枝枝蔓蔓,从此言语的玄妙就深藏不露以是催生了一批文法学家,妄图见人所不能见,用树形图来解剖言语的构造

    clp 维

    nn 眼

    信息抽取用parsing,

    我:(1)这是吃饱了撑的;(2)笼统的成果反而欠好用

    np-obj

    白: xbar基地是,整个构造都是向心构造,毕竟负载在基地词上有的向心构造是“接受性的”,有些是“开发性的”接受性的能够任意递归,开发性的有需要有坑的支持,根基?底细事不过三:左一下右一下,光杆司令再一下以是,xbar是反基地递归的都是摆布递归,就好办了,繁杂性不会逾越fsa

    pu ,

    看算作果如何,先不说质量,咱们只说表达法看看你表达出来的格局仍是不是(正常)人能够读(或忍受)的格局?

    ip

    我: 你看看里边 parser 画的树:

    派通娱乐城: 好几种,stanford,berkeley,cmu,等等,nyu也提供

    雷: psg是给人用的,dg是给机械的人在标示语句时,同他们讲dg是弗成的这个就同ontologies与给人用的专业词典相同.

    as 了

    我: 说的等于啊合一文法一派实质上是 psg 的延伸,也到了走火入魔的程度

    毛: 也是开源的?

    雷: 哦,也是太晚了藏着论题,嫡再听主见再就教

    雷: 我现已不能辨别了要找一个第三者来说我堕入太深

    clp 维

    我: 人看着烦,机械就烦,因为那个机械是要保护的,而保护的是人,不是机械要是你做出了一个机械,打包成黑箱子了,当然就没这个疑问了,正本不是这么你比照一下两棵树,看看你甘愿宁肯与哪种树打交道

    雷: ctb又延伸出cpb,等于又加了argument的人物有些

    我: 一点都欠美不雅,跟个悬空楼梯似的,老感觉随时要塌下来

    as 了

    vp

    白硕: 有单个小词稀罕,比方“的”

    vp

    毛: 可是没有中文的?

    np-sbj

    vp

    pu ,

    我: subcat 等于从老子给儿子筹备的坑构造,modfier (包孕 adverbial) 等于从儿子去寻觅老子的向心构造因而 modifier 无定命,有些野生的、边际的、花边新闻的意味,永远进不了 argument 基地

    philip: 不能商品化?

    vv 变

    雷:这个太笼统,请再具体一些

    雷:我近期花了不少时候在penntree上,期望多听你的定见

    雷: 只需顺着树,能摸着verb,就能找着subj,obj,等等,也就能知道agent,patient,等等由verb找subj和obj,由subj和obj,发明是啥role

    【立委科普:语法构造树之美】

    这叫老子和儿子的言语学树

    我: 第二个疑问,已然等价,用的时分根基?底细上都用 dg,为啥要借用 psg?逻辑的讲解等于 psg 建树更大略,以是作为桥梁实质上的nlp身分是因为没的可选,国际上只需一个 penntree关于树立 tree 和 wordnet 这么喫苦的事儿,没人耗得起,只好迁就用了

    雷: 是,svo的准确性是症结,不然谬之千里99%也背不住相乘几次

    我: 不过要睡觉了,快天亮了都

    np-sbj

    ip

    np

    nn 器械

    ip

    要是是从训练中看归纳性,举一个 psg 归纳好的比方出来,咱们能够验证一下,这个归纳在 dg 中是不是不能体现?

    我: 那是数据构造表达的措施,unification 文法里边就非分特另外讲究和严峻成果是不胜运用,比xbar还差劲,包孕hpsg你看看他们的图示,一样平常的教科书的页面不可画一颗大略句的树,那种叠床架屋当然你能够用 macro 去精约,然后你不得不在脑筋里去回覆再起那无穷无比的构造

    qp-obj

    白: 细节:〈特征名,值〉对,特征可选不是必选,特征可不出现,要是由值可仅有断定

    因为我经常说到乔姆斯基,不少兄弟觉得我是乔迷正本对这位言语学超级大年夜佬,我一贯是敬而远之,把他当菩萨警惕供着,但毫不靠近一辈子做 nlp,从来不必他的理论,最多是取其单个观点,体系上与这位开创今世言语学干流的泰山渐行渐远只管他稀有学出身的布景,仍是核算机编译理论的奠基人,它那套言语学学说关于天然言语训练欠好用、不灵光,无意偶尔误导,甚至让人走火入魔

    np-sbj

    我: 昨日你说 svo 支持的知识图谱不太管用正本,那是因为那个 svo 没做好咱们自个的svo去做知识图谱的抽取发掘,不论中文英文,都是十分靠谱的

    确性现已合格了,至少在我这儿stanford 的那个 parser 也根基?底细合格了,不过 parser 这器械无法用第三方的去做运用,大年夜学出来的非分特别无法用

    雷: 我挺喜好penn的说明的也妄图用于演习训练生

    乔姆斯基真地对 nlp 多是负面影响,正面的很少看到xbar 主旨是所谓 ug,等于从构造剖析的视点寻求一个极致,看能不能在构造上同等国际,不吝加上许多工资的假定

    我: 构造根基?底细没错,质量越过我的预期

    雷: 词法+语意 能很大略剖分出语句,但要笼统或归纳,就弄出树比方,短语能够无限拓展

    洪:

    ip

    qp-sbj

    雷: xbar的意图是为了付与短语一个构造,而短语确凿是有构造的xbar能够掩饰笼罩短语的整个构造要是咱们把ug放在一边,单说构造,是不是这个理论能够掩饰笼罩短语的整个构造?因为短语也是能够赓续拓展的

    nn 树形

    雷: 中文也有哈工大年夜的

    dp

    from【科普小品:文法里的父子准则】

    argument 界说了工作的性子和重要参加人物,整个的细节都是 mod 提供

    nn 文法家

    雷:这么说吧,树有点像xml的格局,人看着很烦,但机械不烦构造自身就含着信息

    vv 变

    言语剖析究源本,

    np

    雷: 请说明一下乔姆斯基短语构造的缺陷

    【有关】

    我: 从语义上看 argument structure 是肯定的纲,提要挈领从语用上,正本 mod (modifier,adverbial)平日更重要,在 mod 里边的信息都是工作的细节(何时、何地、何因、如多么)

    lcp-objdnp

    雷: 可是要是要画出句法树来,有psg作为backup呢

    雷氏的

    advp

    行啊,你自个的就行因为第三方的即就是相同的质量,也难以用于开拓自个的就好办我猎奇的是你如何用它,是不是在用的时分,先转成 dg 表达?很难幻想能够直接在 psg 上去做有效率而且好保护的操作来比方 svo search 是在 dg 上 search 仍是在 psg 上直接 search?

    advp

    毛: 叫啥?

    dad, can you explain chomsky's x-bar theory to me?

    正本,其实做过西文处置惩罚也做过中文处置惩罚的同业该当不难认同上述不雅点我说的是“其实”,对西文处置惩罚浅尝辄止的不算(浅尝辄止的包孕nlp硕士课程中的语法要领化游戏:s: np vp; np: det? adj* nn+; vp: v np?)要是你比照深化地implement过一个英语剖析器,对付的是大年夜批量的其实语料,你会发明:英语的深化剖析所碰到的难点需求召集许多伎俩,需求很详尽的事情,而这些伎俩和事情也正是中文处置惩罚所需求的我经常这么跟兄弟说英语处置惩罚和中文处置惩罚的异同:要是你做硕士事情,导师给你一礼拜做出一个言语处置惩罚体系能够处置惩罚50%以上的言语天气,在英语是可行的,在汉语是弗成行的因为你能够下载一个免费pos tagger,在pos根底上体例一套粗拙的语法交差可是,要是你要面临其实语料做一个有用的言语剖析体系,要是英语需求开拓n个月,召集 m 个伎俩,那么用相同的时候和伎俩,中文开拓也大年夜体能够到位形象地说等于,中文这座山是陡坡,英文的坡则比照陡峭,可是两座大年夜山的高度正本是相差无几的要是电脑爬坡只求抵达山腰,在英文是比照大略的,在汉语则很难可是,要是电脑爬坡的方针是山高80%以上的地带,所需本钱和伎俩相差并不大年夜

    雷: 是

    不过,正本 parse 质量不错,这是哪家的,哈尔滨的?

    我: 疑问是欠美不雅,非分特别丑陋为了与同业做 apple to apple benchmarking 大概需求,这是仅有的来由

    雷: 乔氏是不论语法是不是能够核算的,是不是np疑问乔氏在儿童生理言语上仍是十分有影响的,因为ug吸引着大年夜家

  • 相关内容

友情链接: