穿越:2014:风起青萍之末 第126章 伊芙·卡莉的邮件
……
伊芙·卡莉在邮件里不光表达了她对林灰鼓捣的生成式文本摘要算法的好奇。
还向林灰阐述了很多她在文本摘要研究过程中遇到的一些困难。
说实话,林灰并不是很擅长解答别人的困惑。
不过,正所谓独学则无友孤陋则寡闻。
林灰蛮好奇伊芙·卡莉在研究过程中遇到了哪些瓶颈。
兴许伊芙·卡莉的一些见解会对林灰有所启发。
花了不短的时间,林灰才将邮件主体内容看了个大概。
林灰前世工作中没少看英文论文。
否则,想理解伊芙·卡莉发来的邮件还真不是一件容易的事情。
没办法,伊芙·卡莉表达困惑的方式有点过于硬核。
林灰觉得伊芙·卡莉发来的这个邮件的主体内容略微改动一下的话都可以当成一篇综述直接往灌水期刊上发。
当然了,这仅仅是一种比喻,实际上即便能灌水也不要轻易灌水,论文灌水很容易成为学术生涯上的一个污点。
让林灰比较意外的是。
伊芙·卡莉在邮件中还给林灰大致介绍了一下西方学术界对于文本摘要的研究情况。
这对于此时的林灰来说尤为有价值。
毕竟各种学报论文之类的公开内容,基本上都是只谈进展不谈挫折。
从伊芙·卡莉介绍的内容来看。
这个时空,西方对于文本摘要方面的研究进展和前世那个时空的西方对文本摘要的研究情况细微之处有些差别。
但客观地讲,差别其实不是太大。
也可以理解,涉及到文本摘要的研究其实由来已久。
无论是前世还是今生,东西方在文本摘要上都会花费很多心血,这种情况下两个时空即便有差别本质上差别也不是很大。
当然,这种所谓的差别不是很大,仅仅是说这个时空和前世2014年那个时间节点相差不大。
有额外7年的信息,林灰还是占得先机的。
说起两个时空的人们为什么都对文本摘要倾注大量的心血。
其实是有原因的,文本作为信息的重要载体,研究文本信息的高度凝练化对于人们快速而准确地获取所需内容具有重要意义。
对文本摘要的研究由来已久,但实际上对于文本摘要的深入研究还是在新世纪才大规模进行。
之所以文本摘要的研究突然被重视起来。
是因为互联网技术的迅速发展,海量信息在互联网中不断涌现。
不提高对文本处理的能力,即便是海量信息涌现出来,这些信息也注定淹没在信息海洋中沦为无价值的垃圾信息。
前几年,大数据概念开始兴起。
对文本摘要的研究的重视程度更是达到一个新台阶。
衡量文本摘要的意义不能仅仅局限在文本本身。
要知道涉及到文本处理,表面上看是仅仅是和文字语言有关系。
但实际上这门学问不仅是涉及到文本,还包括对信息、物质和文化的深层次探索。
銆愯璇嗗崄骞寸殑鑰佷功鍙嬬粰鎴戞帹鑽愮殑杩戒功app锛屽挭鍜槄璇伙紒鐪熺壒涔堝ソ鐢紝寮€杞︺€佺潯鍓嶉兘闈犺繖涓湕璇诲惉涔︽墦鍙戞椂闂达紝杩欓噷鍙互涓嬭浇銆/p>
这样一种深入的研究,让整个文明都在进步。
从这个层面来说,文本摘要对人们的影响很大。
即便多数普通人的生活中察觉不到这玩意对人类的影响。
但并不能因此说文本摘要不重要。
对信息的研究越深入,我们就越能了解到这个世界。
除此之外,对文本摘要的深入研究,某种程度上可以开启人的心智。
文本摘要的深度探索,让我们对信息的掌控更强。
也正是因为上述原因,无论是哪个时空。
世界上很多国家都在对文本的探索。
人类社会记录方式的进步,某种程度上就集中表现在文本的不同凝练形式上。
文本的探索,对于一些大型企业来说,也是一项极为重要的工作。
涉及到文本摘要的发展,决定着一项又一项的产品的问世。
对于文本的探索,不仅仅对文学的深入研究有着很高的促进性,同样对于科技的推进有着巨大的促进作用。
总而言之,对文本摘要倾注些心血不过分。
毕竟这是林灰在技术领域方面迈出的第一步。
说到伊芙·卡莉遇到的困惑。
林灰没想到伊芙·卡莉的困惑主要集中在LH文本摘要准确度衡量模型的构建上。
林灰记得当时他关于这个模型构建已经阐述的够清楚的了。
构建模型的话首先要运用语言模型来评估算法生成语言的流畅度,然后使用相似度模型评估文本和摘要之间的语义相关性,最后为了有效评估实体、专有词的复现程度,引入原文信息量模型来评估。
虽然为了避免教会徒弟饿死师傅,林灰在这几个步骤之间故意遗漏了一些琐屑的步骤。
不过这种东西对于科研工作者来说,就像堑壕之于坦克。
虽然会有一些影响,但问题应该不大。
真的把所有的技术细节全部公布出来。
那也不能叫做公布技术路线了,那叫编教科书。
对于林灰提到的“运用语言模型来评估算法生成语言的流畅度”
伊芙·卡莉比较困惑林灰是怎么搞定语言模型训练的语料库的?
这个问题往后几年的话还真不是问题。
因为现成的语料库就一大堆。
仅仅是简体中文方面的语料库就有国家语委现代汉语语料库、京大语料库、语料库语言学在线等若干资源。
不过换到现在这个时空节点林灰显然不能跟别人研究人员说他用的是现成的预料库。
毕竟一些现成的语料库基本都是16年左右才问世的。
尽管如此,如何解释语料库来源的问题难不倒林灰。
事实上即便没有现成的语料库,想要构建一个可堪一用的能调/教出早期生成式摘要算法的语料库也不是太复杂。
最简单的方式——借助互联网可以自动构建文本语料库。
当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
这个过程其实不复杂,有点类似于爬虫抓取网页的过程。
比较困难的是这种方法形成的语料库如何去噪。
但这对于林灰也不是问题。
只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。
而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。
在完成去噪之后就可以输出语料库。
虽然这个过程实现起来仍旧不容易。
但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。
大多数情况下只要逻辑自洽就没人死磕。
除了好奇林灰是如何构建语料库之外。
涉及到“使用相似度模型评估文本和摘要之间的语义相关性”
伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。
额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。
关于这个问题的答案就不是三言两语能说得清的了。
bq