默认冷灰
24号文字
方正启体

第67章 你们能比我更懂机器翻译(5k)(2/4)

作者:鸦的碎碎念
seak about eace

对齐结果:“ы”对应“e”

“гв”对应“seak”

“”对应“about”

“”对应“eace”

然后我们需要对这种对齐的频率进行统计。

统计每个俄语词或短语在英语中的对应翻译出现的频率。

例如,在语料中,“гв”在80%的句子中翻译为“seak”,20%翻译为“talk”。

这样对于我们就可以构建概率表了。

将这些概率整理成表格,供机器进行查询。由于内存空间有限,我们暂时只存储高频词对,像出现次数前1000的词对,忽略低频情况。

当翻译某个词的时候出现多个选择,就参考概率表选择最可能的翻译。

另外就是统计相邻词的共现频率。ы经常与гв一起出现,对应e seak,机器在翻译的时候则优先选择这个组合。

通过规则优先处理和统计方法处理模糊情况的方式,来弥补规则的不足!”

林燃从统计学的角度给他们好好上了一课。

不过这只是一个开始。

在座的研究团队们知道了林燃优化策略的轮廓,具体实践过程中还有大量的细节要进行调整、尝试和优化。

不过光是现在所说的引进概率,这一点,在座乔治敦翻译机器的资深研究员们都有种恍然大悟的感觉。

前面讲的优化算法和规则设计什么的,他们感觉有道理,但判断不了具体实践是不是真的管用。

但这统计学方法的引入,光靠想象就知道,能够显著提升乔治敦翻译机器的效果。

当天的工作结束后,红石基地周边的小餐馆里,加尔文和多斯特尔特坐在角落,面前是两杯当地特色的啤酒。

加尔文放下笔记本,叹了口气说:“利昂,我们真的是蠢货吗?”

今天听完之后,加尔文都要怀疑人生了。

林燃提出了一整套的解决方案,这套解决方案里完整也就算了,其中很多点他们都想到过,但想不到要如何实现,另外就是一些他们连想都没有想到的点。

一整个团队差不多快十年的研发思路,不如林燃一下午的干货多。

加尔文已经怀疑人生了。

“教授的想法不是超前,而是太实际了。

你会感觉天马行空,但实际上结合在一起想想,又会觉得无比的实际。

哪怕现在还没开始,光是从教授提出的框架,我都能想到,采用这套完整方案对乔治敦翻译机器升级后,它的效果会有多好。”加尔文接着感慨道。

现在他终于知道为什么的研究人员和工程师能容忍林燃的毒舌了,差距太大,心服口服。

尤其统计相邻词汇共现频率,这并不难想到,但他们就是想不到。

而用统计方法处理歧义场景,增加统计学算法,这个就他们连想都想不到。

多斯特尔特转过头,微微苦笑道:“我也一直在琢磨。他提出的统计方法,听起来像是天方夜谭,但结果摆在眼前。

我估计了一下,乔治敦翻译系统在教授的指导下,质量至少能提升一大截。

我们不需要精心准备短句,它可以应用在更广泛的场景,而不是局限在军事领域。”

加尔文点点头:“是啊,我一开始还不信,语言这种东西明明是规则驱动的,怎么能靠统计解决?可他用事实让我闭嘴了。

不愧是教授,教授对于本质的洞察力是跨越领域的。”

多斯特尔特沉思片刻:“你说的没错,感觉就好像他能看穿机器翻译的本质。

也许这是数学训练带来的好处,我怕自己再和教授多呆一段时间,我都想去念一个数学博士了。”

加尔文惊讶地看了他一眼:“数学博士?别开玩笑。”

多斯特尔特认真地说:“我没开玩笑。

如果数学真的能够帮助我们更好的洞察本质,我觉得去念一个统计学的博士未尝不可。”

加尔文沉默了一会儿,笑道:“如果你去,我也去。”

多斯特尔特举起啤酒都要溢出的酒杯:“为教授干杯!教授将给我们带来胜利!”

加尔文笑着回应:“干杯!不过教授的脾气,如果教授能温和一点就好了。”

另一边,的两位工程师卡斯伯特·赫德和彼得·谢里丹也对林燃佩服的五体投地。

卡斯伯特揉了揉太阳穴,问:“彼得,你觉得教授的统计模型真能行吗?”

彼得放下笔,笑着说:“卡斯伯特,我得坦白,一开始我完全不看好他,可现在我彻底服了。教授提出的方法不但让 7090的性能发挥到了极致,而且能让翻译从混乱的状态至少有了概率做支撑”

卡斯伯特点头:“我看乔治敦大学的那帮家伙也这么认为的,你没看到加尔文的态度从一开始的质疑到后来听的无比认真。


本章未完,请翻下一页继续阅读.........
(←快捷键) <<上一页 投推荐票 回目录 标记书签 下一页>> (快捷键→)