- 行业新闻
-
大数据时代,语言服务行业将何去何从?
发布时间:2017-09-12 14:25 点击:
为使大数据生成的数字内容有效,需要针对不同渠道将其进行转换,以用于各种用途和其他市场的本地化。这是一个对于所有译员来说都充满机会的领域。
参加任何一个会议你都能发现常见的行业术语流行语多了一些不一样的东西——“大数据”。还会听到数字化数据大规模增长的消息、某领域知识库增长速度惊人、公司如何来管理和诠释来势汹汹的数据等。迅速增长的内容包括结构化数据库、应用程序代码、图像、视频文件和文本。可能还会听说机器学习和大数据如何使软件更灵敏、更能满足客户需求。
我们谈论的数据有多大?数字内容、代码和结构化数据已经非常庞大,但仍以惊人的速度24小时不停增长着。每一天,世界上就生成2.5兆字节的数据。这些数据来源很多,包括文件、社交媒体、电子采购交易记录和手机GPS信号。据估计,每日新增的数据将使全球信息资源库的信息从2015年的7.9泽字节(7.9×1021字节)增加到2025年的176泽字节。别忘了1泽字节等于1,000,000,000,000,000,000,000字节,这是一个令人费解的数字,并且这个总数还不包括每天交流的大量内容。
不论创建的内容是什么,其容量之大都给翻译和本地化带来巨大且未实现的潜能。这对语言行业来说意味着什么,对人工翻译和机器翻译又意味着什么?
何为大数据?其重要性何在?
我们谈论的大数据指的是获取大量数据和使用软件工具来识别以前未被发现的模式、趋势、相关性和关联的新方法。如果你在网上买了一本书,是因为在线零售商告诉你,与你有类似浏览历史的顾客都喜欢这本书,那么你就已经是大数据分析的受益者了。
过去几十年里,商业、政府和日常生活的数字化使这种做法成为可能。这些信息存储在巨大的数据库中,数据库中有结构化数据,以及大大小小的文档资料。我们每天用更多的数据来喂养这只正在不断成长的“野兽”。虽然所有机构都依赖数据来运行,但只有少量机构利用数据更好地理解其所在领域人们的行为、偏好和趋势,这种机构数量虽少,却呈现出增长态势。机构利用这些数据作出的分析,可以更好地决定如何推销产品、帮助客户、提高运营效率,或者作出其他伟大构想。
他们是怎么做的?使结构化数据和文本富有多样性并不不容易。对于高度结构化的数据,则使用专门处理大数据的软件从大型全网上数据库中提取。然后,分析师采用新一代的商业智能和文本分析工具,将这些原始数据转换成可用的信息和可操作的内容。他们可能会将交易数据与服务器日志,点击流数据,社交媒体内容、客户电子邮件文本,传感器数据和电话记录结合起来,再提取出数据分析。他们提取分析数据时,也使用高级分析工具,包括统计分析、数据和内容挖掘、预测分析和文本分析。传统的商业智能和现代数据可视化软件可帮助分析师以人类可读的形式呈现出他们的发现。
语言行业实际上是首个对大数据应用表现出兴趣的领域之一。早期的主流应用就有谷歌和微软推出的统计机器翻译(SMT)。2011年卡门森斯顾问公司(CSA)在一份机器翻译(MT)发展趋势报告中指出,这些基于统计的方法都是大数据在MT领域的应用,因为它们必须用到大量的双语数据。例如,它们会将英文源文件与人工翻译后的俄文文件进行比对。
简单来说,SMT可以通过将源文件中的零和一与译文中的相关信息进行对比,找出其中的相关性和翻译模式。换句话说,计算机强大的处理能力可将文件与其译文进行拆分,然后分析其中的翻译模式并预测未存储文本的译文。这种分析大大加快了语言支持的速度,而不是像从前MT那样要依靠语言专家团队来创建语法,把它们整理成翻译规则,创建双语词典,之后还要不断地在发现问题后作出修改以及添加规则。
2011年CSA在一份报告中预测专家在处理更多的语言种类和大量的多语言内容时,会使用这些基于数学的大数据算法来解决不同语言之间的沟通与营销问题,这已经成为事实。
过去几年里,基于大数据分析的MT使用频率早已超过了第一代基于规则的解决方案。Google翻译吸引了大量的用户,这证明其操作简单、易于领会,从某种程度上说,也是MT输出的质量得到提高的结果。尽管学术研究表明BLEU7(双语评估替代技术)等流行的质量评估系统已经有了提高,但这种提高并不是简单的累加,在不同语言和不同可译内容类型(例如常规文本、音频、视频和社交媒体)之间,翻译结果也会出现较大的差异。因此,能提升翻译质量的数据很少,除非用户对翻译质量没有很高的期待。
像Amazon Web Services和Microsoft这样基于云计算并能无限使用的算法能为这些大数据实践提供支持。随着数以亿计的设备(如传感器、嵌入式控制器、可穿戴设备、健康检查器以及尚未发明的小部件)接入互联网,这类获取和分析方式将会继续发展成为“物联网”。
为使大数据生成的数字内容有效,需要针对不同渠道,将其进行转换,以用于各种用途和其他市场的本地化。企业和政府规划人员早已了解到只用一种语言提供所有数字化信息是不够的。他们的任务是尽可能多地使用数据来支持重要人群的用户体验。否则就不可能吸引并留住国内外的多元文化受众。
只需考虑翻译的必要要求,使其在转换成另一种语言时能够面向更广泛的受众。据估计,要提供14种语言才能满足世界上90%经济活跃人口的需求,但大多数网站最多只支持六种语言或地区。许多公司的产品和文件本地化工作都很滞后。口译活动更是受到限制。
随着各机构产生的数据越来越多,人们也越来越渴望为更多受众提供产品和服务。近期CSA对于客户方面受访者的调查报告显示,他们计划在未来三年内将翻译量增加67%,从平均每年的5.9亿字增至9.9亿字。这种增长是语言行业现有方式无法满足的,并且在CSA调查样本中,买家希望能结合供应商后期编辑内容和原始MT来解决这种增长需求。
大数据在当代的应用,及其在未来的应用
各机构表示,要实现他们增加翻译量的计划,会耗尽所有现有译员和短期内会进入该领域的译员的精力。
为了满足日益增长的翻译需求,各机构纷纷采取措施提高译员和机器翻译的生产力,以解决翻译量和周转时间的挑战,以及多种目标语言处理和预算有限的问题。公司对人工翻译和后期编辑MT进行投资,以应用于重要的业务内容,如比较固定的产品和营销材料。例如,消费者要依靠大批数量不断增长的翻译提供商,使用机器翻译对源材料进行预处理,然后语言专家再对输出材料进行人工编辑。一小部分客户组织也将未经编辑的机器翻译输出材料直接用于商业领域,比如“常见问题”和“知识库”。 北京翻译公司,天津翻译公司,郑州翻译公司,西安翻译公司,重庆翻译公司,长沙翻译公司,济南翻译公司,青岛翻译公司,- 上一篇:语料库是语言知识的可靠来源
- 下一篇:翻译的两难困境


























