線上提交翻譯需求

  • 00.00 HKD
  • 0000-00-00
  • 您現在的位置:博文首頁 > 翻譯資訊 > 王海峰:他打造出了“百度翻譯”

    王海峰:他打造出了“百度翻譯”

    時間:2012-03-21 19:35 來源:未知 作者:admin 點擊:
    據博文翻譯公司獲悉,“有木有、我勒個去、神馬都是浮雲”,這些網路流行語,如何能更正確翻譯?記者以“神馬都是浮雲”為例,百度翻譯為“Everything is nothing”,比較接近原意,而谷歌則翻譯成了“Horses are clouds of God”,基本不知所云。與百度翻譯比擬,谷歌翻譯顯著體現出當地語系化不足的特點。而負責組隊實現百度翻譯技術攻關的則是百度基礎技術首席科學家王海峰。   2011年8月,在北京大學軟體與微電子學院2011級新生開學儀式上,王海峰以新任語言資訊工程系主任的身份,給新生們作了題為“互聯網時代的天然語言處理”的學術講演。至此,北大虛位以待2年之久的語言資訊工程系的系主任人選終於塵埃落定。   王海峰在電腦領域是一位元申顯著赫的人物。由於研究的凸起成就,2010年11月,王海峰當選為“國際計算語言學學會(ACL)副主席,在ACL 近50年的歷史上,他是第一位當選副主席的華人。   “這不僅是國際同行對我本人的認可,也是他們對中國及華人學者在本領域貢獻的認可,另外,這也是對百度這樣的中國企業的認可。”王海峰表示。   王海峰和電腦結緣已經有20餘年的時間。1989年秋,王海峰以優異的成績考入哈爾濱產業大學學習電腦,就正式與電腦打上了交道。   王海峰告訴記者,他的父母都是上個世紀60年代的大學生,父親畢業于清華大學,母親畢業于哈爾濱醫科大學,受家庭、學校及附近環境的影響,他從小就立志成為一名科學家。   還在哈爾濱產業大學讀本科時,王海峰就已經進入機器翻譯這個佈滿挑戰的領域。在上碩士期間,僅用一年就開發出了當時在國家“863”評測獲得第一的漢英機器翻譯系統,並獲得了部級科技提高獎。   1999年初,從哈爾濱產業大學博士畢業時,已經學有所成的王海峰成了良多單位、包括一些重點研究機構爭搶的香餑餑。面臨眾多誘人的選擇,王海峰堅決地選擇了當時剛剛成立不久的微軟中國研究院。2010年1月,王海峰加盟百度,開始了自己職業糊口生計的新篇章。   隨後,百度就組建了王海峰博士領銜的機器翻譯核心研發團隊。因為百度擁有超大規模的雙語語料,作為機器翻譯領域的頂級專家,王海峰非常清晰這些雙語資源在機器翻譯中的價值。於是,對雙語語料的探測、抓取和處理,就成了百度機器翻譯團隊初期的重要工作之一。   王海峰和他的團隊抓取的雙語語料很快也達到了1000萬句的規模。但是很快題目相繼而來:翻譯品質遠比預期要低。例如“how old are you”這麼常用而簡樸的英文在網上卻被大量地翻譯為“怎麼總是你”,“好好學習、每天向上”這句大家耳熟能詳的中文,在抓取歸來的語料中,大多數都被翻為了“good good study,day day up”。經由1個多月的攻關,王海峰和整個團隊利用新的技術手段將1000萬語料過濾到400萬左右,大量低質語料已經在過濾中被淘汰,機器翻譯的品質得到了大幅進步。   從開始組建團隊,到百度翻譯正式上線,僅用了1年多時間。如今依託于百度在中文互聯網技術上的上風,百度翻譯對中文網路語言有著獨特的應對能力。   對王海峰來說,就百度而言,這還只是一個開始。由於除了機器翻譯,王海峰在百度還負責天然語言處理、資料收錄、資料採擷、機器學習、推薦與個性化、語音技術等支撐著百度各種產品的眾多基礎技術,他也但願自己未來在這些領域的研究和產品開發中能夠有更大的成就。