亚愽娱乐app

    當前位置:首頁 > 科學傳播 > 科普文章

科普文章

【走訪·課題組】之十二:機器翻譯與自然語言處理團隊

  • 發表日期:2013-11-07 【 【打印】【關閉】
  •   【編者按】近日,《自動化天地》編委胡蓉、鞠召艷、王壇走訪了模式識別國家重點實驗室機器翻譯與自然語言處理團隊。團隊當家人宗成慶研究員分享了最新研究成果和團隊建設心得。現將采訪整理如下,以饗讀者。 

     

                         訪談現場 

      天地小編:宗老師,請先介紹一下團隊的基本情況吧。 

      宗成慶:現在我們課題組有四位年長一點的科研人員,趙軍和我兩位研究員,周玉和陳鈺楓兩位副研究員,還有張家俊、汪昆、劉康和周光有4位助研,此外還包括20多位研究生。我和趙軍老師負責的方向各有側重。我和周玉、陳鈺楓、張家俊、汪昆幾位老師以及我所帶的研究生主要從事多語言機器翻譯、情感文本自動分類等相關的研究和開發工作。趙軍、劉康和周光有幾位老師以及趙老師所帶的研究生主要從事信息抽取和問答系統等相關的研究和開發工作。 

        

      天地小編:咱們這個團隊還算是挺年輕的一個團隊。 

      宗成慶:是的,比較年輕。我本人是1998年來到實驗室的,那時候亚愽娱乐app做自然語言處理的人還不多,黃泰翼老師和徐波老師主要做語音識別和口語信息處理。我加盟實驗室后,開始時主要從事口語理解和翻譯研究,后來擴展到文本翻譯和文本分類以及自然語言處理基礎問題的研究,趙軍老師是2002年加入到我們研究組的。這樣算來,我們的研究團隊已經經歷了十幾年的發展,說年輕也年輕,說不年輕也不年輕了。 

        

      天地小編:可以再詳細介紹一下咱們團隊的主要科研方向和內容嗎? 

      宗成慶:我和趙軍老師所帶領的這個團隊主要有以下幾個方向:一是多語言機器翻譯,主要面向網絡多語言信息處理和情報獲取。所謂的機器翻譯就是讓計算機自動實現從一種語言到另外一種語言的翻譯。對大多數人來講,一般都能夠講英語或日語這些常見的語言,而實際上德語、法語、阿拉伯語和土耳其語等很多語言也在網上普遍存在著,尤其我們擁有56個民族、幾十種語言共存,藏、蒙、維、哈、朝等這些少數民族語言更是在被廣泛使用。如何實現多語言信息的自由交流是一項重要而艱巨的任務。這就需要一種技術把這些以各種語言文字表達的文本內容準確、高效地破解,挖掘和抽取其中的有用信息。這些年來我們的許多研究內容都是圍繞著國家需求在開展的,能為國家解決一些實際問題,這是我們追求的目標。 

      這幾年來我們也參加了不少國內外有關機器翻譯的評測。現在國際上很多團隊都在做翻譯,網上就有不少免費的工具,比如google、百度、有道等等,還有不少大學也在做。每年國際上或者國內都會組織一些評測,既然大家都做,就比一比看誰做的好。讓我們自豪的是,很多次我們都在國際口語翻譯評測中獲得了第一名的優異成績。2011年全國的機器翻譯評測中,在包括維漢、藏漢、蒙漢等少數民族語言翻譯和英漢翻譯等9項評測任務上,我們的多語言機器翻譯系統獲得了5個第一名的佳績。 

      前面我曾經提到,除了機器翻譯以外,我們還在研究信息抽取、問答系統、情感分類等方面的技術,其目標主要是提高個性化信息服務的質量。幾乎對于所有的用戶來說,都希望自己的問題能夠隨時得到解答,希望有一個系統能夠自動把他(她)需要的知識或問題答案自動抽取出來,如大百科知識自動問答系統。作為一個普通用戶,我希望任意給出一個問題,即可得到準確的解答,可是目前的系統很難做到這一點,“百度知道”都是人給出的答案,利用的是群體智慧,但很多問題沒有答案或者不知道哪個答案是準確的。當然,這些技術也可用于信息安全,因為信息抽取本身就是情報分析的一項任務。從科學意義來講,作為圖靈測試的表現形式,問答系統一直是人工智能和自然語言處理領域研究人員所追求的目標。 

      另外,信息推薦系統也是我們關注的一個方向。現在網上許多信息不管你想要還是不想要,都會發給你。從廣告商的角度來講,他們更希望他們的廣告發出去之后,那些對他們廣告感興趣的人群和他們推銷的產品潛在的買主能夠看到,比如婦女關注哪些商品?中學生喜歡聽什么類型的歌曲?趙軍老師所帶領的幾位青年骨干在這方面做出非常優秀的成果,他們研發的音樂推薦系統獲得知識發現和數據挖掘領域國際頂級賽事ACM KDD-CUP 2011的亞軍(共有1297個系統參賽),產生了重要的國際影響。 

      天地小編:機器翻譯評測的指標就是看誰翻譯的準確度高嗎? 

      宗成慶:機器翻譯評測指標有許多,主要分兩類,一類是人工評測,也就是說由人工對系統翻譯的結果進行打分,判斷其內容翻譯的正確性和表達的流暢性等,一般是5個人左右,同時對300或500個句子的譯文進行評價,最后取平均值。由于人工評測代價較高,費時、費力,因此一般不用人工評價指標。另一類評價方式是自動評測,自動評測指標大約有10來種,其中一種常用的方法叫BLEU評價指標,主要思路是這樣的:對于評測集中的幾百個句子(一般為300500句),每個句子都由人給出4正確的譯文,也就是標準答案,因為通常情況下每個句子都可以有多種不同的翻譯,評測時將每個系統的輸出譯文與人工給出的標準答案進行對照,看有多少個“短語”(我們稱之為n元語法)出現在答案中,然后統計這些短語的個數占譯文所有“短語”個數的比例,比例越大譯文質量越好。有時候為了防止作弊,評測時可能提供幾萬個句子,但真正的考題就幾百個句子,打分時把那些句子抽出來,在很短的時間內就可以給出打分結果。自動評測省時又省力。 

        

      天地小編:現在一些購物網站就有商品推薦功能吧。 

      宗成慶:是的。在開發用戶商品推薦系統時有很多具體問題,如怎么來記錄或者推斷用戶的個性。如果一個用戶買了什么東西,他可能只是偶爾買一次。系統需要分析和預測這個人對什么感興趣? 

      剛才談到的機器翻譯和信息抽取兩個方向看起來都是比較大的應用。這兩個方向實際上都包含了太多復雜的自然語言處理問題。人類語言中有很多東西是不可計算的。比如“打”字,在亚愽娱乐app詞典上有二十多種意思:打電話、打球、打水、打醬油等意思都不一樣,它還可以作為量詞、介詞等等,意思和用法都很復雜。語義怎么計算?可計算嗎?不管是翻譯也好,信息抽取也好,都蘊含著大量基礎性的工作,包括詞法分析、句法分析、語義分析等,要解決的問題很多。 

        

      天地小編:從2003年開始到現在,您已經培養20多名畢業生了。想問一下,在選擇學生的時候,您最看重哪些方面? 

      宗成慶:我們組20多位研究生,包括趙軍老師所帶的學生,大多數是博士生。能到我們所里來的都是很優秀的學生。從我個人來說,選擇學生最看重的是學生個人的興趣,看他是不是真正喜歡做這件事情?不管學什么專業——我們組的學生有學機械的,有學自動化的,也有少部分學計算機的,來自很多專業。我個人認為,只要他有興趣從事這個方向,做他自己從內心喜歡的事情,很快就可以上手,即使不是學計算機專業的,不會編程,也能很快學會,因為他們都很聰明,而且年輕。當然,要有比較好的數學基礎和外語能力,因為需要閱讀的論文大多數都是英文的。 

        

      天地小編:對于學生和青年人的未來發展,您有哪些建議? 

    宗成慶:簡單一點說,我就是希望盡快把年輕人推出去。我常常在想:自己的學生畢業后留在組里工作,對他們來說究竟是好還是壞呢?一方面,他們對這里的工作和環境都很熟悉,也有感情,無論對工作的安排還是相互之間的溝通,都很順暢,這是好事。但另一方面,也可能是壞事,就是難以打開眼界:學生所了解的看到的大都是自己的老師告訴他的。不管是做事情的方式,還是研究思路,都是按照老師的模子做出來的。所以我很希望他們有機會走出去開開眼界。我經常和我們的學生講,研究生畢業后一般有三條路可選:一條路是做學術。做學術一定要出去看看,最好到歐美的名校去經歷一段時間,不要老在這個地方,出去學習人家的教育理念和思維方式,包括做科研、做事情的方式,當然也要深入地了解西方人的文化。第二條道路就是自己創業,先到大公司去跟人家學學,學幾年后自己干。第三條路是從政。選擇哪條道路沒有對錯之分,只要自己喜歡,但自己一定要想清楚了,因為往往沒有回頭路。做學術最好出去開開眼界,鍛煉一下。當然,有好多學生因為各種各樣的原因,包括家庭情況、機會原因等,不能夠出去,也沒有辦法,但留下來工作之后最好有機會出去見識一下,尤其年輕的時候。這是我的個人觀點。 

        

      天地小編:在課題組走訪時,經常聽組內學生說到您對他們特別關心。您有哪些和學生的相處之道? 

      宗成慶:和學生交流是讓我感到很開心的一件事情。研究生都是成年人,他們有自己的世界觀,對很多事情都有自己的看法,不那么容易被影響了,尤其有時候他們又堅持自己的觀點。從另一個角度看,這也是好事。如果所有的事情學生都和老師想的完全一樣,這個研究組恐怕離完蛋不遠了。在和學生交流的過程中,我也從他們那里學到了很多。平日我只要不出差,大部分時間都在實驗室里,包括晚上和周末,這也是我和學生接觸多的一個原因吧。我寫的這本書(《統計自然語言處理》(第2版),清華大學出版社,2013年8月)基本上都是靠周末和晚上時間完成的。周末的時候,有些學生過來加班,有時候我會請他們到食堂一起吃飯,這樣可以輕松一點,和他們聊很多。學生有什么事情也會告訴我,如果需要我幫忙,我也會盡力去幫助。當然,多數情況下是了解他們的想法和工作進展。現在好多學生的做法和想法跟我們那時候都不太一樣,其實并不存在誰對誰錯的問題,一代人有一代人的做法,未必我們自己做的都是對的。我的很多已經畢業的學生,到現在一直都有聯系。總起來說,沒有什么特別的相處之道,就是大家平等對待,作為朋友或者把他們看作弟弟、妹妹,相互尊重吧。我們所的很多老師和學生關系都挺好的,趙軍老師也很關心學生。 

      天地小編:聽說您還在為研究生上課? 

      宗成慶:是的。給研究生上課在我們所既不算工作量,也不算什么成果。我之所以愿意上課,一方面因為我原來當過老師,在內心里有一種教師情結。另一方面,我覺得我有一種責任推廣自然語言處理這門學科,讓更多的學生了解我們在做什么。2004年我第一次在研究生院講授“自然語言理解”這門課的時候,只有20多人選修,后來人數每年都在增加。今年6月9號參加這門課考試的學生有197人,成為一門大課了。根據超星學術網站的統計,我講課的視頻自2011年年底開放以來,已經被點擊播放了十一萬多次。