開會是一般商務活動重要的一環,提供自動化與智慧化的內容記錄與管理將開會的內容自動內容儲存,將可有效簡化會議的流程及日後的文件整理。 本論文擬建置一「即時語音轉換文字在智慧會議室中」(Speech to Text at Smart Conference Room)來簡化此流程,其作用分為二個部分,一、紀錄會議的語音內容,並將其轉為文字,以便公司之後端管理,並對會議內容提供數位內容搜尋。二、即時將影像與字幕合成輸出。發話者可藉由麥克風與攝影機,將談話的內容與影像回傳到接收端,發話的語音可自動轉換為文字,再透過時間軸的關聯性,合成影片與字幕,讓使用者易於了解,同時紀錄關鍵字以供未來搜尋與再製利用。而在影像輸出上,透過本論文所研發的技術,能夠即時將影片結合發話者的內容呈現在字幕上並以即時串流而輸出,更能進一步針對其它語言做轉換,避免非為母語的聆聽者閱讀困難,以利觀看。 Conferences and Meetings have been popular activities in most companies. The content management of a large number of conferences or meeting has become a big challenge. This thesis intends to build a platform of “Smart Conference Management Platform”. The main functions of the developed platform mainly contains two parts. First, the platform automatically record the meeting video and transfer the voice to texts. Then the platform integrates the texts and video based on the time relation. The develop platform eases the knowledge management for the conferences and meetings.