Tin mới
2
Tiềm năng tỷ USD của 'bạn gái AI'
Các ứng dụng bạn gái, bạn trai ảo bằng AI được dự đoán mang về hàng tỷ USD nhờ "đem đến sự thoải mái cho người dùng vào cuối ngày"
Ảnh
iPhone 4 từng bị chê cười khi chưa ra mắt
Khi những hình ảnh đầu tiên của iPhone 4 được tiết lộ đầu năm 2010, nhiều người khẳng định đó không phải thiết kế chính thức của sản phẩm vì quá xấu.

sunwin | sunwin

Tiềm năng tỷ USD của 'bạn gái AI'

Các ứng dụng bạn gái, bạn trai ảo bằng AI được dự đoán mang về hàng tỷ USD nhờ "đem đến sự thoải mái cho người dùng vào cuối ngày"

Sẽ có Mạng từ tiếng Việt vào cuối năm nay

Đăng bởi Tôi Là Sao | 2015-09-28 03:09

Cuối năm nay, Mạng từ tiếng Việt sẽ được đưa vào sử dụng với 50.000 đơn vị từ vựng, trong đó có 30.000 đơn vị từ vựng là tiếng Việt thông dụng, hứa hẹn giúp ích cho nhiều ngành nghề như xử lí tiếng Việt bằng máy tính như dịch máy, phân tích văn bản tự động, tóm tắt văn bản tự động, tìm kiếm thông tin...


Mạng từ tiếng Việt sẽ hoạt động vào cuối năm 2015

Mạng từ (wordnet) được biết đến là một cơ sở dữ liệu về từ trong đó các từ được nhóm lại thành các loạt đồng nghĩa (tiếng Anh gọi là synset). Các loạt đồng nghĩa này được liên kết lại với bằng các quan hệ ngữ nghĩa. Các quan hệ ngữ nghĩa đó có thể là quan hệ bao thuộc, quan hệ tổng phân, quan hệ đồng nghĩa, quan hệ trái nghĩa, quan hệ kéo theo, quan hệ cách, quan hệ nhân quả, quan hệ thuộc tính...

Mạng từ không chỉ là một loại từ điển có tính trực quan cao, mà quan trọng hơn, Mạng từ còn là một cơ sở dữ liệu cần thiết để có thể được sử dụng để phân tích tự động văn bản, xử lí ngôn ngữ tự nhiên, và các thực hiện các ứng dụng trí tuệ nhân tạo khác.

Với tâm huyết phát triển lĩnh vực xử lí ngôn ngữ tự nhiên mà cụ thể là xử lí tiếng Việt, hiện nay, Mạng từ tiếng Việt cũng đang được một nhóm các nhà Ngôn ngữ học và Khoa học máy tính cùng nhau xây dựng.

Mạng từ tiếng Việt gồm ba nhóm từ loại chính là danh từ, động từ và tính từ. Các từ trong mỗi nhóm từ loại được nhóm lại thành các loạt đồng nghĩa. Các loạt đồng nghĩa này được liên kết với nhau bằng các quan hệ ngữ nghĩa khác nhau như bao thuộc (hoa - hoa hồng), tổng phân (mặt - mắt), trái nghĩa (nhanh - chậm)...

Mạng từ tiếng Việt, khi được hoàn thành, có thể được ứng dụng vào nhiều công việc khác nhau. Nhờ Mạng từ tiếng Việt, một loạt công việc liên quan đến việc xử lí tiếng Việt bằng máy tính như dịch máy, phân tích văn bản tự động, tóm tắt văn bản tự động, tìm kiếm thông tin... sẽ được thực hiện dễ dàng, hiệu quả và nhanh chóng hơn. Bên cạnh đó, nhiều nghiên cứu mang tính lí thuyết, nhiều công việc có tính ứng dụng khác cũng sẽ cần đến Mạng từ tiếng Việt như việc xây dựng các loại từ điển ngữ văn tổng hợp và chuyên ngành tiếng Việt, việc nghiên cứu ngôn ngữ và văn hoá Việt Nam, việc so sánh tiếng Việt với các ngôn ngữ khác, việc giảng dạy tiếng Việt...

Đồng thời, khi Mạng từ tiếng Việt hoàn thành, nó có thể kết nối với các mạng từ khác trên thế giới để hình thành một từ điển song ngữ hay đa ngữ. Hiện nay, theo Hiệp hội mạng từ toàn cầu, trên thế giới hiện có hơn 70 mạng từ đơn ngữ và đa ngữ như: Mạng từ tiếng Nga (RussNet), Mạng từ tiếng Trung (Chinese WordNet), Mạng từ tiếng Thái (Thai WordNet), Mạng từ tiếng Hindi (Hindi WordNet), Mạng từ tiếng Sanskrit (Sanskrit Wordnet), Mạng từ các ngôn ngữ châu Âu (EurowordNet), Mạng từ châu Á (Asian WordNet)...

Được biết, Mạng từ tiếng Việt là một trong những sản phẩm chính của đề tài nghiên cứu khoa học cấp Nhà nước Nghiên cứu, xây dựng và phát triển một số tài nguyên và công cụ thiết yếu cho xử lí văn bản tiếng Việt, mã số KC.01.20/11-15, thuộc chương trình KC.01/11-15 do Công ty Cổ phần Dịch vụ Công nghệ Thông tin Naiscorp chủ trì thực hiện. Các thành viên trong nhóm đề tài trong nhiều năm qua đã miệt mài làm việc và đang gấp rút hoàn thành những công đoạn cuối để có thể đưa Mạng từ tiếng Việt lên trang web http://wordnet.vn vào cuối năm nay (năm 2015).

Năm 1985, tại trường Đại học Princeton, một nhóm các nhà Khoa học thuộc các ngành khác nhau như Ngôn ngữ học, Tâm lí học, khoa học máy tính... mà đứng đầu là Giáo sư Ngôn ngữ học tâm lí George Armitage Miller, đã cùng nhau xây dựng một cơ sở dữ liệu tiếng Anh trên cơ sở mô phỏng hệ thống tổ chức từ vựng được hình thành trong não bộ của con người. Cơ sở dữ liệu này được gọi là Mạng từ (WordNet) và thường được gọi là Mạng từ tiếng Anh hay Mạng từ Princeton để phân biệt với các mạng từ khác.​

Mục tiêu ban đầu của Mạng từ chỉ là xây dựng một cơ sở dữ liệu từ vựng phù hợp với lí thuyết bộ nhớ ngữ nghĩa của con người phát triển vào cuối những năm 1960.  Tuy nhiên, thực tế cho thấy nó không chỉ là một cơ sở dữ liệu từ vựng dùng để nghiên cứu ngôn ngữ tiếng Anh và tâm lí mà nó còn là cơ sở dữ liệu vô cùng quan trọng cho ngành Công nghệ thông tin đặc biệt là trong lĩnh vực xử lí ngôn ngữ tự nhiên.

Hiện nay, nhiều ngôn ngữ khác cũng đã áp dụng mô hình này để xây dựng cơ sở dữ liệu cho riêng mình như: Một số ngôn ngữ Balkans, Một số ngôn ngữ châu Âu, Đan Mạch, Nga, Arab, Trung Quốc, Phần Lan, Indonesia, Hàn Quốc, Nhật, Thái...

Theo Dân trí

Xem tiếp :

Bài viết, video, hình ảnh đóng góp cho chuyên mục xin gửi về:
bientap@2isao.com

loading...


Viết bình luận