Viện nghiên cứu AI của tuyển kèo nhà cái trực tuyến tuyến dữ liệu phát hành bộ dữ liệu cho nghiên cứu học thuật để tăng tốc phát triển xử lý ngôn ngữ tự nhiên của Nhật Bản bằng cách sử kèo nhà cái trực tuyến tuyến các đánh giá từ jalan.net

19 tháng 10 năm 2020
Recruit Co., Ltd.
Khác

Recruit Co., Ltd. (Trụ sở chính: Chiyoda-ku, Tokyo; Chủ tịch và Giám đốc điều hành: Kitamura Yoshihiro; sau đây gọi là Tuyển kèo nhà cái trực tuyến "Jalan.net", được điều hành bởi tuyển kèo nhà cái trực tuyến Lifestyle Inc.

Các vấn đề trong xử lý ngôn ngữ tự nhiên của Nhật Bản

Xử lý ngôn ngữ tự nhiên đề cập đến một loạt các quy trình trong đó máy tính phân tích ngôn ngữ chúng ta sử kèo nhà cái trực tuyến hàng ngày (ngôn ngữ tự nhiên) và được sử kèo nhà cái trực tuyến trong nhiều tình huống trong cuộc sống và doanh nghiệp hàng ngày, bao gồm công cụ tìm kiếm, dịch máy, hệ thống đối thoại và phân tích phản hồi của khách hàng.

Trong trường hợp xử lý ngôn ngữ tự nhiên trong tiếng Nhật, có một thách thức rằng số lượng bộ dữ liệu được xuất bản là nhỏ so với các ngôn ngữ chính khác. Điều đặc biệt mong muốn làm phong phú các bộ dữ liệu có sẵn cho nghiên cứu học thuật để phát triển xử lý ngôn ngữ tự nhiên trong tiếng Nhật.

Giới thiệu về bộ dữ liệu nghiên cứu học thuật được công bố

Bộ dữ liệu được xuất bản bởi Megagon Labs lần này là một đánh giá về các cơ sở chỗ ở được công bố trên trang web du lịch jalan.net, được cung cấp bởi Recruit Lifestyle và các chú thích dựa trên các đánh giá về các chỗ ở đã được xử lý và tạo. Nó dựa trên nhiều câu khác nhau, bao gồm các giải thích thực tế, ấn tượng và đánh giá của nhiều khách hàng đã thực sự sử kèo nhà cái trực tuyến jalan.net và có thể được sử kèo nhà cái trực tuyến để xử lý ngôn ngữ tự nhiên của Nhật Bản. Cụ thể, hai bộ dữ liệu sau đây sẽ được xuất bản trong kho lưu trữ tương ứng của họ:

(1) Hàm ý Dữ liệu mối quan hệ

Đây là một bộ dữ liệu được dán nhãn "Phòng có chế độ xem đại dương và khung cảnh" khi câu "căn phòng có thể nhìn thấy đại dương từ căn phòng" cũng giữ (cho dù có hàm ý). (Khoảng 55.000 kết quả)
Nó cũng bao gồm các nhãn phân cực cảm xúc như tích cực/tiêu cực/trung tính và các câu cũng bao gồm các nhãn cho biết liệu các tính năng của nhà trọ có được bao gồm hay không. (Khoảng 5.600 kết quả)

https: //github.com/megagonlabs/jrte-corpus

(2) Bộ dữ liệu giải thích bằng chứng

Đây là một bộ dữ liệu để giải thích các cơ sở khuyến nghị cho yêu cầu của người dùng khi giới thiệu khách sạn. (Khoảng 37.300 kết quả)
Ví dụ, chúng tôi nhằm mục đích trả lời bằng chứng cho người dùng đang tìm kiếm một khách sạn "một chỗ ở thân thiện với trẻ em", nói, "chỗ ở này có một không gian của trẻ em rộng lớn, vì vậy nó được khuyến nghị cho bạn." BY-SYNENTE được dán nhãn cho dù cơ sở tương ứng với yêu cầu, và sau đó câu được xác định là cơ sở được chuyển đổi thành một câu khuyến nghị.

https: //github.com/megagonlabs/ebe-dataset


Bằng cách sử kèo nhà cái trực tuyến các bộ dữ liệu này cho các nhà nghiên cứu làm việc về xử lý ngôn ngữ tự nhiên bằng tiếng Nhật, nghiên cứu sâu hơn có thể được dự kiến ​​sẽ tăng tốc. Bộ dữ liệu này được dự định để sử kèo nhà cái trực tuyến trong các mục đích nghiên cứu học thuật và chỉ được cấp phép cho các mục đích phi thương mại.

Megagon Labs sẽ tiếp tục xuất bản bộ dữ liệu cho nghiên cứu học thuật, góp phần phát triển công nghệ xử lý ngôn ngữ tự nhiên của Nhật Bản. Nếu bạn có bất kỳ mối quan tâm nào về bộ dữ liệu nghiên cứu học thuật này, vui lòng liên hệ với chúng tôi tại thông tin liên hệ bên dưới.

Tập dữ liệu nghiên cứu học thuật của Megagon Labs
https: //www.megagon.ai/jp/projects/datasets/

Bấm vào đây để biết chi tiết về vấn đề này

(c) Tuyển kèo nhà cái trực tuyến Công ty TNHH