Hơn 700.000 tác phẩm có nguồn gốc từ trang web tự xuất bản
Naro FanDB, một tài khoản fan X không chính thức (trước đây là Twitter) của trang web tiểu thuyết Nhật Bản Shōsetsuka ni Narō, đã đăng vào ngày 27 tháng 4 rằng một tập dữ liệu công khai từ Dự án RyokoAI đã thu thập khoảng 711.700 tác phẩm từ trang web. Bộ dữ liệu có thể được sử dụng để đào tạo A.I.
Cư dân mạng đặt câu hỏi về đạo đức khi sử dụng tác phẩm của Shōsetsuka ni Narō, tác phẩm có thể xem công khai mà không cần đăng ký tài khoản.
Điều khoản sử dụng của Shōsetsuka ni Narō cấm người dùng tham gia vào bất kỳ hành vi nào có thể vi phạm bản quyền, nhãn hiệu hoặc các quyền sở hữu trí tuệ khác của người duy trì Hina Project trên trang web hoặc những người dùng khác. Người dùng có thể đọc các tác phẩm trên website mà không cần đồng ý với điều khoản sử dụng nhưng luật sở hữu trí tuệ vẫn có thể áp dụng mà không cần điều khoản sử dụng.
Tuyên bố từ chối trách nhiệm cấp phép của tập dữ liệu khẳng định rằng tất cả tài liệu ngoài những tài liệu do Ronsor Labs hoặc Ủy ban sản xuất AI của Ryoko tạo ra”được phân phối theo nguyên tắc sử dụng hợp lý”. Tuy nhiên, Đạo luật bản quyền hiện hành của Nhật Bản và các luật tương tự ở các quốc gia khác không bao gồm học thuyết về sử dụng hợp pháp như được hệ thống hóa ở Hoa Kỳ.
Bộ dữ liệu 65 gigabyte được chia thành 21 phân đoạn và ANN đã xác nhận có ít nhất năm phân đoạn chứa văn bản từ Shōsetsuka ni Narō.
RyokoAI mô tả công ty là”cam kết sản xuất các giải pháp AI nguồn mở và phát hành các mô hình, bộ dữ liệu nguồn mở, v.v..”
Nguồn: Twitter của Naro Fan DB tài khoản, Ôm mặt qua Comic Tài nguyên sách