Sự phát triển nhanh chóng của AI tạo ra đã làm dấy lên nhiều cuộc thảo luận và chủ đề khác nhau. Mối quan hệ giữa AI tổng quát và hướng sáng tạo ở đâu? Arai Mono, CTO của AIHUB và đang làm việc ở lĩnh vực giao thoa giữa giải trí và công nghệ, và Seshita Hiroyuki, đạo diễn hoạt hình có thâm niên làm việc trong 3DCG, thảo luận về tương lai của mối quan hệ này từ quan điểm của họ.
■Hồ sơ
Seshita Hiroyuki
Đạo diễn hoạt hình của Studio KADAN. Ông sinh năm 1967, đã làm việc trong nhiều lĩnh vực sản xuất CG và VFX từ những năm 1980. Seshita đã đạo diễn một số tác phẩm đáng chú ý, bao gồm “Knights of Sidonia”, “Ajin: Demi-Human”, “BLAME!” và bộ ba phim “GODZILLA”. Dự án gần đây nhất của anh ấy, “Lupin III vs. Cat’s Eye,” hiện đã có trên Amazon Prime Video. Ngoài ra, Seshita còn góp phần chỉ đạo nhân vật CG trong “Suzume” của Shinkai Makoto.
Arai Mono
Giám đốc đại diện và CTO của AIHUB Co., Ltd., nơi ông cũng giữ chức vụ Nghệ sĩ và Kỹ sư. Anh ấy đã tham gia vào nhiều công ty khởi nghiệp và dự án, chủ yếu là lĩnh vực giải trí và công nghệ, giữ các vai trò như Giám đốc dự án, Giám đốc sản phẩm và Kiến trúc sư. Arai đóng vai trò thành lập Hiệp hội Linux Nhật Bản và Hiệp hội Y tế Nhật Bản Tổ chức quản lý ORCA “Dự án ORCA”. Kể từ khi thành lập AIHUB Co., Ltd., ông đã tập trung vào nghiên cứu và phát triển, phát triển các trường hợp sử dụng, triển khai xã hội của AI tổng quát và sự kết hợp giữa công nghệ AI và web3 có trách nhiệm. Anh là thành viên sáng lập của Sáng kiến Chuỗi Anime, nhằm mục đích phát triển mô hình nền tảng sạch cho AI có tính sáng tạo.
■Cơ chế của AI và các mối quan tâm
–Giám đốc Seshita, đã bao lâu rồi ông chưa bước chân vào thế giới 3DCG?
Seshita: Khoảng năm 1987. Tôi đã tham gia một dự án cho Tujitsu Pavilion tại Triển lãm Vườn và Cây xanh Quốc tế (tổ chức năm 1990), qua lời giới thiệu của giáo viên trường dạy nghề của tôi, Douglas Lerner. Đó là công việc bán thời gian trong một dự án do những nhân vật nổi tiếng như Tiến sĩ Nelson Max từ Phòng thí nghiệm quốc gia Lawrence Livermore và Roman Kroitor, người đồng sáng lập của IMAX Corporation, dẫn đầu. Sau đó, vào năm 1989, tôi gia nhập một công ty sản xuất CG tên là Links, nơi tôi kết thúc công việc thực hiện Flora Dome (đồng tổ chức bởi Bộ Bưu chính Viễn thông, NTT và KDD) tại Triển lãm Cây xanh và Vườn Quốc tế. Tôi nghĩ “Lại nữa rồi!” (cười).
Arai: Tôi hiểu rồi. Lúc đó tôi đang là thư ký riêng cho ông Aikawa (Kiyoshi) của Omnibus Japan. Tôi cũng nhận được rất nhiều sự hỗ trợ từ Links (cười). Ngoài ra, tôi còn là thành viên của một liên doanh được thành lập bởi một số công ty, chẳng hạn như Omnibus Japan và Links.
Seshita: Wow! Có vẻ như chúng tôi khá thân thiết với nhau.
Arai: Tuy nhiên, cuối cùng tôi đã rời khỏi 3DCG và quyết định theo đuổi việc phát triển sử dụng hệ điều hành và phần mềm nguồn mở. Hiện tại, tôi làm việc ở lĩnh vực giao thoa giữa giải trí và công nghệ, bao gồm cả AI.
Seshita: Tôi nhớ cũng có thời kỳ bùng nổ AI vào những năm 1980. Vào thời điểm đó, một máy trạm có tên Symbolics, sử dụng LISP (ngôn ngữ cấp cao được sử dụng trong nghiên cứu AI), rất phổ biến. Tôi nhớ mình đã rất ngạc nhiên trước những mô phỏng chuyển động của đàn. Đó là thời đại có nhiều ý tưởng tiến bộ, nhưng mặc dù lý thuyết rất hấp dẫn nhưng vẫn có nhiều hạn chế về môi trường như thông số kỹ thuật máy thấp, phải mất hàng chục nghìn năm tính toán mới có thể thực hiện được (cười). Đó là lý do tại sao tôi rất vui mừng khi AI ngày nay đã trở nên phổ biến và tôi xem các cuộc thảo luận khác nhau một cách tích cực vì chúng là một phần của quá trình đưa các ứng dụng thực tế đến gần hơn..
Arai: Sự xuất hiện của máy biến áp kiến trúc năm 2017 đánh dấu bước ngoặt trong sự phát triển của AI trong những năm gần đây. Đây là một trong những kỹ thuật học sâu, với sự xuất hiện của nó đã chia cắt sâu sắc lịch sử của AI thành trước và sau khi nó được tạo ra. Ngoài ra, sự phát triển AI hiện tại còn lấy cộng đồng nguồn mở làm nền tảng, nơi việc chia sẻ tài liệu và triển khai các chức năng được thực hiện với tốc độ cực kỳ nhanh, đây là một yếu tố khác góp phần vào sự phát triển cực kỳ nhanh chóng của nó. Chu kỳ sản xuất từng mất nhiều thời gian hơn. Các nhà nghiên cứu từ các trường đại học và công ty sẽ viết các bài báo trải qua quá trình bình duyệt trước khi được công bố trên các tạp chí học thuật. Chỉ sau đó, các sản phẩm thực tế dựa trên nghiên cứu mới được phát triển.
Ngày nay, các bài báo được tải lên mạng ngay lập tức và trong vòng vài ngày, các plugin dựa trên các bài báo đó sẽ được triển khai. Đó là mô hình “nhà thờ và chợ”. Trong quá trình phát triển AI, những thứ mới được sinh ra trong một môi trường sôi động giống như một khu chợ, nơi các cửa hàng riêng lẻ tụ tập lại thay vì hoàn thành một dự án lớn bằng cách xếp những viên đá như xây một thánh đường.
Đó là lý do tại sao người ta thường nói rằng điều gì là quan trọng đối với Sự đổi mới của AI đang tạo ra một môi trường nơi nhiều người tài năng có thể tham gia vào nó. Trong bối cảnh đó, những đột phá mang tính đột phá như kỹ thuật “hợp nhất phân cấp” và tiện ích mở rộng “ControlNet” đã xuất hiện.
Seshita: Trong thế giới 3DCG, Blender chắc chắn đang khẳng định sự hiện diện của mình như một nền tảng mở nổi bật. phần mềm nguồn. Nhiều ý tưởng khác nhau không ngừng được hiện thực hóa và tích lũy, kích thích lẫn nhau và cho ra đời những ý tưởng mới. Những lợi ích của cộng đồng nguồn mở đang được tận dụng tối đa, khiến nó trở thành một thế lực thống trị trong ngành..
Trở lại với AI, có một tin tức khiến tôi chú ý gần đây. Tác giả của cuốn tiểu thuyết đoạt giải Akutagawa (“Tokyoto Dojo-to” của Kudan Rie, viết tắt là Tháp cảm thông thủ đô Tokyo) đã đề cập rằng họ đã sử dụng AI (một phần). Tôi tự hỏi tại sao họ cảm thấy cần phải tiết lộ thông tin đó. Ví dụ, dù máy xử lý văn bản hay bút chì có hiệu suất cao đến đâu thì chúng cũng chỉ là công cụ dành cho sự sáng tạo, phải không? AI cũng là một trong những công cụ đó nên tôi nghĩ họ không cần phải đề cập cụ thể đến nó.
Arai: AI quả thực là một “cây bút” mới để người sáng tạo sử dụng. Tuy nhiên, tôi nghĩ nhiều người đang lo lắng về việc sử dụng AI trên thế giới vì từ bên ngoài họ không thể biết liệu chiếc bút đó có thực sự an toàn và đáng tin cậy hay không.
Seshita: Cá nhân tôi muốn sử dụng AI trong một số hình thức trong tương lai và tôi đã bắt đầu thử nghiệm nhiều thứ khác nhau. Tuy nhiên, khi xem xét các cuộc thảo luận xung quanh AI, tôi lo lắng hơn rằng các thỏa thuận pháp lý và đạo đức hoạt động xung quanh nó sẽ đi theo hướng tạo ra một số lượng lớn các quy định và ràng buộc mới, cuối cùng dẫn đến sự suy giảm khả năng sáng tạo tổng thể. của cộng đồng hơn là bản thân AI.
■ Mối quan hệ giữa trình tạo hình ảnh AI và Anime
— Trong các cuộc thảo luận xung quanh trình tạo hình ảnh AI, tôi nghĩ mọi người lo ngại rằng AI đang được đào tạo bằng hình ảnh trên internet mà không có sự cho phép của người sáng tạo. Bạn có thể giải thích lại quá trình đào tạo của AI tạo hình ảnh đòi hỏi những gì không?
Arai: Quá trình đào tạo của trình tạo hình ảnh AI có thể được chia đại khái thành ba giai đoạn. Đầu tiên là đào tạo mô hình nền tảng. Tại đây, AI được đào tạo với những thông tin cơ bản, chẳng hạn như cách thế giới vận hành và các khái niệm của con người. Trình tạo hình ảnh AI được đào tạo với khoảng 5 tỷ hình ảnh trên internet. Tiếp theo, dưới hình thức đào tạo bổ sung, AI được cung cấp thông tin cụ thể hơn như phong cách anime hoặc phong cách quang học, được hợp nhất với mô hình nền tảng.
Trong quy trình cuối cùng, được gọi là đào tạo tập trung, AI được cung cấp dữ liệu có thể dùng làm tài liệu tham khảo cho các hình ảnh cụ thể mong muốn. Điều 30-4 của Đạo luật Bản quyền cho phép sử dụng hình ảnh ít nhất cho mục đích đào tạo cơ bản và bổ sung, miễn là”việc sử dụng đó không nhằm mục đích thưởng thức các ý tưởng hoặc cảm xúc được thể hiện trong tài liệu có bản quyền”. Mặt khác, khi nói đến việc sử dụng các kết quả được tạo ra, bất kể người tạo ra là AI hay con người, nó đều được đánh giá dựa trên “sự tương đồng” và “sự tin cậy”. Nếu có hai yếu tố này thì bị coi là vi phạm bản quyền.
— Các mô hình nền tảng được đào tạo với 5 tỷ hình ảnh?
Arai: Nói chính xác hơn là tạo tập dữ liệu cho đào tạo, dữ liệu được tổng hợp lại với nhau và các hình ảnh có vấn đề, chẳng hạn như nội dung khiêu dâm trẻ em, bị loại trừ một cách máy móc, nhưng điều này không được thực hiện bằng cách xác nhận trực quan từng hình ảnh.
Seshita: Trong trường hợp tranh luận về Liệu hình ảnh do AI tạo ra có “giống hay không”, liệu con người có thực sự đưa ra đánh giá đó không? Ngay cả khi con người đang vẽ, vẫn có nhiều khả năng khác nhau. Đó có thể là đạo văn, tôn kính hoặc thậm chí là nhại lại. Đó là một quá trình khó khăn để đi đến kết luận.
Tôi có một số lo ngại rằng nếu xã hội đi theo hướng mà những hình ảnh có chút giống nhau nhất cũng bị coi là vi phạm bản quyền, thì điều đó có thể hạn chế các hoạt động sáng tạo. Điều này khiến tôi nghĩ rằng trong tương lai sẽ cần có AI để đánh giá độ tin cậy và tính tương đồng của các hình ảnh do AI tạo ra cũng như các tiêu chuẩn quốc tế. ” mọi người có thể tự tin tận dụng lợi thế của nó.
Arai: Các mô hình nền tảng của trình tạo hình ảnh AI hiện tại được đào tạo theo cách không thể xóa bỏ những lo ngại như vậy. Trên thực tế, những gì chúng tôi đang làm để giải quyết vấn đề đó là phát triển “trình tạo hình ảnh AI với mô hình nền tảng được đào tạo độc quyền bằng dữ liệu được ủy quyền” (Sáng kiến Chuỗi Anime “Câu hỏi thường gặp về Chuỗi Anime”). Chứng minh “AI không được sử dụng” là một nhiệm vụ cực kỳ khó khăn vì đó là bằng chứng của ma quỷ, nhưng việc chứng minh “sử dụng AI an toàn” là có thể.
Seshita: Vì vậy, sắp đến lúc chúng ta cũng sẽ làm như vậy chứng minh anime được tạo ra như thế nào, có thể nói, “nguồn gốc và nguyên liệu thô được sử dụng để tạo ra nó”.
Arai: Tôi tin rằng chúng ta cần áp dụng phương pháp này để ngăn chặn sự lan rộng của các trình tạo hình ảnh AI khai thác tiếng Nhật anime và hình minh họa cho nền tảng và đào tạo bổ sung của họ.
Seshita: Nó giống như việc thực phẩm nói rằng chúng được làm bằng canh tác hữu cơ hoặc chúng không sử dụng cây trồng biến đổi gen (cười).
Arai: Đúng vậy (cười).
Seshita: Tuy nhiên, trong trường hợp anime, đó là nỗ lực tập thể của một đội ngũ nhân viên từ 100 đến 300 người. Việc có một bản ghi cho mỗi đầu ra và bản ghi có thể chứng minh rằng “AI an toàn đang được sử dụng” có thể khá rắc rối. Công nghệ chuỗi khối có thể giúp ích, nhưng tôi lo lắng rằng công việc ngoài quá trình sáng tạo sẽ trở thành gánh nặng.
Arai: Thay vì để công nhân làm việc đó, tôi nghĩ nó có thể được thực hiện theo cách mà lập kỷ lục ở cấp ứng dụng và thiết bị.
Seshita: Tôi đã nghĩ đến việc sử dụng công nghệ chuỗi khối để giảm bớt công việc văn phòng chung của người sáng tạo từ lâu. Nếu nó có thể được liên kết ở cấp độ ứng dụng và thiết bị, tôi tin rằng nó có thể được áp dụng cho “quyền tác giả ghi âm”. Khi sử dụng AI tổng hợp, khả năng cung cấp bằng chứng về nguồn gốc và hồ sơ về quá trình sản xuất sẽ trở thành điểm bán hàng của sản phẩm.
Arai: Đúng vậy. Tôi tin rằng nếu được phép sử dụng hình ảnh để đào tạo, một phần lợi nhuận có thể được trả lại cho chủ bản quyền ngay cả khi sử dụng kết quả được tạo ra.
— Trước đó, bạn đã đề cập đến 5 tỷ hình ảnh đó được sử dụng để huấn luyện mô hình nền tảng. Bạn có cần nhiều hình ảnh được ủy quyền không?
Arai: Theo các tài liệu mới nhất, có thể đạt được kết quả tương tự ngay cả với 20 đến 30 triệu hình ảnh, giảm thời gian đào tạo xuống còn 1/10. Ngoài ra, mô hình nền tảng cho AI tạo ra có xu hướng được đào tạo để phản ánh tính thẩm mỹ của phương Tây. Nó giống như sự khác biệt về hương vị khi sử dụng các loại nước dùng khác nhau.
Seshita: Nước dùng? (cười)
Arai: Đúng vậy (cười). Các mẫu xe hiện nay buộc phải tạo ra sản lượng phù hợp với thị hiếu người Nhật. Luôn luôn tốt hơn nếu có những giá trị đa dạng hơn là có một nền văn hóa thống trị duy nhất. Một AI có khả năng sáng tạo phù hợp với nội dung tiếng Nhật sẽ đạt được kết quả tốt hơn trong việc tạo ra nội dung tiếng Nhật. Hơn nữa, tôi nghĩ đó là nơi AI có thể giúp truyền bá khả năng sáng tạo của người Nhật.
Seshita: Từ một góc nhìn khác, thật ngạc nhiên là nó cũng có thể dẫn đến việc sử dụng AI để bảo vệ văn hóa Nhật Bản. Nghe bạn nói, có vẻ như việc sử dụng AI tạo ra trong thực tế đã gần hơn nhiều so với những gì tôi tưởng tượng và tôi rất phấn khích. Tôi thực sự muốn một ngày nào đó tôi có thể thoải mái sử dụng AI làm trợ lý cho chính mình. Nó không nói “Tôi không thể trả lời câu hỏi đó” khi tôi yêu cầu nó “Hãy làm gì đó trước thời hạn” (cười).
Arai: (cười)
Seshita: Tôi xin lỗi vì cuộc trò chuyện đã trở thành khoa học viễn tưởng, nhưng đó là hình ảnh lý tưởng của tôi về AI trong một thời gian dài. Nó không nhất thiết phải là những hướng dẫn trực tiếp, nhưng có thể có những cuộc trò chuyện trừu tượng và điều đó dẫn đến lời khuyên hoặc nguồn cảm hứng. Đó sẽ là một mối quan hệ sáng tạo tốt đẹp với AI.