Thị Giác Máy Tính Là Gì

  -  

Thị giác máy tính (Computer Vision) là trong những lĩnh vực hot độc nhất vô nhị của khoa học máy vi tính và nghiên cứu trí tuệ nhân tạo. Dù chúng vẫn không thể đối đầu với sức mạnh thị giác của mắt người, đã có rất nhiều ứng dụng hữu dụng được tạo ra khai thác tiềm năng của chúng.

Bạn đang xem: Thị giác máy tính là gì

Khi bạn nhìn vào hình ảnh sau đây, bạn sẽ thấy người, đồ dùng thể và các tòa nhà. Nó đưa về những ký kết ức về hồ hết trải nghiệm trong quá khứ, những tình huống tương từ bỏ bạn gặp gỡ phải. Đám đông đang đương đầu cùng hướng với giơ điện thoại thông minh lên, điều này cho bạn biết rằng đấy là một loại sự kiện. Người đứng sát máy hình ảnh đang khoác áo thun gợi ý về sự kiện hoàn toàn có thể xảy ra. Khi các bạn nhìn vào các chi tiết nhỏ dại khác, bạn cũng có thể suy ra nhiều tin tức hơn tự hình ảnh.

*
Ảnh của Joshua J. Cotten

Nhưng so với máy tính, hình ảnh này giống như tất cả những hình ảnh khác, đó là 1 mảng các pixel, những giá trị số đại diện thay mặt cho các sắc độ của màu đỏ, xanh lá cây với xanh dương. Một trong số những thách thức mà các nhà khoa học laptop phải đồ gia dụng lộn từ những năm 1950s là tạo nên những cỗ máy có thể gọi được hình ảnh và đoạn phim như con người. Lĩnh vực thị giác sản phẩm tính từ đó đã trở thành một một trong những lĩnh vực nghiên cứu và phân tích hot độc nhất vô nhị về khoa học máy vi tính và trí tuệ nhân tạo.


*

Nhiều thập kỷ sau, bọn họ đã đạt được văn minh lớn trong việc tạo ra các phần mềm rất có thể hiểu và bộc lộ nội dung của tài liệu một bí quyết trực quan. Nhưng chúng ta cũng đã nhận được ra rằng cần được đi xa đến hơn cả nào trước khi hoàn toàn có thể hiểu với tái tạo 1 trong các những công dụng cơ bản của cỗ não nhỏ người.

Sơ lược về lịch sử thị giác sản phẩm công nghệ tính

Năm 1966, Seymour Papert cùng Marvin Minsky, nhì nhà đón đầu về trí thông minh nhân tạo, vẫn khởi rượu cồn một dự án mang thương hiệu “Summer Vision Project“, một nỗ lực kéo dài hai tháng với kéo theo 10 bạn để tạo nên một khối hệ thống máy tính có thể nhận dạng những vật thể vào ảnh.

Để dứt nhiệm vụ, một chương trình máy tính phải có tác dụng xác định pixel nào ở trong về đối tượng nào. Đây là một trong vấn đề mà hệ thống thị giác của con người, được cung cấp bởi con kiến ​​thức rộng lớn của bọn họ về thế giới thực và hàng tỷ năm tiến hóa, hoàn toàn có thể giải quyết một biện pháp dễ dàng. Nhưng đối với máy tính, thế giới chỉ bao hàm các bé số, đó là 1 trong nhiệm vụ đầy thách thức.

Vào thời khắc của dự án công trình này, phân nhánh thống trị chủ lực của trí tuệ tự tạo là symbollic AI, có cách gọi khác là AI dựa vào quy tắc (rule-based AI): những lập trình viên trường đoản cú chỉ định các quy tắc nhằm phát hiện các đối tượng người sử dụng trong hình ảnh. Nhưng vụ việc là các vật thể trong hình ảnh có thể lộ diện từ những góc khác biệt và trong vô số nhiều điều kiện ánh nắng khác nhau. Đối tượng có thể xuất hiện nay trên một loạt các nền không giống nhau hoặc bị các đối tượng người dùng khác bít khuất một phần. Mỗi kịch bạn dạng này tạo ra các quý hiếm pixel khác biệt và thực tiễn không thể sản xuất quy tắc thủ công bằng tay cho từng chiếc một trong số chúng.

Hẳn nhiên, Summer Vision Project đã không đi xa và với lại kết quả khá hạn chế. Vài năm sau đó, vào thời điểm năm 1979, nhà công nghệ Nhật bản Kunihiko Fukushima đã khuyến cáo neocognitron , một khối hệ thống thị giác máy vi tính dựa trên phân tích khoa học thần kinh được thực hiện trên vỏ óc về thị giác của con người. Mặc mặc dù neocognitron của Fukushima cấp thiết thực hiện ngẫu nhiên nhiệm vụ trực quan phức tạp nào, nhưng mà nó đã đặt nền tảng gốc rễ cho một trong những phát triển quan trọng đặc biệt nhất trong lịch sử hào hùng thị giác sản phẩm công nghệ tính.

Cuộc bí quyết mạng học sâu – Deep Learning

Vào trong những năm 1980s, công ty khoa học máy vi tính người Pháp Yan LeCun đã giới thiệu mạng thần kinh tích chập (convolutional neural network, CNN), một khối hệ thống AI lấy xúc cảm từ neocognitron của Fukushima. Một CNN bao hàm nhiều lớp tế bào thần kinh nhân tạo, các thành phần toán học tập mô phỏng gần giống hoạt động của các phiên bạn dạng sinh học của chúng.

*

Khi một CNN xử lý một hình ảnh, mỗi lớp của nó sẽ trích xuất những đặc trưng ví dụ từ các pixel. Lớp đầu tiên phát hiện rất nhiều thứ rất cơ bản, chẳng hạn như những cạnh dọc với ngang. Khi bạn di chuyển sâu hơn vào mạng thần kinh, các lớp vẫn phát hiện các đặc trưng phức hợp hơn, bao gồm các góc cùng hình dạng. Các lớp ở đầu cuối của CNN phân phát hiện đều thứ rõ ràng như khuôn mặt, cửa nhà và xe hơi. Lớp cổng output của CNN hỗ trợ một bảng những giá trị số thể hiện xác suất cơ mà một đối tượng rõ ràng được phát hiện nay trong ảnh.

Mạng thần gớm tích chập của LeCun rất hoàn hảo và cho biết thêm rất nhiều hứa hẹn, nhưng chúng bị cản trở bởi vì một vấn đề nghiêm trọng: Điều chỉnh và thực hiện chúng yên cầu một lượng lớn dữ liệu và tài nguyên tính toán không bao gồm sẵn tại thời gian đó. CNN cuối cùng đã tìm kiếm thấy việc sử dụng thương mại trong một số nghành nghề hạn chế như ngân hàng và dịch vụ thương mại bưu chính, địa điểm chúng được thực hiện để xử lý các chữ số cùng chữ viết tay trên phong suy bì và các tờ séc. Nhưng trong nghành nhận diện đối tượng, chúng ta đã thua trận và nhường chỗ đến các kỹ thuật học máy khác, như ‘support vector machines’ và ‘random forests’.

Xem thêm: Romance Of The Three Kingdoms Xiii

Vào năm 2012, những nhà phân tích AI tự Toronto đã cải tiến và phát triển AlexNet, một mạng thần kinh tích chập chỉ chiếm ưu thay trong cuộc thi nhận hình dáng ảnh ImageNet nổi tiếng. Chiến thắng của AlexNet cho thấy thêm với sự tăng thêm sẵn có của tài liệu và tài nguyên năng lượng điện toán, có lẽ rằng đã mang lại lúc phải quay trở lại với CNN. Sự kiện này đã làm hồi sinh sự suy nghĩ các CNN và tạo ra một cuộc giải pháp mạng trong Deep Learning, phân nhánh của Machine Learning liên quan đến vấn đề sử dụng những mạng thần kinh nhân tạo nhiều lớp.

Nhờ những tân tiến trong mạng thần gớm tích chập với học sâu, từ bỏ đó, lĩnh vực thị giác máy tính xách tay đã phát triển nhờ những bước nhảy vọt.

Ứng dụng của Thị giác trang bị tính

Nhiều áp dụng bạn sử dụng hàng ngày sử dụng công nghệ thị giác sản phẩm công nghệ tính. Google áp dụng nó để giúp đỡ bạn search kiếm các đối tượng người tiêu dùng và cảnh đồ dùng như là, “con chó” hoặc “hoàng hôn” trong một tủ sách hình ảnh của bạn. Những công ty khác áp dụng thị giác máy vi tính để giúp nâng cao hình ảnh. Một lấy một ví dụ là Adobe Lightroom CC, sử dụng thuật toán Machine Learning để tăng cường chi tiết của hình hình ảnh được phóng to. Phép tắc phóng khổng lồ (zoom in) truyền thống lịch sử sử dụng những kỹ thuật nội suy nhằm tô màu các khu vực được phóng to, nhưng mà Lightroom thực hiện thị giác máy tính xách tay để phát hiện các đối tượng người sử dụng trong hình ảnh và có tác dụng sắc nét các đặc trưng của chúng sau khi được phóng to.

Một nghành nghề dịch vụ đã đạt được hiện đại rõ rệt dựa vào những tiến bộ trong thị giác máy tính là dìm diện khuôn mặt. Apple áp dụng thuật toán nhận dạng khuôn phương diện để bẻ khóa iPhone. Facebook áp dụng nhận dạng khuôn mặt để phát hiện người tiêu dùng trong hình ảnh bạn đăng lên mạng (mặc mặc dù không phải người nào cũng thích điều này). Tại Trung Quốc, những nhà nhỏ lẻ hiện cung cấp công nghệ thanh toán qua nhấn diện khuôn mặt, giúp quý khách hàng không cần được tiếp cận với túi tiền của họ.

Những tân tiến trong dấn dạng khuôn phương diện cũng tạo ra băn khoăn lo lắng cho những người ủng hộ quyền riêng tư, đặc biệt là khi các cơ quan cơ quan chính phủ ở các đất nước khác nhau đang sử dụng nó để giám sát và đo lường công dân của họ.

Chuyển lịch sự các nghành nghề chuyên biệt hơn, thị giác thiết bị tính nhanh chóng trở thành một công cụ không thể thiếu trong y học. Các thuật toán học sâu đang cho biết độ chủ yếu xác ấn tượng trong vấn đề phân tích hình ảnh y tế. Các khám đa khoa và trường đại học đang sử dụng thị giác trang bị tính để tham dự đoán các loại ung thư khác nhau bằng phương pháp kiểm tra tia X cùng quét MRI.

Xe trường đoản cú lái cũng dựa vào rất nhiều vào thị giác laptop để đọc được môi trường xung quanh xung quanh. Các thuật toán học tập sâu phân tích các nguồn cấp cho dữ liệu video clip từ những camera được cài bỏ lên xe với phát hiện nay người, xe hơi, mặt con đường và những vật thể khác để giúp đỡ chiếc xe dịch rời trong môi trường thiên nhiên của nó.

Những tinh giảm của Thị giác thiết bị tính

Các khối hệ thống thị giác laptop hiện trên thực hiện tốt việc phân nhiều loại hình ảnh và bản địa hóa các đối tượng trong ảnh, khi bọn chúng được đào tạo tương đối đầy đủ với những ví dụ. Nhưng ở trong phần cốt lõi của chúng, những thuật toán học sâu cung ứng sức mạnh cho những ứng dụng thị giác vật dụng tính đó là việc đối chiếu các mẫu pixel. Chúng không hiểu biết nhiều những gì đang ra mắt trong những hình ảnh.

Việc hiểu mối quan hệ giữa bạn và đối tượng người tiêu dùng trong tài liệu trực quan đòi hỏi phải có các cảm thừa nhận và các kiến ​​thức cơ bản chung. Đó là tại sao tại sao những thuật toán thị giác máy tính xách tay được áp dụng bởi các mạng buôn bản hội hoàn toàn có thể phát hiện các nội dung khỏa thân, tuy nhiên thường phải khó khăn để sáng tỏ sự khác hoàn toàn giữa hình ảnh khoả thân bình yên (ví dụ cho bé bú hoặc thẩm mỹ và nghệ thuật Phục hưng) và câu chữ bị cấm như câu chữ khiêu dâm. Tương trường đoản cú như vậy, thật nặng nề để các thuật toán này nói lên sự khác hoàn toàn giữa tuyên truyền rất đoan và một phim tài liệu về các nhóm cực đoan!

Con người rất có thể khai thác con kiến ​​thức rộng lớn về vắt giới của mình để lấp đầy phần nhiều lỗ hổng khi họ đương đầu với một tình huống mà họ chưa từng thấy trước đây. Không y như con người, những thuật toán thị giác máy vi tính cần phải được phía dẫn tinh tế về các loại đối tượng người tiêu dùng mà chúng cần phát hiện. Ngay khi môi trường thiên nhiên của bọn chúng chứa các thứ đi chệch khỏi các ví dụ đã làm được đào tạo, chúng ban đầu hành cồn theo các cách phi lý, ví dụ như không phát hiện nay ra những phương tiện nguy cấp dừng đỗ ở hầu như vị trí không giống thường.

Hiện tại, phương án duy nhất để giải quyết và xử lý những sự việc này là đào tạo các thuật toán AI bên trên với ngày càng nhiều các ví dụ, với hy vọng lượng dữ liệu bổ sung cập nhật sẽ khái quát mọi trường hợp mà AI sẽ gặp gỡ phải. Nhưng những kinh nghiệm cho thấy, nếu không tồn tại sự thừa nhận thức theo tình huống, sẽ luôn luôn có phần đông góc khuất trong những tình huống cá biệt làm xôn xao thuật toán AI.

Xem thêm: Choi Game Mario Phieu Luu 1【Copy_Sodo66, Game Mario Phiêu Lưu

Nhiều chuyên viên tin rằng họ sẽ chỉ đạt ngưỡng được thị giác máy tính thực sự khi họ tạo ra trí sáng dạ chung tự tạo (artificial general intelligence), AI hoàn toàn có thể giải quyết những vấn đề theo cách tương tự như như bé người. Như công ty khoa học máy tính xách tay và nhà nghiên cứu và phân tích AI Melanie Mitchell sẽ nói trong cuốn sách Trí sáng ý nhân tạo: hướng dẫn về tứ duy bé người: “Dường như trí hoàn hảo thị giác không dễ bóc tách rời khỏi phần còn sót lại của trí thông minh, đặc biệt là kiến ​​thức chung, sự trừu tượng và năng lực ngôn ngữ. Cung ứng đó, có thể các con kiến ​​thức cần thiết cho trí hợp lý thị giác của con fan không thể học tập được từ hàng ngàn bức hình ảnh được mua xuống từ web, nhưng yêu cầu được tận hưởng theo một bí quyết nào đó trong nhân loại thực”.