แมชชีนวิชันกำลังพัฒนาระบบอัตโนมัติอย่างไรในตอนนี้

By Jody Muelaner

แมชชีนวิชันคือชุดเทคโนโลยีที่ช่วยให้อุปกรณ์อัตโนมัติ (ภาคอุตสาหกรรมหรืออื่นๆ) มีความเข้าใจสภาพแวดล้อมจากภาพในระดับสูง หากไม่มีซอฟต์แวร์แมชชีนวิชัน สำหรับอุปกรณ์ดังกล่าว ภาพดิจิทัลก็จะเป็นเพียงชุดพิกเซลที่ไม่เชื่อมต่อกัน มีค่าสีและความเข้มของโทนสีที่หลากหลาย โดยแมชชีนวิชันจะช่วยให้คอมพิวเตอร์ (โดยทั่วไปเชื่อมต่อกับส่วนควบคุมของเครื่องจักร) ตรวจจับขอบและรูปร่างภายในภาพดังกล่าว เพื่อให้การประมวลผลในระดับสูงกว่า ซึ่งจะสามารถระบุวัตถุที่สนใจที่กำหนดไว้ล่วงหน้าได้ โดยภาพในแง่นี้ไม่จำเป็นต้องจำกัดเฉพาะภาพถ่ายในสเปกตรัมที่มองเห็นได้ นอกจากนี้ยังอาจรวมถึงภาพที่ได้จากสัญญาณอินฟราเรด เลเซอร์ เอ็กซ์เรย์ และอัลตราซาวนด์

ภาพการใช้แมชชีนวิชันสำหรับการใช้งานในหุ่นยนต์ที่ซับซ้อนยิ่งขึ้น รูปที่ 1: การใช้แมชชีนวิชันสำหรับการใช้งานในหุ่นยนต์ที่ซับซ้อนมากขึ้นนั้นกำลังเพิ่มขึ้น (แหล่งที่มาภาพ: John6863373 | Dreamstime.com)

การใช้งานแมชชีนวิชันที่ใช้กันโดยทั่วไปในโรงงานอุตสาหกรรมคือการระบุชิ้นส่วนเฉพาะในภาชนะที่มีชิ้นส่วนที่จัดเรียงแบบสุ่ม (สลับซับซ้อน) ในที่นี้ แมชชีนวิชันสามารถช่วยหุ่นยนต์หยิบและวางหยิบชิ้นส่วนที่ถูกต้องได้โดยอัตโนมัติ แน่นอนว่าการจดจำชิ้นส่วนดังกล่าวด้วยการตอบสนองทางภาพจะค่อนข้างตรงไปตรงมา หากชิ้นส่วนทั้งหมดถูกจัดเรียงอย่างเรียบร้อยและวางในลักษณะเดียวกันบนถาด อย่างไรก็ตาม อัลกอริธึมแมชชีนวิชันที่มีประสิทธิภาพสามารถจดจำวัตถุในระยะต่างๆ จากกล้อง (และด้วยเหตุนี้ที่เซ็นเซอร์ภาพจึงมีขนาดต่างกัน) รวมถึงในทิศทางที่แตกต่างกัน

ระบบแมชชีนวิชันที่ซับซ้อนที่สุดทำให้การออกแบบใหม่และที่เกิดขึ้นใหม่ที่ซับซ้อนกว่าการแยกวัสดุ (Bin Picking) ที่อาจไม่มีใครจดจำได้มากไปกว่ายานยนต์ไร้คนขับ เป็นต้น

ภาพของแมชชีนวิชันช่วยให้ระบบเข้าใจสภาพแวดล้อมในระดับสูงรูปที่ 2: แมชชีนวิชันช่วยให้ระบบ (อุตสาหกรรมหรืออื่นๆ) เข้าใจสภาพแวดล้อมในระดับสูงจากภาพ (แหล่งที่มาภาพ: Wikimedia)

เทคโนโลยีที่เกี่ยวข้องกับแมชชีนวิชัน

คำว่า แมชชีนวิชัน บางครั้งถูกสงวนไว้เพื่ออ้างอิงวิธีการทางคณิตศาสตร์ที่เป็นที่ยอมรับและมีประสิทธิภาพมากขึ้นในการดึงข้อมูลจากรูปภาพ ตรงกันข้ามกับคำว่า คอมพิวเตอร์วิชัน ที่โดยทั่วไปจะอธิบายถึงระบบที่ทันสมัยและต้องใช้การคำนวณมากขึ้น รวมถึงกล่องดำโดยใช้แมชชีนเลิร์นนิ่งหรือปัญญาประดิษฐ์ (AI) อย่างไรก็ตาม แมชชีนวิชันยังสามารถใช้เป็นคำที่ครอบคลุมถึงวิธีการดึงข้อมูลระดับสูงทั้งหมดจากภาพ ในบริบทนี้ คอมพิวเตอร์วิชันจะอธิบายถึงทฤษฎีการทำงานพื้นฐาน

เทคโนโลยีในการดึงข้อมูลระดับสูงออกจากภาพมีอยู่มากมาย ภายในวงการการวิจัย เทคโนโลยีดังกล่าวมักถูกมองว่าแตกต่างจากแมชชีนวิชัน อย่างไรก็ตาม ในทางปฏิบัติแล้ว วิธีการใช้แมชชีนวิชันนั้นต่างกันออกไป และในหลายกรณี ทั้งสองวิธีก็ซ้อนทับกัน

การประมวลผลภาพดิจิทัล เป็นรูปแบบหนึ่งของการประมวลผลสัญญาณดิจิทัลที่เกี่ยวข้องกับการปรับปรุงภาพ การคืนสภาพ การเข้ารหัส และการบีบอัด ข้อดีที่เหนือกว่าการประมวลผลภาพแบบอนาล็อก ได้แก่ สัญญาณรบกวนและการบิดเบือนที่ลดลง ตลอดจนความพร้อมใช้งานของอัลกอริทึมที่มากขึ้น การใช้การปรับปรุงภาพในช่วงแรกคือการแก้ไขระยะใกล้ระยะแรกของภาพพื้นผิวดวงจันทร์ สิ่งนี้ใช้การทำแผนที่โฟโตแกรมเมตริกรวมถึงตัวกรองสัญญาณรบกวนและการแก้ไขความผิดเพี้ยนทางเรขาคณิตที่เกิดจากการจัดตำแหน่งของกล้องถ่ายภาพกับพื้นผิวดวงจันทร์

รูปภาพของตัวควบคุมวงจรรวม (IC) ของ Texas Instruments DLPC350รูปที่ 3: ตัวควบคุมวงจรรวม (IC) DLPC350 ให้สัญญาณทริกเกอร์อินพุตและเอาต์พุตสำหรับการซิงโครไนซ์รูปแบบที่แสดงกับกล้อง ทำงานร่วมกับอุปกรณ์ไมโครมิเรอร์แบบดิจิทัล (DMD) ที่ออกแบบมาเพื่อให้แมชชีนวิชัน 3 มิติให้กับอุปกรณ์อุตสาหกรรม การแพทย์ และอุปกรณ์รักษาความปลอดภัย ในความเป็นจริงแล้ว การใช้งานรวมถึงการสแกน 3 มิติและระบบมาตรวิทยา (แหล่งที่มาภาพ: Texas Instruments)

การปรับปรุงภาพดิจิทัลมักจะเกี่ยวข้องกับการเพิ่มความคมชัด และอาจทำการแก้ไขทางเรขาคณิตสำหรับมุมมองและการบิดเบี้ยวของเลนส์ โดยทั่วไป การบีบอัดจะทำได้โดยการประมาณสัญญาณที่ซับซ้อนเป็นการรวมกันของฟังก์ชันโคไซน์ ซึ่งเป็นการแปลงฟูริเยร์ประเภทหนึ่งที่เรียกว่าการแปลงโคไซน์แบบไม่ต่อเนื่องหรือ DCT รูปแบบไฟล์ JPEG เป็นการใช้งานยอดนิยมของ DCT การคืนสภาพของภาพอาจใช้การแปลงฟูริเยร์เพื่อลบสัญญาณรบกวนและการเบลอ

การรังวัดด้วยภาพถ่าย (Photogrammetry) ใช้การระบุคุณสมบัติบางประเภทเพื่อแยกการวัดจากรูปภาพ การวัดเหล่านี้อาจรวมถึงข้อมูลสามมิติ เมื่อได้รับภาพหลายภาพในฉากเดียวกันจากตำแหน่งที่แตกต่างกัน ระบบการรังวัดด้วยภาพถ่ายที่ง่ายที่สุดจะวัดระยะห่างระหว่างจุดสองจุดในภาพโดยใช้สเกล โดยทั่วไปจำเป็นต้องมีการอ้างอิงขนาดในรูปภาพเพื่อจุดประสงค์นี้

การตรวจจับคุณสมบัติ ให้คอมพิวเตอร์ระบุขอบและมุมหรือจุดต่างๆ ในภาพ นี่เป็นขั้นตอนแรกที่จำเป็นสำหรับการรังวัดด้วยภาพถ่าย รวมถึงการระบุวัตถุและการเคลื่อนไหว การตรวจสอบรอยสามารถระบุบริเวณที่มีขอบเรียบเกินไปสำหรับการตรวจจับขอบหรือมุม

การจดจำรูปแบบ ใช้เพื่อระบุวัตถุเฉพาะ ที่ง่ายที่สุด อาจหมายถึงการมองหาชิ้นส่วนกลไกที่กำหนดมาอย่างดีบนสายพานลำเลียง

การสร้างภาพสามมิติ กำหนดรูปแบบ 3 มิติของวัตถุจากภาพ 2 มิติ สามารถทำได้ด้วยวิธีโฟโตแกรมเมตริก ซึ่งความสูงของลักษณะทั่วไป (ระบุในภาพจากจุดสังเกตต่างๆ) ถูกกำหนดโดยการใช้รูปสามเหลี่ยม การสร้างภาพสามมิติสามารถทำได้โดยใช้ภาพ 2 มิติภาพเดียว ซอฟต์แวร์ตีความความสัมพันธ์ทางเรขาคณิตระหว่างขอบหรือบริเวณเงา

รูปภาพของเครื่องสแกน 3 มิติจับภาพวัตถุ 2 มิติรูปที่ 4:เครื่องสแกน 3 มิติ จับภาพ 2 มิติของวัตถุเพื่อสร้างแบบจำลอง 3 มิติของวัตถุนั้น ในบางกรณี โมเดลดิจิทัลจะถูกนำไปใช้กับสำเนาการพิมพ์ 3 มิติ (แหล่งที่มาภาพ: Shenzhen Creality 3D Technology Co.)

มนุษย์สามารถสร้างภาพลูกบาศก์สามมิติตขึ้นใหม่จากการแสดงภาพลายเส้นแบบง่ายๆ ได้อย่างง่ายดาย รวมถึงทรงกลมจากวงกลมที่มีเงา โดยที่เงาเป็นการบ่งบอกถึงความลาดเอียงของพื้นผิว อย่างไรก็ตาม กระบวนการหักเหดังกล่าวซับซ้อนกว่าที่คิด เนื่องจากเงาเป็นพารามิเตอร์หนึ่งมิติ ในขณะที่ความชันเกิดขึ้นในสองมิติ สิ่งนี้สามารถนำไปสู่ความคลุมเครือ ซึ่งเป็นความจริงที่แสดงให้เห็นโดยภาพที่แสดงถึงวัตถุที่เป็นไปไม่ได้ในความเป็นจริง

ภาพการกำหนดรูปแบบ 3 มิติของชิ้นงานด้วยคอมพิวเตอร์จากภาพ 2 มิติรูปที่ 5: การกำหนดรูปแบบ 3 มิติของชิ้นงานด้วยคอมพิวเตอร์จากภาพ 2 มิตินั้นเต็มไปด้วยความท้าทาย

งานแมชชีนวิชันเรียงลำดับอย่างไร

ระบบแมชชีนวิชันหลายระบบค่อยๆ รวมเทคนิคข้างต้นเข้าด้วยกันโดยเริ่มจากการทำงานระดับต่ำ แล้วจึงค่อยขยับขยายไปสู่การทำงานระดับสูงกว่า ที่ระดับต่ำสุด พิกเซลของรูปภาพทั้งหมดจะถูกเก็บไว้เป็นข้อมูลที่มีแบนด์วิธสูง จากนั้นจะดำเนินการตามลำดับโดยจะระบุคุณลักษณะของรูปภาพและแสดงข้อมูลที่สนใจด้วยข้อมูลจำนวนค่อนข้างน้อย

การดำเนินการระดับต่ำโดยการปรับปรุงและการคืนสภาพภาพต้องมาก่อน ตามด้วยการตรวจจับคุณสมบัติ เมื่อใช้เซ็นเซอร์หลายตัว การทำงานระดับต่ำอาจดำเนินการโดยกระบวนการกระจายเฉพาะสำหรับเซ็นเซอร์แต่ละตัว เมื่อตรวจพบคุณลักษณะต่างๆ ในแต่ละภาพ การวัดโฟโตแกรมเมตริกในระดับที่สูงขึ้นก็สามารถเกิดขึ้นได้ เช่นเดียวกับการระบุวัตถุใดๆ หรืองานอื่นๆ ที่อาศัยข้อมูลที่รวมกันจากภาพและเซ็นเซอร์หลายตัว

การคำนวณโดยตรงและเลิร์นนิ่งอัลกอริทึม

การคำนวณโดยตรง ในบริบทของแมชชีนวิชันคือชุดของฟังก์ชันทางคณิตศาสตร์ที่กำหนดโดยโปรแกรมเมอร์ ซึ่งจะยอมรับอินพุตเช่นค่าพิกเซลของภาพเพื่อให้เอาต์พุตเช่นพิกัดขอบของวัตถุ ในทางตรงกันข้าม เลิร์นนิ่งอัลกอริทึมไม่ได้เขียนโดยมนุษย์โดยตรง แต่ได้รับการฝึกฝนผ่านชุดข้อมูลตัวอย่างที่เชื่อมโยงอินพุตกับเอาต์พุตที่ต้องการ ดังนั้นอัลกอริทึมจึงทำหน้าที่เป็นกล่องดำ แมชชีนเลิร์นนิงส่วนใหญ่ใช้การเรียนรู้เชิงลึกโดยอาศัยเครือข่ายประสาทเทียมเพื่อทำการคำนวณ

รูปภาพของเซ็นเซอร์รับภาพ Banner Engineering iVu series รูปที่ 6: เซนเซอร์ภาพจาก iVu series สามารถระบุชิ้นงานตามประเภท ขนาด ตำแหน่ง การวางแนว และการลงสี คอมโพเนนต์แมชชีนวิชันสามารถยอมรับการกำหนดค่าและการตรวจสอบหน้าจอรวม HMI ระยะไกล หรือพีซีได้ กล้อง ตัวควบคุม เลนส์ และแสงทั้งหมดถูกรวมไว้ล่วงหน้าแล้ว (แหล่งที่มาาพ: Banner Engineering Corp.)

แมชชีนเลิร์นนิงอย่างง่ายสำหรับการใช้งานทางอุตสาหกรรมมักมีความน่าเชื่อถือมากกว่าและใช้การคำนวณน้อยกว่าหากใช้การคำนวณโดยตรง แน่นอนว่ามีข้อจำกัดในสิ่งที่สามารถทำได้ด้วยการคำนวณโดยตรง ตัวอย่างเช่น ไม่อาจคาดหวังว่าจะใช้การจดจำรูปแบบขั้นสูงที่จำเป็นในการระบุตัวบุคคลด้วยใบหน้า โดยเฉพาะอย่างยิ่งไม่ใช่จากฟีดวิดีโอของพื้นที่สาธารณะที่มีผู้คนพลุกพล่าน ในทางตรงกันข้าม แมชชีนเลิร์นนิงจัดการกับการใช้งานดังกล่าวได้อย่างช่ำชอง ไม่แปลกใจเลยว่าทำไมแมชชีนเลิร์นนิงจึงถูกนำมาใช้มากขึ้นสำหรับการดำเนินการแมชชีนวิชันระดับล่าง รวมถึงการปรับปรุงภาพ การคืนสภาพ และการตรวจจับคุณสมบัติ

การปรับปรุงแนวทางการสอน (ไม่ใช่อัลกอริทึม)

การเจริญเติบโตของเทคโนโลยีดีพเลิร์นนิงทำให้เห็นได้ชัดว่าไม่ใช่เลิร์นนิงอัลกอริทึมที่ต้องการการปรับปรุง แต่เป็นวิธีที่เลิร์นนิ่งอัลกอริทึมได้รับการเทรน รูทีนการฝึกอบรมที่ได้รับการปรับปรุงดังกล่าวเรียกว่า คอมพิวเตอร์วิชันที่เน้นข้อมูลเป็นศูนย์กลาง ซึ่งระบบดีพเลิร์นนิงจะยอมรับชุดการเทรนขนาดใหญ่มากซึ่งสร้างจากภาพนับพัน ล้าน หรือแม้แต่พันล้านภาพ จากนั้นจะเก็บข้อมูลผลลัพธ์ที่อัลกอริทึมดึงมาจากแต่ละภาพ อัลกอริทึมจะเรียนรู้อย่างมีประสิทธิภาพโดยการฝึกตัวอย่างการทำงาน จากนั้นจึงอ้างอิง "สมุดคำตอบ" เพื่อตรวจสอบว่าได้มาซึ่งค่าที่ถูกต้องหรือไม่

เรื่องราวเก่าๆ เกี่ยวกับยุคแรกๆ ของการจดจำรูปแบบดิจิทัลเป็นเรื่องราวเตือนใจ กองทัพสหรัฐฯ ตั้งใจที่จะใช้แมชชีนวิชันสำหรับการจดจำเป้าหมาย และการสาธิตของบริษัทคู่สัญญาด้านการป้องกันประเทศสามารถระบุรถถังที่ผลิตในสหรัฐฯ และรัสเซียได้อย่างน่าเชื่อถือ รถถังหลายคันมีความแตกต่างอย่างถูกต้องจากรูปถ่ายทางอากาศของบริษัทคู่สัญญา แต่เมื่อทดสอบอีกครั้งกับคลังรูปภาพของเพนตากอน ระบบกลับให้คำตอบที่ผิด ปัญหาคือภาพของผู้รับเหมากลาโหมเป็นภาพรถถังสหรัฐฯ ในทะเลทราย และรถถังรัสเซียในทุ่งหญ้าเขียวขจี ห่างไกลจากการจดจำรถถังที่แตกต่างกัน ระบบกลับจดจำพื้นหลังที่มีสีต่างกันแทน ได้เรียนรู้ไหม? อัลกอริทึมการเรียนรู้จำเป็นต้องนำเสนอด้วยข้อมูลการฝึกอบรมที่คัดสรรมาอย่างดีเพื่อให้เป็นประโยชน์

สรุป: วิสัยทัศน์ด้านความปลอดภัยของหุ่นยนต์ทำงาน

แมชชีนวิชันไม่ได้เป็นเทคโนโลยีเฉพาะอีกต่อไป มีการใช้งานเพิ่มขึ้นในงานอุตสาหกรรมมากที่สุด การพัฒนาที่น่าทึ่งที่สุดคือวิธีที่ระบบวิชันซิสเต็มช่วยเสริมระบบความปลอดภัยของโรงงานอุตสาหกรรมที่ส่งสัญญาณเตือนหรือประกาศด้วยเสียงเมื่อบุคลากรของโรงงานเข้าสู่พื้นที่ทำงานโดยไม่มีหมวกนิรภัย หน้ากาก หรืออุปกรณ์ป้องกันอื่นๆ ที่ถูกต้อง แมชชีนวิชันยังสามารถทำให้ระบบสมบูรณ์ที่จะประกาศเมื่อเครื่องจักรเคลื่อนที่ เช่น รถยกเข้าใกล้ผู้คนมากเกินไป

ระบบแมชชีนวิชันเหล่านี้และระบบที่คล้ายกันสามารถใช้แทนที่การป้องกันรอบหุ่นยนต์อุตสาหกรรม เพื่อให้การทำงานมีประสิทธิภาพมากขึ้น นอกจากนี้ยังสามารถแทนที่หรือปรับปรุงระบบความปลอดภัยที่ใช้ตัวป้องกันแสงที่จะหยุดเครื่องจักรหากพนักงานโรงงานเข้าไปในห้องทำงาน เมื่อแมชชีนวิชันตรวจสอบพื้นโรงงานรอบๆ ห้องทำงาน หุ่นยนต์ที่อยู่ในส่วนดังกล่าวจะค่อยๆ ช้าลงเมื่อมีคนเข้ามาใกล้

เนื่องจากการออกแบบทางอุตสาหกรรมพัฒนาขึ้นเพื่อรองรับการทำงานรามกันกับหุ่นยนต์และอุปกรณ์ในเขตทำงานอื่นๆ ที่ปลอดภัยสำหรับบุคลากรในโรงงานที่จะเคลื่อนที่ไปมา (แม้ในขณะที่อุปกรณ์นั้นทำงาน) ระบบเหล่านี้และระบบอื่นๆ ที่ใช้แมชชีนวิชันจะกลายเป็นส่วนหนึ่งของกระบวนการในโรงงาน

Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

About this author

Image of Dr. Jody Muelaner

Jody Muelaner

Dr. Jody Muelaner is an engineer who has designed sawmills and medical devices; addressed uncertainty in aerospace manufacturing systems; and created innovative laser instruments. He has published in numerous peer-reviewed journals and government summaries … and has written technical reports for Rolls-Royce, SAE International, and Airbus. He currently leads a project to develop a e-bike detailed at betterbicycles.org. Muelaner also covers developments related to decarbonization technologies.