CHUẨN HÓA DỮ LIỆU LÀ GÌ

  -  

Khái niệm chuẩn hóa dữ liệu

Chuẩn hóa dữ liệu là quá trình rà soát toàn bộ các danh sách trực thuộc tính của những thực thể, vận dụng một tập các quy tắc đối chiếu nhằm chuyển bọn chúng thành dạng sao cho:

Tối tđọc Việc tái diễn, rời dư quá thông báo. Tình trạng một ở trong tính có mặt làm việc các bảng thực thể chỉ xuất hiện so với những ở trong tính định danh kết nối với là cần thiết nhằm miêu tả các mối quan hệ. Loại quăng quật những ngôi trường đúng theo và một thuộc tính lại mang tên khác biệt ở những bảng thực thể không giống ví dụ như như trực thuộc tính “Mã sinh viên” cùng “Số hiệu sinh viên”. Không nhằm xẩy ra tình trạng một ở trong tính chưa được hiểu rõ hoặc gọi theo nhiều nghĩa không giống nhau vào trường hợp có rất nhiều người sử dụng công bố. ví dụ như nhỏng trực thuộc tính “Địa chỉ” sinh hoạt thực thể “Sinch viên” rất có thể đọc là thúc đẩy tạm bợ trú hiện giờ của sinch viên hay hệ trọng của mái ấm gia đình (sinh hoạt quê).

Quá trình chuẩn chỉnh hóa buộc fan ta đề nghị để mắt tới cực kỳ cẩn thận về chân thành và ý nghĩa của từng ở trong tính, từ này sẽ chế tạo quy mô quan hệ nam nữ khi sẽ nắm rõ tất cả các ở trong tính liên quan.

Bạn đang xem: Chuẩn hóa dữ liệu là gì

Quá trình chuẩn hóa được thực hiện dựa vào có mang “dựa vào hàm” với mô hình được chuẩn chỉnh hóa không hề thiếu, lý tưởng là quy mô mà lại ở đấy, từng trực thuộc tính trong những bảng thực thể đều phải sở hữu một phụ thuộc vào hàm thẳng vào tổng thể những thuộc tính khóa của bảng.

Khái niệm phụ thuộc hàm

Khái niệm nhờ vào hàm giữa nhì thuộc tính A và B được phát biểu nlỗi sau: “Thuộc tính B dựa vào hàm vào thuộc tính A, viết là A → B đối với từng quý giá của A tương xứng với cùng một cực hiếm tốt nhất của B”. Nói phương pháp khác là trường tồn một ánh xạ từ tập phù hợp những quý hiếm của A cho tập vừa lòng các quý giá của B.

Trong một thực thể, mỗi ở trong tính phần đông nhờ vào hàm vào khóa – một ở trong tính duy nhất hoặc nhì tốt nhiều hơn nữa những ở trong tính khác (chế tác thành bộ khóa).

Ví dụ: Xét thực thể “Hóa đơn” cùng với những trực thuộc tính Số hóa đối kháng, Tên quý khách hàng, Tên sản phẩm & hàng hóa, Tiền mua sắm.

Ta thấy có những sự phụ thuộc vào hàm sau đây: →

với →

Đối với các thực thể, lúc nào cũng đề nghị xác minh được tối thiểu một nằm trong tính là nằm trong tính khóa. Ứng cùng với từng quý giá của khóa, chúng ta xác định được một cỗ cực hiếm duy nhất của những ở trong tính còn sót lại.

Ví dụ: Trong bảng thực thể “Khách hàng” (#Mã KH, Tên KH, Địa chỉ KH), khách hàng hoàn toàn có thể biến đổi can dự của bản thân, tuy thế vào đa số thời gian, với cùng 1 giá trị của khóa vẫn cho là Mã KH, ta có thể nói rằng bao gồm một cỗ quý giá “Tên KH” cùng “Địa chỉ KH” duy nhất với luôn luôn luôn khẳng định được.

Nếu một trực thuộc tính không dựa vào hàm vào khóa thì nó cần thuộc một bảng thực thể khác. ví dụ như như thật thể “Sinc viên” quan yếu cất nằm trong tính “Điểm thi” vày ở trong tính này sẽ không phụ thuộc vào hàm vào khóa là “Mã SV” (một quý giá “Mã SV” ứng với tương đối nhiều điểm thi của các môn không giống nhau, lần thi khác nhau).

Các dạng chuẩn cùng quá trình chuẩn hóa

Ta coi danh sách những nằm trong tính của một bảng thực thể là “Chưa được chuẩn chỉnh hóa” nếu như nó đang chưa được xét vào quá trình chuẩn chỉnh hóa. Quá trình “Chuẩn hóa” bao hàm vấn đề áp dụng cha phép tắc chất vấn liên tiếp nhau.

Nếu danh sách những thuộc tính của thực thể vẫn qua quy tắc kiểm tra thứ nhất thì nó được Gọi là bao gồm “Dạng chuẩn 1” (1NF), giả dụ qua nguyên tắc kiểm soát thứ nhị thì nó được hotline là tất cả “Dạng chuẩn chỉnh 2” (2NF), nếu qua phép tắc bình chọn lắp thêm tía thì nó được điện thoại tư vấn là tất cả “Dạng chuẩn chỉnh 3” (3NF) với được coi như nhỏng đã có chuẩn chỉnh hóa đầy đủ.

Lưu ý là trước khi triển khai Việc chuẩn hóa, bọn họ phải thanh tra rà soát và nhiều loại ngoài danh sách các ở trong tính sản phẩm công nghệ sinch (vì chưng quý hiếm của các ở trong tính này hoàn toàn có thể tính toán hoặc tư duy tự giá trị của các trực thuộc tính khác) và những nằm trong tính không đặc biệt quan trọng (không buộc phải quản ngại lý).

Dạng chuẩn 1 (1NF- The First Normal Form) – Quy tắc khám nghiệm sản phẩm nhất: Một thực thể hay như là một quan hệ giới tính được Call là có dạng chuẩn chỉnh 1 giả dụ nó ko cất các thuộc tính lặp. Hay nói cách khác là tất cả quý hiếm các thuộc tính của chính nó là sơ cấp.

Nếu vào list ở trong tính của thực thể có chứa các trực thuộc tính lặp thì phải tách chúng ra thành danh sách nhỏ, gán mang đến nó một tên, tra cứu đến nó một ở trong tính định danh, kết phù hợp với ở trong tính định danh của list gốc chế tạo thành một cỗ khóa.

Dạng chuẩn chỉnh 2 (2NF- The Second Normal Form) – Quy tắc bình chọn thiết bị hai: Một thực thể hay 1 quan hệ nam nữ 1NF được coi là dạng chuẩn chỉnh 2NF ví như toàn bộ các thuộc tính không hẳn là khóa các phụ thuộc vào hàm vào cục bộ khóa bao gồm (chđọng không hẳn chỉ nên một trong những phần của khóa).

Nếu có một số trong những ở trong tính chỉ phụ thuộc vào vào một phần của khóa, ta yêu cầu bóc chúng thành danh sách mới, lấy thành phần của khóa đó có tác dụng thuộc tính định danh cho danh sách bắt đầu, gán cho nó một cái thương hiệu cân xứng với văn bản nhưng mà nó đề đạt.

Dạng chuẩn 3 (3NF- The Thirst Normal Form) – Quy tắc đánh giá sản phẩm công nghệ ba: Một thực thể vẫn là 2NF được xem như là bao gồm dạng chuẩn 3NF ví như toàn bộ những nhờ vào hàm giữa khóa thiết yếu cùng các nằm trong tính không giống của nó số đông là thẳng (có nghĩa là không tồn tại sự phụ thuộc bắc cầu giữa những trực thuộc tính).

Trong một thực thể không được cho phép bao gồm sự phụ thuộc vào bắc cầu thân những ở trong tính. Giả sử bao gồm trực thuộc tính A phụ thuộc vào vào ở trong tính B, thuộc tính B nhờ vào vào thuộc tính C thì chúng ta nên tách chúng ra làm 2 thực thể: thực thể đầu tiên đựng quan hệ giới tính A và B, thực thể sản phẩm nhì cất quan hệ giới tính B với C.

lấy một ví dụ 1. Sau đây là một thực thể chưa tồn tại dạng chuẩn:

Bảng. Thực thể “Nhân viên – Khóa học”

Mã NV Họ cùng thương hiệu NV Phòng CT Mức

lương

Khóa học nđính hạn Ngày

Hướng dẫn có tác dụng bài:

– Phân tích mối quan hệ dựa vào hàm giữa những nằm trong tính:

Trong bảng trên, những thuộc tính không hẳn là khóa nlỗi “Họ cùng thương hiệu NV”, “Phòng CT” với “Mức lương” chỉ dựa vào hàm vào “Mã NV”, trong lúc kia “Ngày trả thành” lại dựa vào hàm vào bộ trực thuộc tính “Mã NV” với “Khóa học ngắn hạn”.

Biểu diễn mối quan hệ phụ thuộc vào hàm nlỗi sau:

*
Các phụ thuộc vào hàm vào bảng thực thể “Nhân viên – Khóa học”

Từ đó ta xác định cỗ khóa thiết yếu của thực thể bao gồm hai ở trong tính là “Mã NV” và “Kchất hóa học ngắn hạn”.

– Thực hiện nay quy trình chuẩn hóa theo 3 bước:

Cách 1. Thực thể này sẽ không chức những thuộc tính lặp cần vẫn gồm dạng chuẩn 1.

Tuy nhiên, bảng thực thể có khá nhiều dữ liệu bị trùng lặp thân các mẫu. Trong ví dụ trên, dữ liệu trong các cột “Mã NV”, “Họ cùng thương hiệu NV”, “Phòng CT” cùng “Mức lương” bị lặp lại lúc 1 nhân viên cấp dưới học tập nhiều hơn thế một khóa đào tạo (nlỗi Nguyễn Văn uống An, Phạm Ngọc Hoa).

Xem thêm: Đại Học Bách Khoa Là Ngành Gì ? Cơ Hội Việc Làm Của Sinh… Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh

Cách 2. Do các ở trong tính không phải là khóa như “Họ cùng tên NV”, “Phòng CT” với “Mức lương” chỉ phụ thuộc vào hàm vào một phần của cục khóa chính là “Mã NV” đề xuất thực thể chưa có dạng chuẩn 2.

Để chuẩn hóa thực thể “Nhân viên – Khóa học” dạng chuẩn 1 thành dạng chuẩn chỉnh 2, chúng ta tiến hành 3 bước sau:

– Thiết lập thực thể chỉ chứa những nằm trong tính ko khóa phụ thuộc vào hàm tương đối đầy đủ vào bộ khóa (xuất xắc Điện thoại tư vấn là khóa chính). Trong bảng “Nhân viên – Khóa học” chỉ có trực thuộc tính “Ngày hoàn thành” dựa vào hàm đầy đủ vào khóa thiết yếu “Mã NV” với “Khóa học nlắp hạn”, điều này ta tất cả bảng quan hệ tình dục R1(Mã NV, Kchất hóa học ngắn hạn, Ngày hoàn thành) là 1 trong những bảng làm việc dạng chuẩn

– Thiết lập (các) thực thể chỉ cất các ở trong tính ko khóa phụ thuộc hàm vào cụ thể từng phần của khóa. Trong bảng “Nhân viên – Khóa học” có những nằm trong tính không khóa “Họ với tên NV”, “Phòng CT” với “Mức lương” chỉ phụ thuộc hàm vào “Mã NV”, điều này ta thiết lập được bảng quan hệ giới tính R2(#Mã NV, Họ với thương hiệu NV, Phòng CT, Mức lương) là bảng thuộc dạng chuẩn chỉnh 2.

– Mối quan hệ thân bảng R1 và bảng R2 sẽ được thể hiện bởi “Mã NV”.

Sau 3 bước bên trên ta gồm thực thể nlỗi hình vẽ dưới đây. Các bảng R1 và R2 phần nhiều sinh sống dạng chuẩn 2. Chúng cũng có thể có dạng chuẩn 3NF bởi tất cả các dựa vào hàm giữa khóa bao gồm cùng các ở trong tính không giống của chính nó phần đa là trực tiếp.

*
Thực thể “Nhân viên” (R2) cùng thực thể “Nhân viên – Khóa học” (R1) sinh sống dạng chuẩn 3

lấy một ví dụ 2. Công ty Văn uống chống phẩm Hồng Hà gồm hệ thống đại lý phân phối nghỉ ngơi các quận bên trên địa bàn Thành phố Hà Thành. Mỗi quận bao gồm một cửa hàng đại lý, từng đại lý tất cả độc nhất vô nhị một người phú trách rưới bán sản phẩm và ngược trở lại mọi cá nhân bán hàng chỉ phụ trách nát độc nhất một đại lý. Mỗi quý khách kinh doanh nhỏ mang mặt hàng tại 1 đại lý.

Nếu họ thi công thực thể “Khách hàng – Người phú trách” nlỗi bảng dưới thì sẽ sở hữu được sự nhờ vào bắc cầu giữa những ở trong tính:

Mã KH → Họ thương hiệu KH, Họ thương hiệu bạn bán sản phẩm, Đại lý (nhờ vào hàm vào khóa) Đại lý → Họ tên fan bán sản phẩm (dựa vào hàm từ bỏ quy tắc)

do vậy thực thể tất cả cất dựa vào hàm bắc cầu: Mã KH → Đại lý → Họ thương hiệu fan bán sản phẩm.

Bảng: Thực thể “Khách sản phẩm – Người phú trách”

#Mã KH Họ tên KH Họ thương hiệu người cung cấp hàng Đại lý
231 Trần Đình Chiến Lê Ngọc Hà Đống Đa
179 Nguyễn Mai Hoa Lê Ngọc Hà Đống Đa
167 Lê Kyên ổn Nhung Nguyễn Văn Nam Cầu Giấy
106 Vũ Thúy Hòa Nguyễn Văn Nam Cầu Giấy
370 Phan Thu Thủy Hoàng Văn uống Hải Hai Bà Trưng

*

Vì thực thể “Khách hàng – Người phụ trách” bao gồm chứa phụ thuộc hàm bắc cầu cần sẽ sở hữu một số yếu điểm nhỏng sau:

Nếu một fan bán sản phẩm bắt đầu được giao nhiệm vụ phú trách rưới cửa hàng đại lý mới, khối hệ thống bắt buộc nhập dữ liệu cho đến Khi người đó tìm được một quý khách hàng như thế nào đó (do khóa “Mã KH” rất cần được có mức giá trị ko rỗng). Giả sử đại lý “Hai Bà Trưng” chỉ có một quý khách 370, trường hợp xóa người tiêu dùng 370 thoát ra khỏi bảng, bọn họ có khả năng sẽ bị mất ban bố về tín đồ phụ trách bán hàng “Hoàng Văn uống Hải” sẽ prúc trách nát đại lý “Hai Bà Trưng”. Nếu fan prúc trách bán sản phẩm “Lê Ngọc Hà” gửi thanh lịch phụ trách khoanh vùng khác, nhiều cái đã nên cập nhật lại…

Để xóa bỏ phụ thuộc hàm bắc cầu, chúng ta phân tách bảng thành 2 bảng nhỏ tuổi khớp ứng với nhì thực thể “Khách mặt hàng – Đại lý” với “Đại lý – Người phú trách” (bảng 3.12.a, b). Hai thực thể new không có những trực thuộc tính bắc cầu buộc phải số đông sinh hoạt dạng chuẩn 3.

Ví dụ 3. Để thi công các tệp tài liệu thống trị những hóa đối kháng bán hàng (hình dưới), bọn họ triển khai các bước như sau:

Cách 2: Liệt kê tất cả những trực thuộc tính tương quan mang lại hóa đối kháng bán sản phẩm, xác định những thuộc tính lặp (R) cùng thuộc tính thiết bị sinc (S). Đặt thương hiệu mang lại thực thể lúc đầu là “Hóa đơn (1)” cùng với những nằm trong tính sau:

Số hóa đối chọi, Liên số, Mã KH, Họ với tên KH, Địa chỉ KH, Số tài khoản, Mã số thuế, Pmùi hương thức tkhô hanh toán, Stt (R), Tên sản phẩm & hàng hóa (R), Đơn vị tính (R), Đơn giá chỉ (R), Số lượng (R), Thành tiền (R) & (S), Tổng cộng (S), Hóa đơn đỏ VAT (S), Tổng tiền thanh toán (S), Viết bằng chữ (S), Ngày bán, Người buôn bán, Người cài đặt.

Vì “Số hóa đơn” đầy đủ nhằm riêng biệt hóa 1-1 này cùng với hóa đối chọi không giống bắt buộc khóa thiết yếu của thực thể này là “Số hóa đơn”.

*
lấy ví dụ như về hóa 1-1 bán hàng

Cách 3: Loại bỏ các nằm trong tính sản phẩm sinch cùng các ở trong tính không nhiều có chân thành và ý nghĩa vào thống trị (Liên số, Stt), thực thể “Hoá đối kháng (1)” còn sót lại những thuộc tính sau:

#Số hóa đối kháng, Mã KH, Họ cùng thương hiệu KH, Địa chỉ KH, Số tài khoản, Mã số thuế, Phương thơm thức thanh hao toán thù, Tên sản phẩm & hàng hóa (R), Đơn vị tính (R), Đơn giá (R), Số lượng (R), Ngày buôn bán, Người phân phối, Người download.

Bước 4:

a. Thực hiện nay chuẩn chỉnh hóa mức 1 (1NF). Theo tận hưởng của chuẩn chỉnh hóa nút 1, thực thể “Hoá 1-1 (1)” đựng các trực thuộc tính lặp là “Tên sản phẩm & hàng hóa (R), Đơn vị tính (R), Đơn giá bán (R), Số lượng (R)” nên buộc phải tách bọn chúng ra thành danh sách nhỏ, gán mang lại nó một tên là “Hàng download (1)” cùng với ở trong tính định danh mới là “Mã mặt hàng hoá”, kết phù hợp với thuộc tính định danh của danh sách cội “Số hoá đơn” tạo nên thành một bộ khóa.

Sau Khi chuẩn chỉnh hóa nút 1, ta được 2 thực thể:

Hóa đơn (2) Hàng cài (1)
#Số hóa solo, Mã KH, Họ cùng thương hiệu KH, Địa chỉ KH, Số tài khoản, Mã số thuế, Phương thức tkhô hanh toán, Ngày bán, Người buôn bán, Người cài. Số hóa đơn, Mã sản phẩm & hàng hóa, Tên hàng hóa, Đơn vị tính, Đơn giá, Số lượng

b. Thực hiện tại chuẩn hóa mức 2 (2NF). Theo đòi hỏi của chuẩn hóa mức 2, trong những thực thể, những trực thuộc tính chưa hẳn là khóa buộc phải dựa vào toàn bộ vào khóa. Nếu có nằm trong tính chỉ phụ thuộc vào 1 phần của khóa, ta bắt buộc bóc chúng thành list mới, đem thành phần của khóa đó có tác dụng trực thuộc tính định danh cho list new, gán mang lại nó một cái thương hiệu phù hợp cùng với văn bản nhưng nó phản ánh.

Thực thể “Hoá 1-1 (2)” sẽ tất cả dạng chuẩn chỉnh 2 vì chưng các ở trong tính những phụ thuộc vào “Số hoá đơn”.

Trong thực thể “Hàng cài đặt (1)”, ta thấy nằm trong tính “Số lượng” dựa vào tổng thể vào khóa “Số hóa đơn” cùng “Mã sản phẩm hóa”, còn các nằm trong tính “Tên sản phẩm hóa”, “Đơn vị tính”, “Đơn giá” chỉ phụ thuộc vào “Mã mặt hàng hóa”. Chúng ta tách bóc thực thể “Hàng mua (1)” thành nhì thực thể “Hàng mua” và “Hàng hoá” bao gồm dạng chuẩn chỉnh 2:

Hàng mua Hàng hoá
Số hóa đơn, Mã sản phẩm & hàng hóa, Số lượng #Mã hàng hóa, Tên sản phẩm & hàng hóa, Đơn vị tính, Đơn giá

c. Thực hiện nay chuẩn hóa nút 3 (3NF). Theo đề xuất của chuẩn hóa mức 3, trong các danh sách không được mãi sau sự nhờ vào bắc cầu thân những ở trong tính.

Hai thực thể “Hàng mua” cùng “Hàng hoá” có dạng chuẩn chỉnh 3.

Trong thực thể “Hóa đối kháng (2)” sống thọ sự nhờ vào bắc cầu thân các thuộc tính: từ bỏ “Mã KH” hoàn toàn có thể suy ra “Họ và tên KH”, “Địa chỉ KH”, “Số tài khoản”, “Mã số thuế”. Do kia, ta bắt buộc bóc tách tự thực thể “Hoá 1-1 (2)” một thực thể new là “Khách hàng” với được 2 thực thể: “Hoá đơn” với “Khách hàng”. Trong thực thể “Hoá đơn”, ở trong tính “Mã KH” là thuộc tính dục tình.

Hóa đơn Khách hàng
#Số hóa solo, Mã KH, Phương thơm thức tkhô hanh toán thù, Ngày buôn bán, Người bán, Người sở hữu. #Mã KH, Họ với thương hiệu KH, Địa chỉ KH, Số tài khoản, Mã số thuế.

Tóm lại, sau khi triển khai chuẩn chỉnh hoá nút 3, họ chiếm được 4 thực thể tất cả dạng chuẩn hoàn toàn sau đây:

Bảng 13. Các thực thể đã được chuẩn chỉnh hóa

Hóa đơn Khách hàng Hàng mua Hàng hóa
Số hóa đơn #Mã KH Số hóa đơn #Mã hàng hóa
Mã KH Họ với tên KH Mã sản phẩm hóa Tên mặt hàng hóa
Ph.thức tkhô giòn toán Địa chỉ KH Số lượng Đơn vị tính
Ngày chào bán

Người bán

Số tài khoản

Mã số thuế

Đơn giá
Người mua

Trộn các bảng thực thể

Sau lúc triển khai chuẩn hóa, một trong những thực thể rất có thể bị thừa vị thuộc diễn đạt cho một đối tượng người dùng giống như nhau. Trộn những bảng thực thể (tuyệt có cách gọi khác là bảng quan liêu hệ) là gộp các các loại dữ liệu cùng bình thường chức năng diễn đạt cho một đối tượng làm sao đó vào trong một bảng, để truy vấn dữ liệu nấc thiết bị lý được nhanh khô hơn do hệ thống không nhất thiết phải ghnghiền bọn chúng lại cùng nhau.

Xem thêm: Bởi Vì Chẳng Ai Biết Tình Người, Già Cùng Nhau Là Được

Ví dụ ta bao gồm 2 bảng thực thể sau:

GIANGVIEN1(#MaGV, Hovaten, Namsinc, Quequan tiền, Diachithuongtru)

GIANGVIEN2(#MaGV, TrinhdoCM, TrinhdoNN, Hocđê mê, Hocvi)

“Hovaten, Namsinch, Quequan liêu, Diachithuongtru” với “TrinhdoCM, TrinhdoNN, Hocđê mê, Hocvi” những là các thuộc tính trình bày mang lại thực thể “GIANGVIEN”, tuy thế lại được tàng trữ ở 2 bảng khác biệt. Chúng ta rất có thể gộp 2 bảng này lại thành 1 bảng GIANGVIEN:

GIANGVIEN(#MaGV, Hovaten, Namsinh, Quequan, Diachithuongtru, TrinhdoCM, TrinhdoNN, Hocmê mẩn, Hocvi)

Tuy nhiên, bài toán trộn các bảng thực thể cần phải bảo toàn ý nghĩa của tài liệu, sẽ là tách những trường hòa hợp thiếu sót bởi vì đồng nghĩa, không nên sót vày đồng âm không giống nghĩa cùng nên sa thải phụ thuộc vào bắc cầu ví như bao gồm xuất hiện.