Data Engineering — 12 Thuật Ngữ Xử Lý Dữ Liệu Developer Cần Biết

Data is the new oil — nhưng dầu thô thì cần lọc. Data Engineering là nghệ thuật thu thập, xử lý và lưu trữ dữ liệu ở quy mô lớn. Dù bạn là backend hay fullstack, hiểu các thuật ngữ data engineering giúp bạn thiết kế hệ thống xử lý dữ liệu tốt hơn. Let’s explore! 🛢️ 🔹 Luồng xử lý dữ liệu English IPA Tiếng Việt Example ETL /ˌiːtiːˈɛl/ Extract-Transform-Load — quy trình trích xuất, biến đổi và nạp dữ liệu The nightly ETL job extracts data from 5 sources, transforms it, and loads into the warehouse. pipeline /ˈpaɪplaɪn/ đường ống dữ liệu — chuỗi các bước xử lý tự động The data pipeline processes 10 million events per hour from Kafka to BigQuery. ingestion /ɪnˈdʒɛstʃən/ nạp dữ liệu — đưa raw data vào hệ thống The ingestion layer collects clickstream data from the website in real time. transformation /ˌtrænsfərˈmeɪʃən/ biến đổi dữ liệu — chuyển đổi format hoặc cấu trúc During transformation, we clean null values and convert timestamps to UTC. 🔹 Lưu trữ dữ liệu English IPA Tiếng Việt Example data lake /ˈdeɪtə leɪk/ hồ dữ liệu — lưu trữ dữ liệu thô ở mọi format Raw JSON logs are stored in the data lake on S3 before being processed. data warehouse /ˈdeɪtə ˈwɛrhaʊs/ kho dữ liệu — lưu trữ dữ liệu đã xử lý, tối ưu cho phân tích The analytics team queries the data warehouse to generate monthly revenue reports. schema /ˈskiːmə/ lược đồ — cấu trúc định nghĩa format dữ liệu Define the schema before ingestion to ensure consistent data types across tables. partitioning /pɑːrˈtɪʃənɪŋ/ phân vùng — chia dữ liệu thành phần nhỏ để query nhanh hơn We use date-based partitioning so queries only scan relevant time ranges. 🔹 Xử lý & Quản trị English IPA Tiếng Việt Example batch processing /bætʃ ˈprɑːsɛsɪŋ/ xử lý theo lô — chạy trên tập dữ liệu lớn theo lịch The batch processing job runs every night at 2 AM to aggregate daily metrics. stream processing /striːm ˈprɑːsɛsɪŋ/ xử lý luồng — xử lý dữ liệu ngay khi nó đến We use Apache Flink for stream processing to detect fraud in real time. catalog /ˈkætəlɔːɡ/ danh mục dữ liệu — nơi quản lý metadata của toàn bộ dataset The data catalog helps analysts discover which tables contain customer information. lineage /ˈlɪniɪdʒ/ dòng dõi dữ liệu — theo dõi nguồn gốc và quá trình biến đổi Data lineage shows that the revenue column originates from the payments table after three transformations. 💡 Mẹo ghi nhớ Data Lake vs Data Warehouse: Lake = hồ nước tự nhiên (data thô, mọi format, rẻ). Warehouse = kho hàng ngăn nắp (data đã clean, có schema, tối ưu cho query). Thường dùng cả hai: lake → transform → warehouse. Batch vs Stream: Batch = giặt đồ theo lịch (gom lại rồi giặt). Stream = nước chảy liên tục (xử lý ngay khi đến). Chọn batch khi không cần real-time, stream khi cần phản ứng nhanh. ETL: Nhớ theo thứ tự: Extract (lấy ra) → Transform (biến đổi) → Load (nạp vào). Đây là flow cơ bản nhất của mọi data pipeline. 📝 Bài tập Điền từ thích hợp vào chỗ trống: ...

16/02/2023 · 4 phút · 726 từ · Cuong TQ

Machine Learning Cơ Bản — 14 Thuật Ngữ AI/ML Developer Nên Biết

AI và Machine Learning đang len lỏi vào mọi sản phẩm — từ recommendation system đến chatbot. Dù bạn không làm ML full-time, việc hiểu các thuật ngữ cơ bản giúp bạn giao tiếp với data team và đọc hiểu tài liệu AI dễ dàng hơn. Let’s dive in! 🤖 🔹 Khái niệm nền tảng English IPA Tiếng Việt Example model /ˈmɑːdl/ mô hình — chương trình đã được huấn luyện để dự đoán We deployed the trained model to production for real-time predictions. training /ˈtreɪnɪŋ/ huấn luyện — quá trình cho model học từ dữ liệu The training phase took 12 hours on a GPU cluster with 1 million samples. inference /ˈɪnfərəns/ suy luận — dùng model đã train để dự đoán kết quả mới After training, the inference time is only 50 milliseconds per request. dataset /ˈdeɪtəˌsɛt/ tập dữ liệu dùng để huấn luyện hoặc đánh giá model We split the dataset into 80% training and 20% testing. 🔹 Đánh giá hiệu suất English IPA Tiếng Việt Example accuracy /ˈækjərəsi/ độ chính xác — tỷ lệ dự đoán đúng trên tổng số The classification accuracy reached 95% on the test set. precision /prɪˈsɪʒən/ độ chính xác dương — tỷ lệ dự đoán positive thực sự đúng High precision means fewer false positives in spam detection. recall /rɪˈkɔːl/ độ phủ — tỷ lệ tìm được các trường hợp positive thực tế We need high recall for fraud detection so we don’t miss any fraudulent transactions. epoch /ˈiːpɑːk/ vòng lặp — một lần duyệt qua toàn bộ dataset khi training The model converged after 50 epochs of training on the full dataset. 🔹 Vấn đề thường gặp English IPA Tiếng Việt Example overfitting /ˈoʊvərˌfɪtɪŋ/ quá khớp — model học thuộc data thay vì học pattern The model shows overfitting — 99% accuracy on training but only 60% on test data. underfitting /ˈʌndərˌfɪtɪŋ/ chưa khớp — model quá đơn giản, không nắm được pattern Underfitting occurs when the model is too simple to capture the underlying trends. feature /ˈfiːtʃər/ đặc trưng — biến đầu vào của model We engineered 20 features from raw user data including age, location, and click history. label /ˈleɪbl/ nhãn — giá trị đầu ra mà model cần dự đoán Each image in the dataset has a label indicating whether it contains a cat or a dog. 🔹 Kiến trúc nâng cao English IPA Tiếng Việt Example neural network /ˈnʊrəl ˈnɛtwɜːrk/ mạng nơ-ron — mô hình mô phỏng cấu trúc não bộ The neural network has three hidden layers with 256 neurons each. deep learning /diːp ˈlɜːrnɪŋ/ học sâu — ML dùng neural network nhiều lớp Deep learning models require large datasets and powerful GPUs to train effectively. 💡 Mẹo ghi nhớ Overfitting vs Underfitting: Overfitting = học thuộc lòng (điểm cao ở nhà, thi rớt). Underfitting = không chịu học (điểm thấp cả hai). Cần balance ở giữa! Precision vs Recall: Precision = “trong số tôi nói positive, bao nhiêu đúng?”. Recall = “trong số thực sự positive, tôi tìm được bao nhiêu?”. Spam filter cần precision cao, phát hiện ung thư cần recall cao. Feature vs Label: Feature = câu hỏi (input), Label = đáp án (output). Training = cho model xem câu hỏi + đáp án để nó tự học cách trả lời. 📝 Bài tập Điền từ thích hợp vào chỗ trống: ...

14/02/2023 · 4 phút · 746 từ · Cuong TQ

Database Fundamentals — 14 Thuật Ngữ Cơ Sở Dữ Liệu Developer Cần Biết

Database là trái tim của hầu hết mọi ứng dụng. Dù bạn dùng PostgreSQL, MySQL hay MongoDB, việc hiểu thuật ngữ database bằng tiếng Anh sẽ giúp bạn đọc docs, viết query, và communicate với team hiệu quả hơn rất nhiều. Cùng học 14 từ vựng quan trọng nhất nhé! 🗄️ 🔹 Cấu trúc dữ liệu English IPA Tiếng Việt Example schema /ˈskiːmə/ lược đồ cơ sở dữ liệu The schema defines all tables, columns, and relationships in our database. table /ˈteɪbəl/ bảng dữ liệu We created a new table called orders to store purchase history. primary key /ˈpraɪməri kiː/ khóa chính — định danh duy nhất Every primary key must be unique and not null. foreign key /ˈfɒrən kiː/ khóa ngoại — liên kết giữa các bảng The user_id foreign key in the orders table references the users table. index /ˈɪndɛks/ chỉ mục — tăng tốc truy vấn Adding an index on the email column improved query speed by 10x. 🔹 Truy vấn & Thao tác English IPA Tiếng Việt Example query /ˈkwɪəri/ truy vấn dữ liệu This query returns all users who signed up in the last 30 days. join /dʒɔɪn/ phép nối bảng We use an inner join to combine order data with customer information. transaction /trænˈzækʃən/ giao dịch — nhóm thao tác đảm bảo toàn vẹn Wrap the transfer in a transaction so both accounts update atomically. ACID /ˈæsɪd/ bộ 4 tính chất của transaction (Atomicity, Consistency, Isolation, Durability) Our database engine guarantees ACID compliance for financial transactions. 🔹 Thiết kế & Tối ưu English IPA Tiếng Việt Example normalization /ˌnɔːrməlaɪˈzeɪʃən/ chuẩn hóa dữ liệu — giảm trùng lặp After normalization, we split the address data into a separate table. migration /maɪˈɡreɪʃən/ di chuyển/thay đổi cấu trúc DB Run the migration to add the phone_number column to the users table. ORM /ˌoʊ.ɑːr.ˈɛm/ Object-Relational Mapping — ánh xạ object sang bảng Using an ORM like Sequelize lets you write queries in JavaScript instead of raw SQL. 🔹 Nâng cao English IPA Tiếng Việt Example stored procedure /stɔːrd prəˈsiːdʒər/ thủ tục lưu sẵn trong DB The stored procedure calculates monthly revenue and stores it in the reports table. trigger /ˈtrɪɡər/ trình kích hoạt — tự chạy khi có sự kiện A database trigger automatically updates the modified_at timestamp on every row change. 💡 Mẹo ghi nhớ Primary Key vs Foreign Key: Primary key = số CMND (unique cho mỗi người). Foreign key = ghi số CMND người khác vào đơn hàng để biết ai đặt. Index nghĩ như mục lục sách — không cần đọc cả cuốn, chỉ cần tra mục lục là tìm được trang cần tìm. Nhưng thêm nhiều index quá thì sách dày thêm (tốn bộ nhớ)! ACID nhớ theo câu: “A Transaction Can’t Be Incomplete Dirty” — Atomicity (toàn bộ hoặc không), Consistency (dữ liệu luôn hợp lệ), Isolation (không xung đột), Durability (lưu rồi là không mất). 📝 Bài tập Điền từ thích hợp vào chỗ trống: ...

05/02/2023 · 4 phút · 675 từ · Cuong TQ

AWS DynamoDB — Thuật Ngữ NoSQL Database Cho Developer

DynamoDB là dịch vụ NoSQL database phổ biến nhất trên AWS — nhanh, scalable và fully managed. Tuy nhiên, thuật ngữ của DynamoDB khác khá nhiều so với SQL truyền thống. Nếu bạn chuyển từ MySQL/PostgreSQL sang DynamoDB, bài này sẽ giúp bạn làm quen nhanh với “ngôn ngữ” mới. 🔹 Cấu trúc dữ liệu cơ bản English IPA Tiếng Việt Example table /ˈteɪbəl/ bảng dữ liệu Create a DynamoDB table to store user profiles. item /ˈaɪtəm/ bản ghi, mục dữ liệu Each item in the table represents a single order. attribute /ˈætrɪbjuːt/ thuộc tính, trường dữ liệu The “email” attribute is required for every user item. 🔹 Keys & Indexes English IPA Tiếng Việt Example partition key /pɑːrˈtɪʃən kiː/ khóa phân vùng Use “userId” as the partition key for even data distribution. sort key /sɔːrt kiː/ khóa sắp xếp Add a timestamp as the sort key to query orders by date. GSI (Global Secondary Index) /dʒiː ɛs aɪ/ chỉ mục phụ toàn cục Create a GSI on the email field to query users by email. LSI (Local Secondary Index) /ɛl ɛs aɪ/ chỉ mục phụ cục bộ An LSI lets you query with a different sort key on the same partition. 🔹 Hiệu năng & cấu hình English IPA Tiếng Việt Example throughput /ˈθruːpʊt/ thông lượng Increase the read throughput to handle peak traffic. on-demand /ɒn dɪˈmɑːnd/ theo nhu cầu Switch to on-demand mode so you don’t have to manage capacity manually. TTL (Time to Live) /tiː tiː ɛl/ thời gian sống của bản ghi Set TTL to automatically delete expired session records. stream /striːm/ luồng sự kiện thay đổi Enable DynamoDB streams to trigger a Lambda function on every update. 🔹 Truy vấn dữ liệu English IPA Tiếng Việt Example query /ˈkwɪəri/ truy vấn (theo key) Use query to fetch all orders for a specific user. scan /skæn/ quét toàn bộ bảng Avoid scan on large tables — it reads every single item. projection /prəˈdʒɛkʃən/ chọn thuộc tính trả về Use a projection expression to return only the name and email fields. conditional expression /kənˈdɪʃənəl ɪkˈsprɛʃən/ biểu thức điều kiện Add a conditional expression to update only if the item version matches. 💡 Mẹo ghi nhớ Partition key = “chìa khóa phân loại” — DynamoDB dùng nó để phân tán dữ liệu vào các partition khác nhau. Query vs Scan: Query giống tìm sách theo mục lục (nhanh), Scan giống đọc hết cả thư viện (chậm, tốn tiền). GSI = “Global” vì nó query được across toàn bộ table, còn LSI = “Local” chỉ trong cùng partition. 📝 Bài tập Điền từ thích hợp vào chỗ trống: ...

26/01/2023 · 3 phút · 622 từ · Cuong TQ

AWS RDS — Thuật Ngữ Cơ Sở Dữ Liệu Đám Mây Cho Developer

RDS (Relational Database Service) giúp bạn chạy MySQL, PostgreSQL, SQL Server… trên cloud mà không cần quản lý server. Đây là service mà hầu hết mọi project đều dùng. Hiểu đúng thuật ngữ RDS sẽ giúp bạn vận hành database ổn định và communicate rõ ràng với team! 🗄️ 🔹 Khái niệm cốt lõi English IPA Tiếng Việt Example instance /ˈɪnstəns/ phiên bản database đang chạy Upgrade the RDS instance to db.r5.large for better performance. endpoint /ˈɛndpɔɪnt/ địa chỉ kết nối đến database Update the application config with the new database endpoint. parameter group /pəˈræmɪtər ɡruːp/ nhóm cấu hình database Modify the parameter group to increase max_connections to 500. 🔹 Sao lưu & Phục hồi English IPA Tiếng Việt Example snapshot /ˈsnæpʃɒt/ bản chụp nhanh toàn bộ database Take a manual snapshot before running the migration script. backup window /ˈbækʌp ˈwɪndoʊ/ khung giờ sao lưu tự động Set the backup window to 3:00-4:00 AM when traffic is lowest. encryption at rest /ɪnˈkrɪpʃən æt rɛst/ mã hóa dữ liệu khi lưu trữ Enable encryption at rest to comply with the security audit requirements. 🔹 Khả dụng cao (High Availability) English IPA Tiếng Việt Example multi-AZ /ˌmʌlti eɪ ˈzɛd/ triển khai đa vùng khả dụng Enable multi-AZ deployment so the database automatically fails over to the standby. failover /ˈfeɪloʊvər/ chuyển đổi dự phòng khi sự cố The failover to the standby instance completed in under 60 seconds. read replica /riːd ˈrɛplɪkə/ bản sao chỉ đọc Create a read replica to offload reporting queries from the primary database. replica /ˈrɛplɪkə/ bản sao database We have three replicas across different regions for disaster recovery. 🔹 Bảo trì & Mở rộng English IPA Tiếng Việt Example maintenance window /ˈmeɪntənəns ˈwɪndoʊ/ khung giờ bảo trì tự động AWS applies minor patches during the scheduled maintenance window. storage autoscaling /ˈstɔːrɪdʒ ˈɔːtoʊˌskeɪlɪŋ/ tự động tăng dung lượng lưu trữ Enable storage autoscaling so the disk grows automatically when it reaches 80% capacity. 💡 Mẹo ghi nhớ Snapshot = “chụp ảnh” database tại một thời điểm. Giống chụp ảnh màn hình — bạn có thể quay lại bất cứ lúc nào. Multi-AZ = đặt 2 database ở 2 phòng server khác nhau. Phòng A cháy thì phòng B tiếp quản ngay (failover). Read replica = “bản photo” chỉ để đọc. Bản gốc (primary) xử lý write, bản photo xử lý read — giảm tải cho bản gốc. 📝 Bài tập Điền từ thích hợp vào chỗ trống: ...

18/01/2023 · 3 phút · 593 từ · Cuong TQ