Công cụ chuyển đổi homoglyph và ký tự dễ nhầm

Chuyển đổi homoglyph — phát hiện và làm sạch Unicode

Chuyển đổi là nỗ lực tốt nhất: các sự nhầm lẫn được ánh xạ và việc gấp NFKC là mang tính quyết định, nhưng một số Unicode hợp pháp sẽ không được gắn cờ.

Văn bản của bạn

Dán hoặc nhập - kết quả cập nhật khi bạn nhập (được gỡ lỗi nhẹ khi nhập dài).

đã quét 0 ký tự
0 đáng ngờ
Bảo toàn Unicode có thể đọc được
Chế độ chuyển đổi
Bản gốc (đã đánh dấu các ký tự đáng ngờ)

Các ký tự đáng ngờ trong chế độ xem ban đầu được gạch chân và gắn nhãn “nghi ngờ”. Ngoài màu sắc nổi bật.

Đầu ra được làm sạch
Phân tích nhân vật

Chưa có nhân vật nào để phân tích. Dán văn bản ở trên để xem phân tích từ đồng âm và dễ nhầm lẫn.

Phát hiện ký tự Unicode dễ gây nhầm lẫn và chuyển sang ASCII an toàn hơn hoặc Unicode chuẩn hóa. Miễn phí trên trình duyệt.

Công cụ chuyển đổi đồng âm này làm gì

Bộ chuyển đổi đồng âm phát hiện các ký tự Unicode có thể trông giống như các chữ cái hoặc chữ số Latinh thông thường (có thể nhầm lẫn) và hiển thị cách chúng được chuẩn hóa hoặc thay thế. Bạn cũng có thể chạy Tạo các ký tự đồng âm để xây dựng các chuỗi giống như giả mạo xác định từ ASCII đơn giản để thử nghiệm. Trình chuyển đổi dễ nhầm lẫn và trình kiểm tra dễ nhầm lẫn miễn phí này chạy hoàn toàn trong trình duyệt của bạn—hãy sử dụng nó như một công cụ chuẩn hóa unicode, trình dọn dẹp văn bản giả mạo hoặc trình chuyển đổi ký tự trông giống nhau để bảo mật và kiểm duyệt.

Cách sử dụng công cụ chuẩn hóa unicode này

  1. Dán hoặc nhập văn bản bạn muốn kiểm tra vào khu vực nhập liệu.
  2. Chọn Bảo toàn Unicode có thể đọc được, Dự phòng ASCII nghiêm ngặt hoặc Tạo các ký tự đồng âm tùy thuộc vào việc bạn đang làm sạch văn bản đã dán hay xây dựng các mẫu thử nghiệm từ ASCII.
  3. So sánh bản gốc (có điểm nổi bật) và bản đầu ra cạnh nhau; xem lại bảng phân tích để biết các điểm mã và lý do.
  4. Sử dụng Sao chép văn bản đầu ra để sao chép kết quả hoặc Xóa để đặt lại.

Chế độ chuyển đổi: Unicode có thể đọc được so với unicode sang ASCII so với tạo

  • Bảo tồn Unicode có thể đọc được trước tiên áp dụng bản đồ có thể nhầm lẫn được đóng gói, sau đó chuẩn hóa NFKC khi nó thay đổi một ký tự. Đầu ra có thể vẫn chứa các chữ cái không phải ASCII chưa được gắn cờ.
  • Dự phòng ASCII nghiêm ngặt sử dụng các quy tắc phát hiện tương tự nhưng ưu tiên thay thế ASCII từ bản đồ. Các ký tự không có trong bản đồ vẫn giữ nguyên trừ khi NFKC thay đổi chúng; chế độ này chặt chẽ hơn và tốt hơn cho quy trình làm sạch văn bản giả mạo.
  • Tạo các từ đồng âm sẽ chuyển dữ liệu đầu vào của bạn từ trái sang phải và thay thế từng chữ cái hoặc chữ số ASCII bằng một ký tự đồng âm xác định duy nhất từ cùng một bản đồ được nhóm (nghịch đảo của việc dọn dẹp). Các ký tự không có ký tự thay thế được chọn vẫn giữ nguyên ASCII.

Điều gì được coi là đáng ngờ ở đây

Trong chế độ dọn dẹp, một ký tự được gắn cờ khi nó có thể gây nhầm lẫn đã biết với một thay thế được xác định hoặc khi quá trình chuẩn hóa NFKC thay đổi nó (ví dụ: các chữ số có độ rộng đầy đủ). Trong chế độ tạo, "nghi ngờ" đánh dấu từng vị trí nơi một chữ cái hoặc chữ số ASCII được thay thế. Đây không phải là cuộc kiểm tra bảo mật unicode đầy đủ—chỉ là các quy tắc xác định.

Các trường hợp sử dụng phổ biến

  • Kiểm tra tên người dùng, tên miền giả mạo hoặc các cuộc tấn công đồng âm trong các chuỗi được dán.
  • Đánh giá kiểm duyệt và tin cậy và an toàn về các thủ thuật giống nhân vật.
  • Nhà phát triển gỡ lỗi các vấn đề mã hóa cùng với chế độ xem trình phát hiện homoglyph.

Hạn chế và lưu ý an toàn

Bản đồ đi kèm bao gồm các dạng tương tự phổ biến như Cyrillic, Hy Lạp và toàn chiều rộng—không phải mọi Unicode đều dễ nhầm lẫn. Chế độ tạo chỉ dành cho thử nghiệm được ủy quyền; không sử dụng nó để đánh lừa mọi người hoặc bỏ qua các biện pháp bảo vệ. Kết quả mang tính quyết định, không phải điểm rủi ro dựa trên ML. Luôn kết hợp với đánh giá của con người để đưa ra các quyết định có tính chất quan trọng.

Quyền riêng tư

Tất cả hoạt động phát hiện và chuyển đổi đều chạy cục bộ bằng JavaScript sau khi tải trang. Không có văn bản nào được gửi đến máy chủ để xử lý.

Câu hỏi thường gặp

Hình đồng âm là gì?

Từ đồng âm là một ký tự trông giống một ký tự khác từ một tập lệnh hoặc mã hóa khác, chẳng hạn như chữ “а” Cyrillic giống chữ “a” trong tiếng Latin. Những kẻ tấn công sử dụng chúng trong các tên miền, tên người dùng và tin nhắn giả mạo. Công cụ này hiển thị các ký tự đó bằng các điểm mã và thay thế.

Điều này khác với chuẩn hóa Unicode như thế nào?

Chuẩn hóa Unicode (ví dụ NFKC) gấp các biến thể tương thích và chiều rộng theo cách tiêu chuẩn. Công cụ này kết hợp NFKC với một bản đồ nhỏ dễ nhầm lẫn rõ ràng để bạn biết lý do tại sao mỗi ký tự được gắn cờ—hữu ích ngoài việc vượt qua công cụ chuẩn hóa unicode đơn giản.

Chế độ ASCII nghiêm ngặt có thay đổi văn bản không phải tiếng Anh hợp pháp không?

Dự phòng ASCII nghiêm ngặt thay thế các ký tự xuất hiện trong bản đồ dễ nhầm lẫn hoặc thay đổi trong NFKC. Các chữ cái không phải ASCII khác được giữ nguyên. Văn bản hợp lệ vẫn có thể thay đổi nếu nó chứa các ký tự được ánh xạ đó, vì vậy hãy xem lại danh sách phân tích.

Văn bản của tôi có được gửi tới máy chủ không?

Không. Sau khi tải trang, việc phát hiện và chuyển đổi chỉ sử dụng JavaScript. Trình chuyển đổi dễ nhầm lẫn này không tải lên bản dán của bạn để phân tích.

Điều này có thể bắt được mọi hành vi giả mạo?

Không. Phạm vi đưa tin mang tính xác định và dựa trên bản đồ, không phải học máy. Nó giúp thực hiện các thủ thuật ký tự giống nhau phổ biến nhưng không phải là kiểm tra bảo mật đầy đủ.

Chế độ Tạo hình đồng âm làm gì?

Nó thay thế các chữ cái và chữ số ASCII trong thông tin đầu vào của bạn bằng các dạng giống xác định từ cùng một bản đồ đi kèm được sử dụng để dọn dẹp—hữu ích để xây dựng chuỗi kiểm tra trong môi trường được ủy quyền (ví dụ: QA kiểm duyệt). Nó không phải để mạo danh hoặc bỏ qua các biện pháp bảo vệ.