ஆஸ்கி மற்றும் யூனிகோட் உரைக்கு என்ன வித்தியாசம்?

ASCII மற்றும் யூனிகோட் இரண்டும் உரையின் டிஜிட்டல் பிரதிநிதித்துவத்தைக் குறிக்கும் தரநிலைகள், குறிப்பாக உரையை உருவாக்கும் எழுத்துக்கள். இருப்பினும், இரண்டு தரங்களும் கணிசமாக வேறுபடுகின்றன, பல பண்புகள் அவற்றின் உருவாக்கத்தின் வரிசையை பிரதிபலிக்கின்றன.

யுனிவர்ஸுக்கு எதிராக அமெரிக்கா

அமெரிக்கன் ஸ்டாண்டர்ட் கோட் ஃபார் இன்ஃபர்மேஷன் இன்டர்சேஞ்ச் (ASCII), ஆச்சரியப்படத்தக்க வகையில், ஒரு ஆங்கில பார்வையாளர்களை, ஆங்கில எழுத்துக்களில் எழுதுகிறது. இது A-Z மற்றும் a-z போன்ற உச்சரிக்கப்படாத எழுத்துக்கள் மற்றும் சிறிய எண்ணிக்கையிலான நிறுத்தற்குறிகள் மற்றும் கட்டுப்பாட்டு எழுத்துக்களைக் கையாள்கிறது.

குறிப்பாக, மற்ற மொழிகளிலிருந்து ஏற்றுக்கொள்ளப்பட்ட கடன் சொற்களைப் பிரதிநிதித்துவப்படுத்த வழி இல்லை கொட்டைவடி நீர் ASCII இல், உச்சரிக்கப்பட்ட எழுத்துக்களை மாற்றுவதன் மூலம் அவற்றை ஆங்கிலப்படுத்தாமல் (எ.கா. கஃபே ) பல்வேறு மொழிகளின் தேவைகளைப் பூர்த்தி செய்ய உள்ளூர்மயமாக்கப்பட்ட ASCII நீட்டிப்புகள் உருவாக்கப்பட்டன, ஆனால் இந்த முயற்சிகள் ஒன்றிணைந்து செயல்படுவதில் சிரமத்தை ஏற்படுத்தியது மற்றும் ASCII இன் திறன்களை தெளிவாக விரிவுபடுத்தியது.

இதற்கு நேர்மாறாக, யுனிவர்சல் கோடட் கேரக்டர் செட் (யூனிகோட்) இலட்சிய அளவின் எதிர் முனையில் உள்ளது. யூனிகோட் உலகின் பல எழுத்து அமைப்புகளை முடிந்தவரை பூர்த்தி செய்ய முயற்சிக்கிறது, இது பண்டைய மொழிகளையும் அனைவருக்கும் பிடித்தமான வெளிப்பாட்டு சின்னங்களான ஈமோஜிகளையும் உள்ளடக்கும் அளவிற்கு.

எழுத்து அமைப்பு அல்லது எழுத்து குறியீட்டு?

எளிமையாகச் சொன்னால், ஒரு எழுத்துத் தொகுப்பு என்பது எழுத்துக்களின் தேர்வு (எ.கா., A-Z) அதே வேளையில் ஒரு எழுத்துக்குறி குறியாக்கம் என்பது ஒரு எழுத்துத் தொகுப்பு மற்றும் டிஜிட்டல் முறையில் பிரதிநிதித்துவம் செய்யக்கூடிய ஒரு மதிப்புக்கு இடையிலான மேப்பிங் ஆகும் (எ.கா., A = 1, B = 2).

ASCII தரநிலை இரண்டுமே திறம்பட உள்ளது: இது பிரதிநிதித்துவப்படுத்தும் எழுத்துக்களின் தொகுப்பையும் ஒவ்வொரு எழுத்தையும் ஒரு எண் மதிப்பிற்கு மேப்பிங் செய்யும் முறையையும் வரையறுக்கிறது.

மாறாக, யூனிகோட் என்ற வார்த்தை பல்வேறு சூழல்களில் வெவ்வேறு விஷயங்களைக் குறிக்கப் பயன்படுத்தப்படுகிறது. ASCII போன்ற ஒரு எழுத்துத் தொகுப்பு மற்றும் பல குறியாக்கங்களைக் குறிப்பிடுவதற்கு இது அனைத்தையும் உள்ளடக்கிய சொல் என்று நீங்கள் நினைக்கலாம். ஆனால், பல குறியாக்கங்கள் இருப்பதால், யூனிகோட் என்ற சொல் பெரும்பாலும் அவை எவ்வாறு வரைபடமாக்கப்படுகின்றன என்பதை விட ஒட்டுமொத்த எழுத்துக்களைக் குறிக்கப் பயன்படுத்தப்படுகிறது.

அளவு

அதன் நோக்கம் காரணமாக, யூனிகோட் ஆஸ்கியை விட அதிக எழுத்துக்களைக் குறிக்கிறது. ஸ்டாண்டர்ட் ASCII ஆனது 128 வேறுபட்ட குறியாக்கத்திற்கு 7-பிட் வரம்பைப் பயன்படுத்துகிறது பாத்திரங்கள் . மறுபுறம், யூனிகோட் மிகப் பெரியது, அதைப் பற்றி பேசுவதற்கு நாம் வெவ்வேறு சொற்களைப் பயன்படுத்த வேண்டும்!

யூனிகோட் 1,111,998 முகவரிக்கு உதவுகிறது குறியீடு புள்ளிகள். ஒரு குறியீட்டுப் புள்ளி ஒரு பாத்திரத்திற்கு ஒதுக்கப்பட்ட இடத்திற்கு தோராயமாக ஒத்திருக்கிறது, ஆனால் நீங்கள் விவரங்களை ஆராயத் தொடங்கும் போது அதை விட நிலைமை மிகவும் சிக்கலானது!

தற்போது எவ்வளவு ஸ்கிரிப்ட்கள் (அல்லது எழுத்து அமைப்புகள்) ஆதரிக்கப்படுகின்றன என்பது மிகவும் பயனுள்ள ஒப்பீடு. நிச்சயமாக, ASCII ஆங்கில எழுத்துக்களை மட்டுமே கையாளுகிறது, முக்கியமாக லத்தீன் அல்லது ரோமன் எழுத்து. 2020 இல் தயாரிக்கப்பட்ட யூனிகோடின் பதிப்பு இன்னும் நிறைய செல்கிறது: இது மொத்தம் 154 ஸ்கிரிப்டுகளுக்கான ஆதரவை உள்ளடக்கியது.

சேமிப்பு

ASCII இன் 7-பிட் வரம்பு என்பது ஒவ்வொரு எழுத்தும் ஒரு 8-பிட் பைட்டில் சேமிக்கப்படுகிறது; உதிரி பிட் நிலையான ASCII இல் பயன்படுத்தப்படவில்லை. இது அளவு கணக்கீடுகளை அற்பமாக்குகிறது: உரையின் நீளம், எழுத்துக்களில், பைட்டுகளின் அளவு பைட்டுகளில் உள்ளது.

பாஷ் கட்டளைகளின் பின்வரும் வரிசை மூலம் இதை நீங்கள் உறுதிப்படுத்தலாம். முதலில், நாங்கள் 12 எழுத்துக்களைக் கொண்ட ஒரு கோப்பை உருவாக்குகிறோம்:

உங்கள் சொந்த மின்கிராஃப்ட் மோட் செய்வது எப்படி

$ echo -n 'Hello, world' > foo

உரை ASCII குறியாக்கத்தில் இருக்கிறதா என்று சோதிக்க, நாம் பயன்படுத்தலாம் கோப்பு கட்டளை:

$ file foo  
foo: ASCII text, with no line terminators

இறுதியாக, கோப்பு ஆக்கிரமிக்கும் பைட்டுகளின் சரியான எண்ணிக்கையைப் பெற, நாங்கள் பயன்படுத்துகிறோம் நிலை கட்டளை:

$ stat -f%z foo  
12

யூனிகோட் தரமானது மிக அதிக அளவிலான எழுத்துக்களைக் கையாள்கிறது என்பதால், யூனிகோட் கோப்பு இயற்கையாகவே அதிக சேமிப்பு இடத்தை எடுத்துக்கொள்கிறது. குறியீட்டைப் பொறுத்து எவ்வளவு சரியாக இருக்கிறது.

ASCII இல் குறிப்பிடப்படாத ஒரு எழுத்தைப் பயன்படுத்தி, முந்தைய கட்டளைகளின் தொகுப்பை மீண்டும் மீண்டும் செய்வது பின்வருவனவற்றை வழங்குகிறது:

$ echo -n '€' > foo  
$ file foo  
foo: UTF-8 Unicode text, with no line terminators  
$ stat -f%z foo  
3

அந்த ஒற்றை எழுத்து யூனிகோட் கோப்பில் 3 பைட்டுகளை ஆக்கிரமித்துள்ளது. ASCII கோப்பில் தேர்ந்தெடுக்கப்பட்ட எழுத்தை (€) சேமிக்க முடியாது என்பதால் பாஷ் தானாகவே UTF-8 கோப்பை உருவாக்கியது என்பதை நினைவில் கொள்க. யுடிஎஃப் -8 என்பது யூனிகோடிற்கான மிகவும் பொதுவான எழுத்து குறியாக்கமாகும். UTF-16 மற்றும் UTF-32 இரண்டு மாற்று குறியாக்கங்கள், ஆனால் அவை மிகக் குறைவாகவே பயன்படுத்தப்படுகின்றன.

யுடிஎஃப் -8 என்பது மாறி-அகல குறியாக்கம் ஆகும், அதாவது வெவ்வேறு குறியீட்டு புள்ளிகளுக்கு வெவ்வேறு அளவு சேமிப்பகத்தைப் பயன்படுத்துகிறது. ஒவ்வொரு குறியீட்டு புள்ளியும் ஒன்று மற்றும் நான்கு பைட்டுகளுக்கு இடையில் ஆக்கிரமிக்கும், மேலும் பொதுவான எழுத்துக்களுக்கு குறைந்த இடைவெளி தேவை என்ற நோக்கத்துடன், ஒரு வகை உள்ளமைக்கப்பட்ட சுருக்கத்தை வழங்குகிறது. தீமை என்னவென்றால், கொடுக்கப்பட்ட உரையின் நீளம் அல்லது அளவு தேவைகளைத் தீர்மானிப்பது மிகவும் சிக்கலானதாகிறது.

ஆஸ்கி யூனிகோட், ஆனால் யூனிகோட் ஆஸ்கி அல்ல

பின்தங்கிய இணக்கத்தன்மைக்கு, முதல் 128 யூனிகோட் குறியீடு புள்ளிகள் சமமான ASCII எழுத்துக்களைக் குறிக்கின்றன. UTF-8 இந்த எழுத்துக்கள் ஒவ்வொன்றையும் ஒற்றை பைட்டுடன் குறியாக்கம் செய்வதால், எந்த ASCII உரையும் UTF-8 உரை. யூனிகோட் என்பது ASCII இன் சூப்பர்செட் ஆகும்.

இருப்பினும், மேலே காட்டப்பட்டுள்ளபடி, பல யூனிகோட் கோப்புகளை ASCII சூழலில் பயன்படுத்த முடியாது. எல்லைக்கு அப்பாற்பட்ட எந்த கதாபாத்திரமும் எதிர்பாராத விதத்தில் காட்டப்படும், பெரும்பாலும் மாற்று கதாபாத்திரங்கள் அந்த நோக்கத்திலிருந்து முற்றிலும் மாறுபட்டதாக இருக்கும்.

நவீன பயன்பாடு

பெரும்பாலான நோக்கங்களுக்காக, ASCII பெரும்பாலும் மரபு தரமாக கருதப்படுகிறது. லத்தீன் ஸ்கிரிப்டை மட்டுமே ஆதரிக்கும் சூழ்நிலைகளில் கூட-யூனிகோடின் சிக்கல்களுக்கு முழு ஆதரவு தேவையற்றது, எடுத்துக்காட்டாக-பொதுவாக யுடிஎஃப் -8 ஐப் பயன்படுத்துவது மற்றும் அதன் ஆஸ்கி இணக்கத்தைப் பயன்படுத்திக் கொள்வது மிகவும் வசதியானது.

கொழுப்பு 32 க்கு தொகுதி மிகப் பெரியது

குறிப்பாக, HTML5 க்கான இயல்புநிலை UTF-8 ஐப் பயன்படுத்தி வலைப்பக்கங்கள் சேமிக்கப்பட்டு அனுப்பப்பட வேண்டும். இது முந்தைய வலைக்கு முரணானது, இது லத்தீன் 1 ஆல் முறியடிக்கப்படுவதற்கு முன்பு இயல்பாக ASCII இல் கையாளப்பட்டது.

மாறிக்கொண்டிருக்கும் ஒரு தரநிலை

ASCII இன் கடைசி திருத்தம் 1986 இல் நடந்தது.

மாறாக, யூனிகோட் ஆண்டுதோறும் புதுப்பிக்கப்பட்டு வருகிறது. புதிய ஸ்கிரிப்டுகள், எழுத்துக்கள் மற்றும், குறிப்பாக, புதிய ஈமோஜிகள் தொடர்ந்து சேர்க்கப்படுகின்றன. இவற்றில் ஒரு சிறிய பகுதியை மட்டுமே ஒதுக்கியுள்ளதால், முழு எழுத்து அமைப்பும் எதிர்காலத்தில் வளர மற்றும் வளர வாய்ப்புள்ளது.

தொடர்புடையது: 100 மிகவும் பிரபலமான ஈமோஜிகள் விளக்கப்பட்டுள்ளன

ஆஸ்கி வெர்சஸ் யூனிகோட்

ஆஸ்கிஐ பல தசாப்தங்களாக அதன் நோக்கத்தை நிறைவேற்றியது, ஆனால் யூனிகோட் இப்போது அதை பாரம்பரிய முறைமைகள் தவிர அனைத்து நடைமுறை நோக்கங்களுக்காகவும் திறம்பட மாற்றியுள்ளது. யூனிகோட் பெரியது, எனவே, மிகவும் வெளிப்படையானது. இது ஒரு உலகளாவிய, கூட்டு முயற்சியைக் குறிக்கிறது மற்றும் சில சிக்கல்களின் இழப்பில் இருந்தாலும், அதிக நெகிழ்வுத்தன்மையை வழங்குகிறது.

பகிர் பகிர் ட்வீட் மின்னஞ்சல் ஆஸ்கி உரை என்றால் என்ன, அது எவ்வாறு பயன்படுத்தப்படுகிறது?

ASCII உரை ரகசியமாகத் தோன்றுகிறது, ஆனால் இது இணையத்தில் பல பயன்பாடுகளைக் கொண்டுள்ளது.

அடுத்து படிக்கவும் தொடர்புடைய தலைப்புகள்

தொழில்நுட்பம் விளக்கப்பட்டது
ஈமோஜிகள்
ஜார்கான்
வலை கலாச்சாரம்
யூனிகோட்

எழுத்தாளர் பற்றி பாபி ஜாக்(58 கட்டுரைகள் வெளியிடப்பட்டன)

பாபி ஒரு தொழில்நுட்ப ஆர்வலர் ஆவார், அவர் இரண்டு தசாப்தங்களாக மென்பொருள் உருவாக்குநராக பணியாற்றினார். அவர் கேமிங் மீது ஆர்வம் கொண்டவர், ஸ்விட்ச் பிளேயர் இதழில் விமர்சனம் ஆசிரியராகப் பணியாற்றுகிறார், மேலும் ஆன்லைன் வெளியீடு மற்றும் வலை மேம்பாட்டின் அனைத்து அம்சங்களிலும் மூழ்கி இருக்கிறார்.

பாபி ஜாக் இருந்து மேலும்

எங்கள் செய்திமடலுக்கு குழுசேரவும்

தொழில்நுட்ப குறிப்புகள், மதிப்புரைகள், இலவச மின் புத்தகங்கள் மற்றும் பிரத்யேக ஒப்பந்தங்களுக்கு எங்கள் செய்திமடலில் சேரவும்!

குழுசேர இங்கே சொடுக்கவும்