Файл энтропиясы дегеніміз не?

Файл энтропиясы дегеніміз не?
Файл энтропиясы дегеніміз не?

Бейне: Файл энтропиясы дегеніміз не?

Бейне: Файл энтропиясы дегеніміз не?
Бейне: Зачем смартфону NFC? Что такое NFC и как оно работает? 2024, Сәуір
Anonim

Кез-келген компьютерлік файл байттан тұрады. Байт 0-ден 255-ке дейінгі мәндерді қабылдай алады. Ақпараттық энтропия - бұл файлдағы белгілі бір байттардың пайда болу ықтималдығын көрсететін статистикалық параметр.

Файл энтропиясы дегеніміз не?
Файл энтропиясы дегеніміз не?

Гистограмма көмегімен энтропия дәрежесін көрнекі түрде бағалауға болады - файлдағы бірдей байттардың қайталану ықтималдығының таралуы. Файлдың энтропиясынан біз оның гистограммасын ғана көре отырып, файлдың қандай түрі тұрғанын болжай аламыз.

Көрсету үшін әр түрлі типтегі үш файлды алып, олардың гистограммаларын салыстырайық. Біріншісі мәтіндік файл болсын (*. TXT). Оның гистограммасы суретте көрсетілген:

гистограмма=
гистограмма=

Мәтіндік файлда тек мәтін бар. Мәтіннің әрбір таңбасы кодтау кестесіне сәйкес белгілі бір байттармен кодталады. Кодтау түрлерінің саны көп болғанымен, әріптік-цифрлық таңбалардың шектеулі саны бар екендігі айдан анық, ол әдетте 255-тен аспайды. Сондықтан бірінші гистограммада тек кейбір аймақтар ғана алынады, ал кейбір байттар мүлдем жоқ.

Келесі файл PDF форматында болады:

гистограмма=
гистограмма=

Бұл файлда барлық мүмкін байттар бар, өйткені PDF мәтіндік файлдардан басқаша кодталады. Онда көптеген қызмет ақпараттары сақталады: форматтау, қаріптер, кескіндер және т.б. Бірақ оның гистограммасы көрсеткендей, кейбір байттар шамамен бірдей ықтималдықпен жүреді, ал басқалары басқаларына қарағанда жиі кездеседі. Демек, гистограмма бойынша бірнеше өткір жарылыстар пайда болды, және тұтастай алғанда оның ені түгелдей болса да, «жыртық» болып көрінеді.

Соңғы файл 7Z форматында ықшамдалған:

гистограмма=
гистограмма=

Бұл гистограмманың екі негізгі ерекшелігі бар: біріншіден, барлық байттар ықтималдығы аз немесе көп тең ықтималдығы бар фипирленген файлда кездеседі (жоғарғы тегіс шеті), екіншіден, гистограмманың үстінде бос орын жоқ, бұл толық жоқтығын көрсетеді мұндай файлды қысқарту туралы. Демек, архиватор алгоритмі файл байттарын олардың максималды біркелкі үлестірілуіне қол жеткізу үшін арнайы түрде «араластырады» деген қорытынды жасауға болады.

Сонымен, информатикадағы энтропия, физикадағыдай, жүйенің бұзылуының өлшемі болып табылады, бұл жағдайда файлдағы байттардың таралуының бұзылуы. Энтропия файлдың қысылу дәрежесін және жанама түрде - оның түрі туралы бағалауға мүмкіндік береді.

Ұсынылған: