![]() 31.10.2006 10:08:48 | |
---|---|
Noh aivan samalla tavallahan se signaali esitetään myös audiopuolella. Ja aivan samaa tavaraa tuossa esittämäsi linkin keskinkertaisessa esityksessä oli. Ja myös aiheen oppikirjoissa ks. esim http://www.cis.hut.fi/Opinnot/T-61.3010/Luennot/Mitra-Ch4_3ed.pdf Tässä aika hyvä esitys siitä mitä bittimäärän lisäys audiopuolella vastaa kuvapuolella. "Changing audio bit depth is the same as adding pixels to the border of the image. Doubling the bit depth would be the same as making the picture 1200x1200 pixels, with the same old gradient still occupying 600x600 pixels in the middle. Making the surrounding area bigger will not not make the gradient itself smoother. It'll only enlarge the black area around it." | |
![]() 31.10.2006 10:28:04 | |
Tässä aika hyvä esitys siitä mitä bittimäärän lisäys audiopuolella vastaa kuvapuolella. "Changing audio bit depth is the same as adding pixels to the border of the image. Doubling the bit depth would be the same as making the picture 1200x1200 pixels, with the same old gradient still occupying 600x600 pixels in the middle. Making the surrounding area bigger will not not make the gradient itself smoother. It'll only enlarge the black area around it." Tavallaan ymmärrettävä, mutta varsin harhaanjohtava vertaus. Kuvapuolella meillä on myös bittisyvyys ja videosignaali vastaa tavallaan vain yhtä ulottuvuuttaa suurempaa signaalia kuin ääni. Ja vastaavalla tavalla voidaan kuvassa myös ottaa sensorista tuleva gaussinen kohina huomioon ja bittisyvyyden merkitys tämän kohinan aiheuttamaan häiriöön kuvassa. Ei tuo signaalinkäsittely mitään salatiedettä ole, ymmärrän että maallikon on helppo mennä sekaisin tuon yksinkertaisen aikaesityksen kanssa, kun yleensä kaikki "oikea" tehdään taajuusesityksessä (tässä tapauksessa oikastaan wavelettien avulla). Jokatapauksessa täysin yhtenevät asiat. | |
![]() 31.10.2006 10:42:33 | |
"Also, comparing sampling in digital audio to digitised pictures and monitor screens is not a good way to look at it. They are really too dissimilar. Let me just demonstrate with youre first post... On a screen, if you go to a larger monitor and increase the number of pixels, you're keeping the dpi the same. BUT, the way you actually look at a computer screen, what matters for 'smoothing' (so you can't see the pixels), is the angle subtended at your eye going from one pixel to the next. In other words, what are the 'dots per degree' as you look at the screen? You can get more dots per degree by, moving away from the screen. But then the image gets smaller, so you make the screen bigger, but keep the dpi the same. However, this has nothing to do with audio, and has no analogies with it. Also, comparing image pixel smoothing with audio smoothing and detail, is way off base. If you think of pixels as being spatial 'samples' of the 'ideal' text font you're trying to read, then the sample 'rate' is far below the 'Nyquist' rate(spacing of samples in relation to the character feature detail size/scale). Fortunately on computer screens, they don't actually sample an ideal font, but generate a font out of colouring pixels so it kind of looks OK. To see what they would really look like if actually sampled a real font at that rate, think of scanning regular text at 100dpi, or printing at 100dpi. Yuk! The thing with audio is that is IS sampled at or above the Nyquist rate for the signals it is sampling (normally at least - otherwise you get that horrible metallic sound of aliasing), so it is already perfectly smoothed. And this has NOTHING to do with bit depth. Bit depth affects the noise level (at the risk of making an image comparison - how much 'fuzz' or 'snow' there is in the picture - more comparable to colour/grey level depth - this is equating image spatial dimensions to time in audio, and colour/grey level to voltage - but even this is not a direct comparison)." | |
![]() 31.10.2006 13:33:46 | |
Se on kyllä aivan totta, että vertaillessaan kuvasignaalia äänisignaaliin tulee tietää mitä tekee. Toisaalta taas signaalit on signaaleja ja niiden alkuperä on toissijaista; sana signaaliteoria se siellä taustalla pyörii. Edelleen jäin kyllä odottomaan niitä mainitsemasia virheitä... | |
![]() 31.10.2006 14:19:45 | |
Palatakseni alkuperäiseen aiheeseen, käyttääkö täällä kukaan 48k suurempia näytteenottotaajuuksia? Jos, niin muuhunkin kuin ns. akustisiin äänityksiin? -=Botnee!!=- | |
![]() 31.10.2006 15:07:41 | |
Edelleen jäin kyllä odottomaan niitä mainitsemasia virheitä... No ainakin se oli perustavaa laatua oleva virhe kun väitit, että lisäämällä bittejä resoluutio paranee koska uusia tasoja tulee edellisten väliin kun taas oikeasti audion tapauksessa uudet tasot tulevat edellisten tasojen perään, jos tälläistä mielikuvaa yleensä voi käyttää tässä yhteydessä. | |
![]() 31.10.2006 15:14:57 (muokattu 31.10.2006 15:15:23) | |
Kyllähän 16-bittinen signaali pystyy ilmaisemaan jopa ihan täyttä hiljaisuutta. Mutta samantien ymmärsin mitä tarkoitit. Eli, että 24-bittisen muunnoksen kohina on niin paljon 16-bittisen LSB:n alapuolella, että se pyöristetään nollaksi (vaikka millä järkevällä ditheröinnilläkin) kö?. Tuntuisi ainakin järkevältä. Tuolla skaalauksella tarkoitin sitä, että kun kummalakin muuntimella on sama toiminta-alue, esim. 0-10 V, tämä sitten jaetaan resoluution mukaisesti pätkiin eli 16 bittisellä muuntimella 2^16 osaan. Eli 16 bittisen signaalin jokaiseen "rakoon" mahtuu 256 24-bittisen signaalin "rakoa". Ja nythän jos ajatellaan, että siinä muunnoksessa menee kohinaan se usein oletettu 2-3 bittiä, niin se vastaa 24-bittisellä signaalilla alta 20 desibelin kohinaa. Ja kuitenkin nyt siis tuo kolme bittiä tarkoittaa kahdeksaa "rakoa", kun dihteröinnilläkin meillä luvun tulisi olla jossakin 100:n tuntumassa vastaten 7-bittiä ja yli 40 desibelin kohinaa. Niin huonoja muuntimia tekee tuskin kukaan. MOT eli olit oikeassa. Ja tämähän sopii hyvin tuohon linkkini esimerkkiin, eli voisi ajatella, että jos nauhoitat 24-bitillä signaalia jonka huiput on -20 desibelissä, pitäisi normalisoinnin ja 16-bittiseksi muuntamisenkin jälkeen kohinan jäädä kuulumattomiin. Kun taas 16-bittisellä 20 desibelin nosto laskee tietysti sen teoreettisenkin kohinaetäisyyden hyvälle kasettitasolle. Oletteko ikinä miettineet miten hullulta tällaiset keskustelut näyttävät/kuulostavat ulospäin? "0-10v...16-bittisellä...2^16-osaan...16, 256 signaalin rakoa...muuntimet...ditheröinnillä...MOT...40 desibelin kohinaa...teoreettinen kohinaetäisyys..." Ai ne puhuu musiikista, joojoo! :D Jos pelkästään runsas hidas harjoittelu riittäisi kehittämään nopean tekniikan, B. B. King pystyisi soittamaan jo 32-osia tempossa 300. | |
![]() 31.10.2006 15:23:46 | |
Kumpi on mielenkiintoisempi: Tämä topic vai tuo Cubasen foorumilla oleva? :-D www.supremecourtband.fi | |
![]() 01.11.2006 09:03:18 (muokattu 01.11.2006 09:13:24) | |
No ainakin se oli perustavaa laatua oleva virhe kun väitit, että lisäämällä bittejä resoluutio paranee koska uusia tasoja tulee edellisten väliin kun taas oikeasti audion tapauksessa uudet tasot tulevat edellisten tasojen perään, jos tälläistä mielikuvaa yleensä voi käyttää tässä yhteydessä. Itseasiassa se ei mene näin ja tällaista mielikuvaa voi helposti käyttää. Äänelle on toki erilaisia koodauksia, esim ADPCM:ssä tätä "raon" kokoa vaihdellaan taajuuden mukaan, mutta sekin on siis kiinni koodauksesta ei bittien syvyydestä. Katso vaikka nyt ensimmäisenä edes wikipedian asiaa käsittelevät sivut. Löytypä netistä tuo sama asia selittettynä lontoonkin kielellä. http://www.24bitfaq.org/#Q0_1_1 "What if the recording never peaks beyond 6dB of its maximum possible limit? In this case, the recording would only take advantage of 3 of what we call the least significant (or left-most) bits, meaning 18dB of dynamic range. 16-bit recordings are capable of a theoretical maximum limit of 96dB of dynamic range. This means that a single wave could have up to 65536 discrete values that can be used to represent it. But if the same wave recorded at 16-bit peaks at 48dB below its maximum possible limit, then there would only be 256 discrete values that can be used to represent it, taking advantage of only 8 of the least significant bits. The 8 most significant bits would contain no information whatsoever, and would remain unused. In the case of 24-bit recording, you’d have a maximum of 16,777,216 values to choose from, and in the case of a wave peaking at 48dB below its maximum possible limit, the wave would still have 65536 possible discrete amplitude values that could be used to represent it." | |
![]() 01.11.2006 10:00:05 (muokattu 01.11.2006 10:15:17) | |
Itseasiassa se ei mene näin ja tällaista mielikuvaa voi helposti käyttää. Äänelle on toki erilaisia koodauksia, esim ADPCM:ssä tätä "raon" kokoa vaihdellaan taajuuden mukaan, mutta sekin on siis kiinni koodauksesta ei bittien syvyydestä. Katso vaikka nyt ensimmäisenä edes wikipedian asiaa käsittelevät sivut. Löytypä netistä tuo sama asia selittettynä lontoonkin kielellä. http://www.24bitfaq.org/#Q0_1_1 "What if the recording never peaks beyond 6dB of its maximum possible limit? In this case, the recording would only take advantage of 3 of what we call the least significant (or left-most) bits, meaning 18dB of dynamic range. 16-bit recordings are capable of a theoretical maximum limit of 96dB of dynamic range. This means that a single wave could have up to 65536 discrete values that can be used to represent it. But if the same wave recorded at 16-bit peaks at 48dB below its maximum possible limit, then there would only be 256 discrete values that can be used to represent it, taking advantage of only 8 of the least significant bits. The 8 most significant bits would contain no information whatsoever, and would remain unused. In the case of 24-bit recording, you’d have a maximum of 16,777,216 values to choose from, and in the case of a wave peaking at 48dB below its maximum possible limit, the wave would still have 65536 possible discrete amplitude values that could be used to represent it." Asia ei ole aivan noin yksinkertainen koska yksittäinen sample ei millään muotoa kuvaa kokonaista ääniaaltoa vaan ääniaallon kuvaamiseen tarvitaan jopa tuhansia peräkkäistä sampleja. 16bitillä pystytään koodaamaan minkä tahansa voimakkuuden ja taajuussisällon (sampleraten asettamissa puitteissa) omaava ääniaalto 0 ja -96dB:n väliltä ei pelkästään 65536 eri voimakkuuksista ääniaaltoa kuten tuosta ylläolevasta voisi kuvitella. Kuvankäsittelyssä taas 16 bittisten värisävyjen määrä on tuo 65536 ja lisäämällä bittien määrää väriäsävyjen määräkin kasvaa, mutta lisäämällä bittien määrää audiossa ei sillä ole mitään merkitystä tuolla 0 - -96dB dynamiikka-alueella, joka taas riittää vallan mainiosti kotioloissa normaalin taustamelun ja kipukynnyksen välisen dynamiikka-alueen kattamiseen. Lisäystä: Jos otetaan esim. yksi aallonpituus (lyhyempi pätkä ei kai riitä taajuuden määrittämiseen?) 441 hz siniaaltoa. Sen kuvaamiseen 44100Hz sample ratella ei riitä yksi sample vaan siihen tarvitaan 100 samplea eli yhteensä 1600 bittiä ja jos yhdenkin noista biteistä arvoa muutetaan ykkösestä nollaan tai nollasta ykköseenn ei kyseessä ole enää sama ääni eli 1/65536 muutoksen sijasta 1/4446000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000000 000000000000000000000000 (=4,46*10^481) muutos riittää tekemään tuosta äänestä jotain muuta kuin 441hz siniaallon. | |
![]() 01.11.2006 10:30:05 (muokattu 01.11.2006 10:33:43) | |
Asia ei ole aivan noin yksinkertainen koska yksittäinen sample ei millään muotoa kuvaa kokonaista ääniaaltoa vaan ääniaallon kuvaamiseen tarvitaan jopa tuhansia peräkkäistä sampleja. 16bitillä pystytään koodaamaan minkä tahansa voimakkuuden ja taajuussisällon (sampleraten asettamissa puitteissa) omaava ääniaalto 0 ja -96dB:n väliltä ei pelkästään 65536 eri voimakkuuksista ääniaaltoa kuten tuosta ylläolevasta voisi kuvitella. Kuvankäsittelyssä taas 16 bittisten värisävyjen määrä on tuo 65536 ja lisäämällä bittien määrää väriäsävyjen määräkin kasvaa, mutta lisäämällä bittien määrää audiossa ei sillä ole mitään merkitystä tuolla 0 - -96dB dynamiikka-alueella, joka taas riittää vallan mainiosti kotioloissa normaalin taustamelun ja kipukynnyksen välisen dynamiikka-alueen kattamiseen. Jos nyt ymmärsin oikein, mitä hait takaa, olet jo kuvannut äänen taajuusavaruuteen FFT:llä (dft:llä). Tämän muunnoksen pohjalla on nyt kuitenkin se aikadomaini, josta homma lähtee liikkeelle ja jossa asia on esitetty juuri tuolla yksinkertaisella tavalla. Eli sinulla on aluksi se sample, jolla on tietty bittisyvyys, mutta toisaalta voi kytkteä tämän samplen ajatuksen Nyquist-Shannonin teoreeman mukaisesti da-puoleen, missä teoriassa voit nuillla sinc sarjoilla esittää alkuperäisen jatkuvan signaalin mielevaltaisen tarkasti. Mutta tässä siis ollaan todellakin jo muualla, kuin siellä koneen sisällä tapahtuvassa digitaalisessa signaalin prosessoinnissa (toki täälläkin ääntä voidaan käsitellä/käsitellään taajuusavaruudessa filttereiden esittämiseksi lineaarisina konvoluution avulla). Esimerkkinä VST-plugari, joka saa hostilta vektorin (tai oikeastaan vektoria), jossa jokainen alkio kuvaa sen hetken amplitudin arvoa välillä 0-1 esitettynä bittisyvydeen määräämällä resoluutiolla (itseasiassa tässähän se resoluutio on datatyypin rajoittama, ei itse signaalin bittisyvyyden, johon tieto palautetaan siellä hostissa (muistaakseni)). | |
![]() 01.11.2006 11:12:35 | |
Mutta eikös tuo että kuvankäsittelyssä ei käsittääkseni ole tuota aikaulottuvuutta mukana kuvioissa ole aika perustavanlaatuinen ero? Kuvankäsittelyssä yksittäisen pikselin väriarvon kuvaanmiseen käytettävä bittimäärä määrittää yksinään kuvapisteen värin ja bittien lisääminen lisää käytettävien värisävyjen määrää aluperin kuvaamallasi tavalla eli entisten sävyjen väliin tulee lisää välivärisävyjä kun taas audiossa ei yksi sample määrää koko signaalin ominaisuuksia juuri mitenkään vaan signaalin ominaisuuksien määrittämiseen tarvitaan useiden peräkkäisten samplejen arvoja, jolloin yksittäisen samplen pituudeksi riittä vähempikin bittimäärä. Jossain näin sellaisen maininnan että parempi analogia bittimäärän merkitykselle kuvan- ja audionkäsittelyssä on verrata audio bittimäärää kuvan kohinatasoon. Eli 16 bittinen äänisample tarkoittaisi kuvassa suurempaa kohinatasoa kuin 24 bittinen ja kuvassakin ainakin käsittääkseni ihmissilmä ei erota tietyn kohinatason alapuolista kohinaa, eli jos 16 bittisellä saavutetaan jo niin pieni kohinataso ettei ihmissilmä (tai ihmiskorva audiopuolella) sitä havaitse niin silloin bittien lisääminen ei enää tuota mitään lisäarvoa. | |
![]() 01.11.2006 11:27:44 | |
Mutta eikös tuo että kuvankäsittelyssä ei käsittääkseni ole tuota aikaulottuvuutta mukana kuvioissa ole aika perustavanlaatuinen ero? ... On toki ja hyvä järjetön vertaus on 1-pikselin kenno josta saadaan videokuvaa :). Mutta periaatteellisella tasolla tuo signaalin käsittely on samaa tavaraa. Ymmärrän kyllä mitä tarkoitat, mutta vielä palatakseni ihan tuohon kohinaan, sen saa myös suoraan laskettua bittisyvyyden määräämästä LSB:stä eli pienimmästä nollasta eroavasta arvosta. Kun sitten oletetaan, että täysi amplitudi vastaa 0 desibeliä voidaan laskea maksimiarvon ja lsb:n välinen erotus ja tästä juuri tulevat nuo taulukoista löytyvät kohinaetäisyyden eri bittisille audiosignaaleille. Yksinkertaisuksena jälleen, oletetaan, että se audiosignaali on yksittäinen piikki, joka sämpläytyy sitten arvoksi x(t) ajanhetkellä t (itseasiassa ei kovin kaukaa haettu, sillä analogiselle signaalille suoritetaan ns. sample and hold operaatio ennen ad:ta). Tämän yksittäisen piikin voimakkuus on nyt sitten vaikka välillä 10 ja 0 (tämä on vain normituskysymys ja täysin samantekevä). Signaalin arvo voi digitaalisella puolella olla myös nolla, mutta dynaamisella alueella tarkoitetaan heikoimman esitettävän voimakkuuden ja vahvimman esitettävän voimakkuuden eroa logaritmisella asteikolla. Tämä saadaan taas olettamalla maksimi amplitudi (nyt siis 10) 0 tasoksi ja lasketaan pienimmän nollasta eroavan arvon etäisyys nollatasoon logartimisella asteikolla eli sen bittimäärän määräämä LSB eli 2^-bittimäärä. | |
![]() 01.11.2006 11:43:47 | |
On toki ja hyvä järjetön vertaus on 1-pikselin kenno josta saadaan videokuvaa :). Mutta periaatteellisella tasolla tuo signaalin käsittely on samaa tavaraa. Periaatteessa kyllä, enkä epäile ettetkö olisi asioista paremmin perillä kuin minä, mutta alunperin tartuin tuohon asiaan vain siitä syystä, ettei vaan kukaan asiaa tuntematon saisi sellaista kuvaa, että 16 bittiä ei käytännössä riittäisi audiosignaalin tallentamiseen sellaisella tarkuudella kuin mitä varsinkin kotioloissa tarvitaan ja että 24 bittiä toisi jotain oleellista ja selkeästi korvin kuultavaa lisäarvoa samalla tavalla kuin jos kuvassa käytettäisiin 65k värisävyjen sijasta 16,7M värisävyjä. | |
![]() 01.11.2006 15:32:41 | |
Periaatteessa kyllä, enkä epäile ettetkö olisi asioista paremmin perillä kuin minä, mutta alunperin tartuin tuohon asiaan vain siitä syystä, ettei vaan kukaan asiaa tuntematon saisi sellaista kuvaa, että 16 bittiä ei käytännössä riittäisi audiosignaalin tallentamiseen sellaisella tarkuudella kuin mitä varsinkin kotioloissa tarvitaan ja että 24 bittiä toisi jotain oleellista ja selkeästi korvin kuultavaa lisäarvoa samalla tavalla kuin jos kuvassa käytettäisiin 65k värisävyjen sijasta 16,7M värisävyjä. Aivan totta. Tämä on tärkeää huomata ja tosiaan muistaa se tosiseikka, että se 24-bittisyys kannattaa tässä tilanteessa oikeastaan vain silloin, jostakin syystä äänitetään lähdettä liian hiljaisella tai siten, että lähteen taso heittelee älyttömästi. | |
![]() 01.11.2006 16:04:18 | |
Aivan totta. Tämä on tärkeää huomata ja tosiaan muistaa se tosiseikka, että se 24-bittisyys kannattaa tässä tilanteessa oikeastaan vain silloin, jostakin syystä äänitetään lähdettä liian hiljaisella tai siten, että lähteen taso heittelee älyttömästi. ... eli, (vähintäänkin) aina kun äänitetään muuta kuin digitaalista signaalia ;) ... t. Juha | |
![]() 01.11.2006 16:22:20 | |
Aivan totta. Tämä on tärkeää huomata ja tosiaan muistaa se tosiseikka, että se 24-bittisyys kannattaa tässä tilanteessa oikeastaan vain silloin, jostakin syystä äänitetään lähdettä liian hiljaisella tai siten, että lähteen taso heittelee älyttömästi. Minusta se kannattaa aina, koska on siunauksellista saada äänittää ilman, että joutuu tähtäämään koko ajan punaisen alarajalle. Se solisti vetää kuitenkin jossain vaiheessa lähempää ja lujempaa. Rumpalikin löi koko ajan kovempaa kuin tasoja katsottaessa. Kitaristi sai soittaessan näyn siitä, että b-osassa pitää vääntää volumea snadisti kovemmalle... Korvinkuultavia eroja voi muuten testata esimerkiksi äänittämällä peltejä vuorotellen 16- ja 24-bittisenä. Sieltä hiipumispuoleta ne erot löytyvät, jos ovat löytyäkseen. "Käytös siivo ja hillitty sopii lehmälle"
- Laura Latvala | |
![]() 01.11.2006 16:34:06 | |
Minusta se kannattaa aina, koska on siunauksellista saada äänittää ilman, että joutuu tähtäämään koko ajan punaisen alarajalle. Se solisti vetää kuitenkin jossain vaiheessa lähempää ja lujempaa. Rumpalikin löi koko ajan kovempaa kuin tasoja katsottaessa. Kitaristi sai soittaessan näyn siitä, että b-osassa pitää vääntää volumea snadisti kovemmalle... Korvinkuultavia eroja voi muuten testata esimerkiksi äänittämällä peltejä vuorotellen 16- ja 24-bittisenä. Sieltä hiipumispuoleta ne erot löytyvät, jos ovat löytyäkseen. Nii, toiset nauhottaa jotaki jatsia ja toiset käyttää etusia särkijöinä :). | |
‹ edellinen sivu | seuraava sivu › |
› Lisää uusi kirjoitus aiheeseen (vaatii kirjautumisen)