我正在构建一个相当简单的Android应用程序(sdk版本14:ICS),它允许用户一次选择两个音频剪辑(所有都是RIFF / WAV格式,小端,带符号的PCM-16位编码)并将它们组合在一起各种创造新声音的方法 . 我用于此组合的最基本方法如下:
//...sound samples are read in to memory as raw byte arrays elsewhere
//...offset is currently set to 45 so as to skip the 44 byte header of basic
//RIFF/WAV files
...
//Actual combination method
public byte[] makeChimeraAll(int offset){
for(int i=offset;i<bigData.length;i++){
if(i < littleData.length){
bigData[i] = (byte) (bigData[i] + littleData[i]);
}
else{
//leave bigData alone
}
}
return bigData;
}
然后可以通过AudioTrack类播放返回的字节数组:
....
hMain.setBigData(hMain.getAudioTransmutation().getBigData()); //set the shared bigData
// to the bigData in AudioTransmutation object
hMain.getAudioProc().playWavFromByteArray(hMain.getBigData(), 22050 + (22050*
(freqSeekSB.getProgress()/100)), 1024); //a SeekBar allows the user to adjust the freq
//ranging from 22050 hz to 44100 hz
....
public void playWavFromByteArray(byte[] audio,int sampleRate, int bufferSize){
int minBufferSize = AudioTrack.getMinBufferSize(sampleRate,
AudioFormat.CHANNEL_CONFIGURATION_MONO, AudioFormat.ENCODING_PCM_16BIT);
AudioTrack at = new AudioTrack(AudioManager.STREAM_MUSIC, sampleRate,
AudioFormat.CHANNEL_CONFIGURATION_MONO, AudioFormat.ENCODING_PCM_16BIT,
minBufferSize, AudioTrack.MODE_STREAM);
int i = 0;
at.play();
at.write(audio, 0, audio.length);
at.stop();
at.release();
for(i=0;i<audio.length;i++){
Log.d("me","the byte value at audio index " + i + " is " + audio[i]);
}
}
使用上面的代码组合和回放的结果接近我想要的(两个样本在产生的混合声音中仍然可以辨别)但是也存在许多裂缝,砰砰声和其他噪声 .
所以,有三个问题:第一,我是否正确使用AudioTrack?其次,在AudioTrack配置中,endianness在哪里?这些声音本身发挥得很好,声音几乎就像我期望的那样,因此RIFF / WAV格式的小端性质似乎在某处传达,但我不知道在哪里 . 最后,对于带符号的16位PCM编码,我应该看到的字节值范围是多少?我希望在logcat中从上面的Log.d(...)调用看到-32768到32767之间的值,但结果往往在-100到100的范围内(超出该范围的一些异常值) . 也许,超过16位范围的组合字节值可能会产生噪音吗?
谢谢,CCJ
更新:主要感谢Bjorne Roche和William the Coderer!我现在在音频数据中读取short []结构,使用William的EndianInputStream(http://stackoverflow.com/questions/8028094/java-datainputstream-replacement-for-endianness)来计算DataInputStream的字节顺序 . 组合方法已更改为:
//Audio Chimera methods!
public short[] makeChimeraAll(int offset){
//bigData and littleData are each short arrays, populated elsewhere
int intBucket = 0;
for(int i=offset;i<bigData.length;i++){
if(i < littleData.length){
intBucket = bigData[i] + littleData[i];
if(intBucket > SIGNED_SHORT_MAX){
intBucket = SIGNED_SHORT_MAX;
}
else if (intBucket < SIGNED_SHORT_MIN){
intBucket = SIGNED_SHORT_MIN;
}
bigData[i] = (short) intBucket;
}
else{
//leave bigData alone
}
}
return bigData;
}
具有这些改进的混合音频输出质量非常棒!
1 回答
我不熟悉android音频,所以我无法回答你的所有问题,但我可以告诉你基本问题是什么:逐字节添加音频数据是行不通的 . 由于它是有效的,从查看代码,以及它最常见的事实,我将假设你有16位PCM数据 . 然而在任何地方,你都在处理字节 . 字节不适合处理音频(除非音频恰好是8位)
字节是aprox / - 128.你说“我希望从上面的Log.d(...)调用中看到logcat中-32768到32767的值,但结果往往在-100的范围内到100(除此之外有一些异常值)“嗯,当你从字节数组中打印值时,你怎么可能去那个范围? 16位带符号数据的正确数据类型很短,而不是字节 . 如果您打印的是短值,则会看到预期的范围 .
您必须将您的字节转换为短裤并对短裤求和 . 这将照顾您听到的大部分混音噪音 . 既然你正在阅读文件,那么为什么还要转换呢?为什么不用这样的东西把它从文件中读出http://docs.oracle.com/javase/1.4.2/docs/api/java/io/DataInputStream.html#readShort()
下一个问题是你必须处理超出范围的值,而不是让它们“环绕” . 最简单的解决方案是简单地将求和作为整数,“剪辑”到短程,然后存储剪切的输出 . 这将消除您的点击和弹出 .
在伪代码中,整个过程看起来像这样:
你会从“裁剪”步骤中得到一点失真,但是没有简单的方法,裁剪比环绕更好 . (也就是说,除非你的音轨非常“热”,而且在低频时很重,否则失真不应太明显 . 如果是一个问题,你可以做其他事情:例如乘以.5并跳过裁剪,但那么你的输出会更安静,这在手机上可能不是你想要的) .