android – ARM汇编程序NEON – 提高性能
内容导读
互联网集市收集整理的这篇技术教程文章主要介绍了android – ARM汇编程序NEON – 提高性能,小编现在分享给大家,供广大互联网技能从业者学习和参考。文章包含1400字,纯文字阅读大概需要3分钟。
内容图文
我已将部分算法从C转换为ARM Assembler(使用NEON指令),
但现在它比原始C代码慢2倍.
如何提高性能?
Target是ARM Cortex-A9.
该算法从数组中读取64位值.从该值中提取一个字节,然后将其用作另一个表的查找值.
这部分大约完成了10次,每个结果表值与其他值进行异或,最终结果写入另一个数组.
像这样的东西:
result[i] = T0[ GetByte0( a[i1] ) ] ^ T1[ GetByte1( a[i2] ) ] ^ ... ^ T10[ (...) ];
在我的方法中,我在氖寄存器中加载整个数组“a”,然后在arm寄存器中移动右字节,计算偏移量,然后从表中加载值:
vldm.64 r0, {d0-d7} //Load 8x64Bit from the input array
vmov.u8 r12, d0[0] //Mov the first Byte from d0 into r12
add r12, r2, r12, asl #3 // r12 = base_adress + r12 << 3
vldr.64 d8, [r12] // d8 = mem[r12]
.
.
.
veor d8, d8, d9 // d8 = d8 ^ d9
veor d8, d8, d10 // d8 = d8 ^d10 ...ect.
其中r2保存查找表的基址.
adress = Table_adress + (8* value_fromByte);
此步骤(开头加载除外)完成100次.为什么这么慢?
“vld”,“vldr”和“vldm”之间有什么区别 – 哪一个是最快的.
如何仅在霓虹灯寄存器中执行偏移计算?
谢谢.
解决方法:
也许你可以试试
ldrb r12, [r0], #1
add r3, r2, r12, asl #3
vld1.64 {d0}, [r3]
ldrb r12, [r0], #1
add r3, r2, r12, asl #3
vld1.64 {d1}, [r3]
veor d0, d0, d1 // d8 = d8 ^ d1
ldrb r12, [r0], #1
add r3, r2, r12, asl #3
vld1.64 {d1}, [r3]
veor d0, d0, d1 // d8 = d8 ^ d1
...
那不是最好的解决方案.之后,您可以通过重新订购指令来提高性能.
内容总结
以上是互联网集市为您收集整理的android – ARM汇编程序NEON – 提高性能全部内容,希望文章能够帮你解决android – ARM汇编程序NEON – 提高性能所遇到的程序开发问题。 如果觉得互联网集市技术教程内容还不错,欢迎将互联网集市网站推荐给程序员好友。
内容备注
版权声明:本文内容由互联网用户自发贡献,该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 gblab@vip.qq.com 举报,一经查实,本站将立刻删除。
内容手机端
扫描二维码推送至手机访问。